RTMW(3D): Многообъектная 2D- и 3D-оценка позы всего тела в реальном времени
RTMW(3D): Многообъектная 2D- и 3D-оценка позы всего тела в реальном времени.
RTMW (набор моделей оценки позы всего тела нескольких человек в реальном времени), - это серия моделей, предназначенных для решения тонкостей оценки позы всего тела.
RTMW основан на исследованиях RTMPose и включает в себя новые методы обработки информации о позе и различных частей тела.
Для решения ключевой проблемы оценки локальных областей низкого разрешения (например, стопы, кисти рук) были применены техники:
- PAFPN - пирамидальная сеть функций частичного агрегирования;
- HEM - модуль иерархического кодирования для повышения разрешения локальных участков;
- FPN - метод, улучшающий разрешение отдельных объектов за счет агрегирования функций с разных уровней сетевой пирамиды.
Таким образом, архитектура моделей RTMW состоит из принципов RTMPose и объединяет модули PAFPN и HEM и FPN. Одновременное использование этих модулей значительно повышает точность оценки позы всего тела.
Для оценки 3D позы всего тела была разработана модель RTMW3D, которая использует прогнозирование оси Z для головы декодера и устанавливает новую корневую точку для человеческого скелета.
Применение техники смещения оси упрощает процесс обучения модели и позволяет применять ее в задачах, связанных с высокой интенсивностью динамики объекта оценки, например, спортивное состязательное видео.
RTMW и RTMW3D тестировались на общедоступных наборах данных (COCO-WholeBody и H3WB) и показали хорошие результаты производительности и точности, в том числе в задаче оценки 3D поз всего тела.
Модели RTMW c описанием различий, вариантами форматов и прямой загрузкой на странице проекта rtmpose
Модели RTMW3D на странице проекта rtmpose 3d
Внимательно ознакомьтесь с материалами общего репозитория mmpose в ветках соответствующих проектов и документацией перед началом использования.
Лицензирование: Apache-2.0 license
Arxiv
Open-Mmlab [Stars: | Issues: 189 | Forks: ]
42 views
20
12
5 months ago 00:00:50 42
RTMW(3D): Многообъектная 2D- и 3D-оценка позы всего тела в реальном времени