Визуально-языковые модели для навигации и манипуляции / Иван Лаптев, MBZUAI, VisionLabs

В последнее время компьютерное зрение достигло больших успехов в классификации, сегментации и текстовом описании изображений. Но нынешние методы всё ещё далеки от понимания визуальных сцен. Что произойдёт, если стакан сдвинуть за границу стола? Какие действия нужны, чтобы посадить дерево? Создание систем, которые смогут отвечать на подобные вопросы по входным изображениям сцен, откроет большие возможности для будущих приложений робототехники и персональных визуальных ассистентов. О моделях и методах обучения для визуальной навигации и манипуляции расскажет Иван Лаптев, приглашённый профессор MBZUAI, руководитель исследований в VisionLabs. Подробнее о докладе и спикере: Доклад в текстовом формате — в контент-хабе конференции:

1 view

732

174