Визуально-языковые модели для навигации и манипуляции / Иван Лаптев, MBZUAI, VisionLabs
В последнее время компьютерное зрение достигло больших успехов в классификации, сегментации и текстовом описании изображений. Но нынешние методы всё ещё далеки от понимания визуальных сцен. Что произойдёт, если стакан сдвинуть за границу стола? Какие действия нужны, чтобы посадить дерево? Создание систем, которые смогут отвечать на подобные вопросы по входным изображениям сцен, откроет большие возможности для будущих приложений робототехники и персональных визуальных ассистентов.
О моделях и методах обучения для визуальной навигации и манипуляции расскажет Иван Лаптев, приглашённый профессор MBZUAI, руководитель исследований в VisionLabs.
Подробнее о докладе и спикере:
Доклад в текстовом формате — в контент-хабе конференции:
1 view
731
174
3 months ago 01:48:17 1
Сергей Ушакин. Отпечатки прошлого: о постколониальных архивах советской фотографии
4 months ago 00:16:54 1
Новая нейросеть уничтожила ChatGPT 4 по всем пунктам! Обзор Claude 3
4 months ago 00:41:36 1
OpenAI и Figure показали человекоподобного робота, который думает с помощью ИИ — ChatGPT обрел тело
4 months ago 00:41:37 1
Визуально-языковые модели для навигации и манипуляции / Иван Лаптев, MBZUAI, VisionLabs
6 months ago 01:26:41 1
Стратегия WhatsApp маркетинга 2024. Рассылки в WhatsApp + ChatGPT
6 months ago 00:09:15 1
На какие нейросети обратить внимание в 2024 году
1 year ago 00:13:52 1
CG Новости. Chat GPT обзаводится внешностью и голосом. ИИ описывает YouTube. Ретаргетинг в Cascadeur
1 year ago 00:04:41 10
КАКИЕ ПРОФЕССИИ ПОДХОДЯТ ДЛЯ МЕЛАНХОЛИКОВ 2023 АНАЛИТИК ИЛИ АУДИТОР
3 years ago 00:34:14 6
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision