Vision-Language Pre-Trained Models. Мы подробно разберём Flamingo, BLIP-2, LLaVA и LLaVA-1.5
Оторвитесь от предновогодней суеты и уделите один вечер знаниям: 19 декабря в 20:00 пройдёт семинар от VK Lab.
Наш стажёр Даниил Белопольских расскажет про мультимодальные модели, а именно: Vision-Language Pre-Trained Models. Мы подробно разберём Flamingo, BLIP-2, LLaVA и LLaVA-1.5.
А ещё вы узнаете:
— в чём сложность взаимодействия изображений и текста;
— какие датасеты нужны для обучения таких моделей;
— как их сравнивать.
В конце семинара обязательно ответим на ваши вопросы. Подключайтесь!