OLA-VLM : метод повышения визуального восприятия в MLLM с помощью вспомогательной дистилляции эмбедингов
OLA-VLM : метод повышения визуального восприятия в MLLM с помощью вспомогательной дистилляции эмбедингов.
OLA-VLM - метод, который предлагает дистиллировать знания от визуальных энкодеров в противовес традиционному способу обучения MLLM.
В качестве целевых визуальных энкодеров были выбраны модели сегментации, оценки глубины и генерации изображений. На каждом слое LLM обучался проб, который должен прогнозировать выход соответствующего целевого энкодера.
Так архитектура OLA-VLM получила предикторы встраивания, которые получают токены из LLM и генерируют предсказания для вычисления потери встраивания. Эта потеря минимизируется вместе с потерей предсказания следующего токена.
Для улучшения восприятия целевой информации OLA-VLM использует специальные токены ⟨t⟩, которые добавляются к токенам изображения на входе LLM. Во время фазы настройки MLLM обучается только с использованием потери предсказания следующего токена. При этом специальные токены ⟨t⟩ остаются в входной последовательности, формируя неявную визуальную цепь рассуждений.
Эксперименты показали, что OLA-VLM превосходит модели семейства LLaVA-1.5 как по качеству визуальных представлений, так и по эффективности на различных тестах.
Методом OLA-VLM были обучены
1 view
25
6
3 hours ago 00:01:11 1
OLA-VLM : метод повышения визуального восприятия в MLLM с помощью вспомогательной дистилляции эмбедингов
2 years ago 00:08:21 6.7K
15-04-2017 - Алма-Ата, Саина-Мустафина, выезд из кольца НЕ из правого ряда
7 years ago 00:47:35 244
Клинический перинатальный психолог. Нужен ли он? Ольга Шкуротенко