🦍 ЭВОЛЮЦИЯ АЛГОРИТМОВ: ПАЛЕХ 👉 КОРОЛЁВ 👉 YATI В ЯНДЕКСЕ
👉 Эволюция алгоритмов ранжирования Яндекса: Палех ⤏ Королёв ⤏ YATI. Что менялось в процессе? Презентация: , чатик:
1. Палех:
- Deep Structured Semantic Model.
- Учёт запроса и заголовка документа.
Использует: Буквенные триграммы (〖3“ד 10〗^4), слова 〖(10〗^6), биграммы слов 〖(10〗^6).
- Только для 150 «лучших» документов.
2. Королёв:
- Та же основа, что и в алгоритме Палех (DSSM).
- Частичный учёт текста (важные зоны).
- Появляются стримы: запросный индекс для URL клики.
- «На 2 уровня» ранжирования глубже: 200 000 документов.
3. YATI:
- Принципиально новая архитектура нейросетей-трансформеров.
- Больше стримов: анкор-лист, запросный индекс для URL по кликам.
- Большая полнота данных в учёте текста. Тексты до 10 предложений учитываются целиком.
= Нюансы в YATI: обучение и фичи =
1. Переформулировки и «пред-обучение на клик». База из 1 миллиарда переформулировок: [первичная фраза] ⤏ нет клика ⤏ [новая фраза]. Модель учится предсказывать вероятность клика.
2. Оценки толокеров. На втором этапе используются «более дешевые и простые оценки» толокеров (Яндекс.Толока).
3. Оценки асессоров. Далее для обучения используются экспертные (асессорские) оценки релевантности.
4. Данные, подаваемые на вход:
- Текст запроса.
- Расширение запроса (синонимы, доп. слова).
- «Хорошие» фрагменты документа.
- Стримы для документа: анкор-лист, запросный индекс для документа (даже не показы, а клики по запросам).
Спикер: Дмитрий Севальнев из Пиксель Тулс.