Доброкачественное переобучение в моделях, дополненных поиском по хранилищу

Спикер Женисбек Ассылбеков, Назарбаев Университет, Нур-Султан, Казахстан Тема Научно-технический вебинар «Доброкачественное переобучение в моделях, дополненных поиском по хранилищу» Спикер о вебинаре: Теория длинного хвоста Фельдмана (STOC 2020) утверждает, что запоминание редких/атипичных примеров неизбежно при обучении на естественных данных. Несмотря на то, что современные глубокие нейронные сети имеют возможность запоминать (почти) всю обучающую выборку, при обучении с SGD они этого не делают. Напротив, они доброкачественно переобучаются, то есть делают точные прогнозы на новых данных, несмотря на идеальную подгонку к обучающей выборке. Грубо говоря, все это происходит из-за неявной предвзятости к простоте: SGD предпочитает более простые и надежные модели и использует возможности нейронной сети для запоминания, чтобы подгоняться к нетипичным/редким примерам только в случае необходимости. В то же время специалисты по машинному обучению (особенно в области обработки естественного языка) придумали, как использовать эту возможность для более эффективного обучения: модели, дополненные поиском по хранилищу данных (kNN-LM, RETRO) явно запоминают (часть) обучающей выборки в хранилище и, таким образом, пытаются (частично) снять нагрузку запоминания с нейронной сети. Насколько мне известно, в настоящее время нет теоретического анализа доброкачественного переобучения в таких моделях. В своем выступлении я предложу несколько возможных исследовательских вопросов, касающихся доброкачественной переобучения в моделях, снабженных поиском по хранилищу, для дальнейшего обсуждения с участниками вебинара. Страница вебинара на сайте НТР: Наш чат в Telegram: aGZorUQIvT45MTMy
Back to Top