Или как построить нейросеть-полиглота для понимания токсичности текстов на разных языках.
Современный мир разнообразен, но глобален. И когда мы автоматизируем службу поддержки с помощью чат-бота, краулим и парсим новости, автомодерируем комменты на сайте или же оцениваем упоминания нашего продукта в соцсетях, то мы можем столкнуться с текстами не только на великом и могучем русском языке и даже не только на языке Шекспира, а на абсолютно любом — французском, китайском, арабском и даже каталанском.
Конечно, можно попробовать сделать отдельные модели для пары-тройки наиболее вероятных языков, а потом в случае необходимости масштабировать систему понимания текста, постепенно добавляя новые модели для новых языков. Но, во-первых, качественные современные модели анализа текстов весьма немаленькие, и занимают гигабайты памяти. Во-вторых, надо понять, когда подключать ту или иную модель, т.е. когда пользователь пишет на том или ином языке. И, в-третьих, далеко не для всех языков есть нормальные текстовые корпуса для предобучения, не говоря уже о необходимости формировать разметку для файнтюнинга.
В общем, куда не кинь, всюду клин. И тогда приходит идея — а что, если попробовать сделать одну большую нейросеть-полиглота, которая умела бы понимать текст на произвольном языке? Насколько реалистично воплотить такую идею в жизнь, и какое качество решения можно ожидать?
В своём докладе я постараюсь дать ответы на эти вопросы и поделиться своими рецептами построения мультиязычных глубоких нейросетей на базе популярной сейчас архитектуре Трансформеров и не только.
Работаю преподавателем и научным сотрудником Новосибирского государственного университета. Также осуществляю научное руководство командой машинного обучения в Новосибирском исследовательском центре компании Huawei. Занимаюсь машинным обучением с 2005 года, а особенно люблю распознавание речи и анализ текстов на естественном языке. Кроме обучения искусственных нейронных сетей и других алгоритмов, также занимаюсь обучением «естественной» нейронной сети своего маленького сына, и надеюсь, что мне это удаётся :-)
Презентация:
Codefest:
5 views
733
230
5 years ago 01:55:23 49
Лекция Валерия Бондаренко Иван Бунин путешествие в изгнание
5 years ago 00:03:40 9
Иван Бондаренко
9 years ago 01:29:07 45
Revolution Sports 2: Каретный Никита - Бондаренко Иван (финал)
5 years ago 00:01:03 23
Бондаренко Иван, 5 лет
4 years ago 00:40:39 4
Нейронная сеть, которая сомневается - Иван Бондаренко | Data Science
3 years ago 00:47:12 37
Иван Бондаренко Специалист в области машинного обучения
6 years ago 00:06:58 405
31kumikata
2 years ago 00:39:45 1
Иван Бондаренко. «Я твой дом труба шатал!»
3 years ago 00:00:47 91
Иван Бондаренко - Не для меня (Трейлер)
1 year ago 00:02:46 1
Ива.А.Бондаренко.Поёт А.Пир-Будагян.
9 years ago 00:59:34 3
Revolution Sports 2: Фесенко Иван - Бондаренко Иван (полуфинал)
5 years ago 00:01:29 3
Анонс лекции Валерия Бондаренко Иван Бунин путешествие в изгнание
7 months ago 00:07:53 1
ВЕСЕННИЙ КУБОК ВЕТЕРАНОВ | ИВАН ГЕРАСИМОВ (WHITE_P) - ЕВГЕНИЙ БОНДАРЕНКО (worthy-wont9) |1/32 ФИНАЛА
2 years ago 00:39:19 10
Иван Бондаренко | Глубокие нейросети для распознавания русской речи на опенсорсе
7 months ago 01:29:32 1
Интим не предлагать. Мелодрама (С. Бондаренко)
4 years ago 00:55:37 25
Распознавание речи: как сделать Speech-to-Text своими руками / Иван Бондаренко (МФТИ)
1 year ago 01:01:17 1
Иван Бунин лекция Валерия Бондаренко | Лекции по литературе 2023
11 years ago 00:02:56 214
IVAN BONDARENKO - BACKSTAGE
9 years ago 01:14:14 3
Чемпионат Днепропетровска по свободной пирамиде 2016 (полуфинал): Бондаренко Иван - Чубин Максим.
2 years ago 01:05:47 1
Иван Бондаренко: “Распознавание речи и анализ текста методами искусственного интеллекта“
8 years ago 00:00:59 18
Бондаренко Георгий 6 лет, Долженко Иван 6 лет.
4 years ago 00:01:28 3
Бондаренко о задержании Ивана Сафронова
12 years ago 00:08:38 113
Видео-поздравление с Днём Рождения Ивана Бондаренко)))