Каждый лингвист, юрист, бухгалтер, программист, переводчик или аналитик постоянно работает с текстами. В этом им всё больше и больше помогают компьютерные программы: системы машинного перевода, поисковики, чат-боты, программы проверки правописания и многие другие. Как именно они это делают? Как компьютеру удаётся извлекать смысл и полезную информацию из текстов? В короткой лекции мы постараемся разобраться, как происходит работа с текстами в компьютерных программах, обсудим ставший уже стандартным пучок технологий (библиотеки автоматической обработки текстов, глубокие нейронные сети, публично доступные датасеты, системы разметки и подготовки данных).
Станислав Ашманов - генеральный директор компании «Наносемантика»
Лекция была подготовлена специально для Второго онлайн-марафона Тотального диктанта “Язык и интернет“