Информатика 7 класс. §17 Системы перевода и распознавания текста
Сегодня, когда мы можем получить доступ к знаниям со всего мира, возникает потребность в быстром автоматизированном переводе. Эту задачу выполняют программы-переводчики.
Переводчики знают особенности построения фраз переводимых языков, грамматические формы, и могут выдать вполне грамотную фразу на вашем родном языке.
Главная трудность автоматического перевода - многозначность слов. Что бы помочь правильно подобрать значение – нужно определить из какой области текст.
Другая проблема – использование нарицательных значений, и фразеологических оборотов.
Для этого программы-переводчики применяют шаблоны фраз. Но всё равно получаются ошибки.
Идея передать перевод «коллективному разуму», которую применял Google не принесла успеха. Переводчик Google предлагал пользователям улучшить перевод и запоминал предложенные варианты. Но нашлось слишком много шутников, которые стали давать фривольные варианты перевода. Известен мем с переводом в Чехии надписи «Берегите голову» как «Не вмажьтесь головой» с матерным словом.
Продвинутые программы перевода позволяют переводчику в удобном интерфейсе проходить последовательно по каждому слову и выводят для каждого слова набор его значений. Пользователю остаётся только щёлкать мышкой на нужном значении.
Есть также полуавтоматические программы – в них вообще может не быть словаря – они запоминают как вы перевели текст, и в следующий раз встречая такое же сочетание слов подставляют ваш вариант.
Для тех, кто знает иностранный язык, но не знает некоторых слов, есть программы – словари. Вы просто подводите мышку к незнакомому слову и программа показывает варианты перевода.
Вообще, надо сказать, что появление бесплатных переводчиков подкосило рынок программ перевода. Большинству людей достаточно корявого перевода, а кто хочет качественную работу – обращается к профессионалам. Количество покупателей упало, и сделало разработку нерентабельной.
* Распознавание текста
Лидером в России является российская программа FineReader. Кроме распознавания она умеет распознавать шрифт, и даже сохраняет форматирование!
Алгоритм распознавания сначала выделяет объекты похожие на фразы, затем разбивает её на отдельные буквы, и на слова.
Затем либо сравнивает каждую букву с эталоном – если тест хорошо напечатан, либо может применять «фонтанное преобразование» метод – при которым анализируются опорные точки схождения элементов, изменения направления, и т.п. «Фонтанное преобразование» может распознать плохо пропечатанный текст, и даже разобрать рукописный текст – для него не важно совпадает ли буква с шаблоном, а важны «опорные точки», которые даже при нетвёрдом почерке обычно у всех одинаковы.