Распознание – сила

Прошлое, настоящее и будущее систем автоматического считывания текста
Freepik
Freepik

Откройте на компьютере фотографию в формате jpeg. Найдите на ней какую-нибудь надпись – например, вывеску «Продукты» на фасаде магазина. Попробуйте скопировать надпись и перенести в виде текста в файл Word. Ничего не получится. А теперь отсканируйте в формате PDF распечатанный на принтере или пишущей машинке лист А4. Скорее всего, вы сможете захватить нужный вам фрагмент и вставить для дальнейшей работы в текстовый редактор. Это произошло потому, что в пакет программ для сканера внедрен OCR-модуль. OCR значит optical character recognition, «оптическое распознавание символов». В процессе OCR система преобразует графическое изображение в буквы и цифры.

Пишите письма

Исследования по теме OCR начались в конце 1920-х гг., да и на практике мы сталкиваемся с ними очень давно. Полвека назад, в 1970-х, граждан СССР призывали указывать на почтовых отправлениях индекс получателя. «Индекс ускорит доставку письма адресату», – гласила социальная реклама эпохи развитого социализма. Ускорение достигалось за счет того, что первичную обработку индексированных писем могла осуществлять машина – но только при условии, что цифры на конверте были написаны правильно, прямыми линиями, по утвержденному образцу. Чем не OCR?

Коммерческий интерес к OCR проявился в России в начале 1990-х гг. Представьте, что у вас имеется распечатанный договор от контрагента на английском языке. Вы хотите перевести документ на русский с помощью компьютера. Но для компьютера отсканированный текст ничем не отличается от фотографии. С ним нельзя работать. Задачу взялась решить молодая российская компания BIT Software (позднее она стала называться ABBYY), которая к тому моменту уже представила автоматический переводчик Lingvo.

Первая версия программы ABBYY FineReader вышла 30 лет назад, в 1993 г. Она конвертировала изображения, в том числе со сканеров, в понятые компьютеру символы. Договор превращался в текст, который вы могли копировать, редактировать, переводить на разные языки.

Обучением первой программы занимался лично Давид Ян, основатель ABBYY, сегодня – ИT-фигура мирового масштаба. Согласно корпоративной легенде, на обучение машины Ян потратил два месяца, работая по 12–14 часов в день.

OCR в России, как нетрудно догадаться, имеет свою специфику: здесь говорят и пишут на русском языке и даже лучшие западные программы не учитывали все варианты написания букв «ю», «щ» и прочих даров Кирилла и Мефодия. Но FineReader быстро перерос статус локального продукта, а число поддерживаемых программой языков увеличилось примерно до 200.

Что на складе?

Возможности систем OCR давно превзошли уровень «перевести отсканированную страницу книги в редактируемый текст», хотя задача не утратила своей актуальности: попробуйте вручную перепечатать из учебника на экран компьютера без ошибок хотя бы три абзаца и поймете, сколько сил отнимает эта рутинная работа. А теперь представьте, что у вас коробки документов…

«МФУ из нашей флагманской линейки способно отсканировать 100 листов формата А4 меньше чем за минуту. В течение 2–5 минут вы получите готовый PDF-документ с расшифрованным текстом. Коробки документов со временем переместятся на флешку, содержимое которой будет индексировано – вы быстро найдете нужный вам файл. Современные OCR читают даже синие учетные штампы на конструкторской документации 1930-х гг. – был у нас такой практический пример», – говорит Егор Говорков, менеджер по продукту «Коника Минолта Бизнес Сольюшнз Раша».

OCR применяется и в корпоративных системах предотвращения утечек информации. Например, программа способна анализировать содержимое всех исходящих по почте графических файлов и подать сигнал тревоги, заметив «слив» персональных данных, сканов паспортов или анкет.

Используя технологии искусственного интеллекта, компьютер не просто распознает текст – он понимает его смысл. Возьмем известный пример омонимии: «Эти типы стали есть на складе». О чем говорится в предложении? О наличии каких-то видов стали на складе? Или о том, что какие-то люди начали прием пищи в производственном помещении? Задача программы – понять смысл написанного.

«Клиентам мало одного распознавания текстов, им важна классификация контента, чтобы потом они быстро смогли найти важный документ. Если система поймет, что речь идет о стали, металле, документ получится найти по запросу “конструкционные материалы”. Если же по контексту понятно, что под типами имеются в виду люди, которые что-то ели на складе, документ появится в выдаче по запросу “прием пищи”», – объясняет Светлана Дергачева, генеральный директор компании Content AI.

Уроки чистописания

Первые программы OCR «ломались» на незнакомых шрифтах: они в буквальном смысле просили пользователя подсказать, как читать ту или иную букву. Сегодня OCR работает с рукописным текстом.

«Проще всего распознаются тексты, в которых человек специально пишет печатными буквами, например заполняя клеточки анкеты, или слова, выведенные аккуратным, каллиграфическим почерком, каким заполняют дипломы и другие важные документы, – делится наблюдениями Егор Говорков. – Между тем спрос на услугу огромен, прежде всего со стороны банков и кадровых служб больших компаний, которым надо ежемесячно обрабатывать тысячи заполненных от руки анкет. Рынку нужны новые решения для распознавания рукописных текстов на русском языке. Мы ждем в этом году релиз от компании Content AI. В части распознавания кириллических символов продуктам этого вендора традиционно нет равных в мире».

В Content AI признают, что планируют в этом году внедрить модуль распознавания русского рукописного текста в своем флагманском продукте ContentCapture, но точных дат выхода не называют.

«По нашим оценкам, основной спрос на распознавание рукописного текста формируют даже не музеи и различные ведомства с их многочисленными архивами, а бизнес, которому нужны все большая автоматизация и повышение эффективности процессов, – говорит Иван Волков, технический директор Content AI. – Необходимы решения, способные извлекать текст из разных отсканированных или сфотографированных документов – от паспортов до анкет».

Улучшайте почерк

Классическая система OCR начинает работу с того, что пытается разделить слово на буквы. В случае с рукописным текстом тут две проблемы: люди пишут по-разному, да и понять, где заканчивается одна буква и начинается другая, совсем непросто.

«Со сложностью разделения слитно написанных слов на символы создатели систем OCR столкнулись еще на арабских печатных текстах. Задачу успешно решили в 2010-х гг. с помощью искусственного интеллекта на основе нейросетей», – вспоминает Светлана Дергачева.

Нейросеть – это алгоритм внутри компьютерной программы. Для работы с данными искусственному интеллекту не обязательно покидать пределы вашего ноутбука или корпоративного сервера. Важнее, как была натренирована программа до того, как попасть к пользователю, и способна ли она эффективно обучаться дальше.

«Для успешного распознавания рукописного текста нейросеть должна уметь читать и по буквам, и целыми словами, учитывать контекст и форму документов. Нейросети хорошо распознают тексты, похожие на те, которые использовались на этапе их обучения. Грубо говоря, если программу учили на примерах страниц паспорта с рукописными данными о регистрации, она с трудом справится с распознаванием школьного сочинения. И наоборот: не факт, что нейросеть, натренированная на ученических тетрадях, покажет хорошие данные на паспортах», – говорит Иван Волков.

Впрочем, в деле распознавания рукописных текстов в ближайшие годы не стоит ждать чуда. Если человеку не по силам прочитать сделанную им впопыхах запись или каракули лечащего врача больше похожи на морские волны, чем на осмысленный текст, то и искусственный интеллект не сможет вам помочь.

Искусственный интеллект учится у человека, но сложно научить тому, в чем вы сами не разбираетесь.