Электронный полиглот

Системы машинного перевода, основанные на анализе больших массивов данных, научились воспроизводить иноязычную речь на местном языке практически в режиме реального времени
Современные системы перевода изучают незнакомые языки, сравнивая огромные массивы текста/ REUTERS/ Lisi Niesner

В конце октября 2012 г. Microsoft провела в китайском городе Тяньцзинь сеанс почти синхронного машинного перевода английской речи в китайскую. Компьютер воспроизводил английскую речь директора Microsoft по исследованиям Рика Рашида на мандарине (язык северного Китая), причем имитируя голос говорившего. Каждый отрывок речи на китайском вызывал у аудитории восторг, а ссылки на видеозапись события тут же разнеслись по интернету.

Преодоление вавилонского проклятия – языкового барьера является давней мечтой человечества. В «Деяниях апостолов» повествуется о том, что первые христиане получили от Бога дар «говорения на иных языках»: он должен был помочь им, в частности, распространять веру среди народов. В конце XIX в. варшавский врач и лингвист Лазарь Заменгоф, уверенный, что межэтническая ненависть коренится во взаимном непонимании, решил исправить это зло, создав международный язык – эсперанто. А в середине XX в., с появлением первых ЭВМ, ученые предложили решить проблему с помощью компьютерного перевода.

Впрочем, качество компьютерного перевода долго оставляло желать лучшего. В конце 1990-х гг. в русскоязычном компьютерном сообществе был популярен типичный образчик машинного перевода – «гуртовщики мыши»: так программа перевела с английского словосочетание «драйверы для мыши».

Сейчас перед разработчиками речевого (speech-to-speech, S2S) компьютерного перевода стоят задачи распознавания оригинальной речи, синтеза переведенной, а также совершенствования самого перевода. Серьезный шаг в эту сторону сделан благодаря технологиям искусственного интеллекта. Если классический подход к переводу состоял в том, чтобы сформировать базу знаний, основанную на правилах языка, то сейчас по мере роста вычислительных мощностей стал возможен другой подход – статистический. Его суть – сравнение больших объемов языковых пар, т. е. идентичных друг другу текстов на двух разных языках. Так работает популярный сервис Google Translate, по умолчанию встроенный в браузер Chrome. Этим принципом руководствуется и Microsoft.

Переводчик Microsoft Translator – облачная служба, основанная на лингвистико-статистической системе машинного перевода, которая сейчас знает 39 языков, включая русский и украинский, говорит директор по технологиям «Microsoft Россия» Олег Сютин. Эта служба встроена в поисковик Bing, браузер Internet Explorer, офисный пакет Microsoft Office, сервис мгновенных сообщений Lync.

Но этим применение Microsoft Translator не ограничивается. Приложение Translator для Windows Phone использует технологию Microsoft Translator для голосового перевода и уже работает для некоторых пар языков – в основном внутри романо-германской группы, а также при переводе с английского на китайский. Функция речевого переводчика состоит в распознавании устной речи, ее переводе на другой язык и синтезе полученного текста в живую речь. В перспективе эту систему можно использовать для любых языков, для которых накоплено достаточно материала – фонетического (расшифрованные в текст образцы речи) и лингвистического (качественные переводы с одного языка на другой). Для создания полноценной системы перевода требуется от сотен тысяч до миллионов адекватно переведенных предложений, говорит Сютин.

Одной из самых рекламируемых особенностей операционной системы Apple iOS пятой версии и iPhone 4S, представленных в октябре 2011 г., стала голосовая платформа Siri, которая по замыслу Apple выполняет функции личного секретаря пользователя. Правда, русский язык она пока не поддерживает. А вот Microsoft в конце декабря 2012 г. добавила русский в список языков, который распознает ее платформа для мобильных устройств Windows Phone 8. Встроенный в Android 4.1 персональный помощник Google now распознает пока только английский, хотя голосовой поиск Google поддерживает и русский.

Ускорить создание работоспособной системы речевого перевода с русского и на русский могли бы помощь энтузиастов и сотрудничество с российскими лингвистическими институтами, а также с компаниями, профессионально занимающимися переводами разных документов и текстов, говорит Сютин. Правда, организовать такое сотрудничество под силу только государству, отмечает он.

Государство пока не сотрудничает с компаниями в области машинного перевода, говорит замминистра связи Марк Шмулевич. Но перевод S2S он считает перспективным направлением, способствующим развитию туризма, обучения, самообразования и т. п. По мере развития доступа к интернету все больше россиян смогут смотреть видеолекции на других языках, проходить образовательные курсы, надеется Шмулевич. Нейронные сети уже можно достаточно успешно обучать на огромных выборках данных, так что качество перевода может быть вполне приемлемым, добавляет он.