Статья опубликована в № 3778 от 25.02.2015 под заголовком: Электронные разговоры

Как системы управления голосом меняют мир

Скоро такие системы будут сопровождать нас повсюду - они уже стали обязательной частью операционных систем мобильных устройств
  • Елизавета Серьгина
Встроенные в смартфоны персональные помощники учат владельцев общаться с ними голосом
М. Стулов / Ведомости
Путь стартапа

Siri была создана как стартап в декабре 2007 г. В 2008 г. компания получила $8,5 млн от Menlo Ventures и Morgenthaler Ventures, а в 2009 г. дополнительно привлекла $15,5 млн от тех же инвесторов и гонконгского миллионера Ли Кхасина. Apple выкупила Siri в 2010 г., по данным Techcrunch, сумма сделки превысила $200 млн.

Два года назад американская технологическая корпорация Honeywell в своем блоге на сайте Mashable.com опубликовала «Открытое письмо науке», позже его озвучил американский актер Джон Слэттери. Авторы письма недоумевали: если на дворе 2013 год, то где же роботы, способные общаться с человеком и отвечать на его команды? Ведь к этому времени, посчитали в Honeywell, мы все должны быть ими окружены. Персональный помощник с функцией голосового управления типа Siri от Apple, писали они, «не в счет».

Разговорчивые смартфоны

Хотя Siri и правда пока далеко до полноценного робота, она, как и другие подобные ей приложения для смартфонов, похоже, очень полюбилась пользователям. В своем исследовании от июня 2014 г. американская компания Thrive Analytics сообщила, что более половины взрослых американцев (56%) используют голосовое управление в своих смартфонах. Причем почти четверть из них (24%) сообщили, что делают это ежедневно. А по оценке Google, приведенной в его октябрьском отчете, к помощи ассистентов с голосовым управлением (Siri, Google Now или Cortana) хотя бы раз в день прибегает около 55% пользователей смартфонов в США в возрасте 13-18 лет и 41% взрослых. При этом, по оценкам Thrive Analytics, Siri оказалась самой популярной среди программ такого рода - ее используют 67%, Google Now - 45%, а Cortana от Microsoft пока используется лишь 5% владельцев смартфонов.

Гиганты ставят на голос

Apple первой из крупных корпораций встроила функцию голосового управления в одно из своих ведущих мобильных устройств. Siri стала эксклюзивной функцией смартфона iPhone 4s на момент его презентации в октябре 2011 г. Сейчас она - неотъемлемая часть iOS.

Google масштабировал свой проект Google Voice Search в том же 2011 году. Изначально проект носил внутри компании название «Мэджел» - в честь жены сценариста научно-фантастического сериала «Звездный путь» Джина Родденберри Мэджел Баррет: ее голосом разговаривала компьютерная система этого сериала. Затем персональный ассистент получил название Google Now и стал значимой частью мобильной операционной системы Google Android.

В прошлом году Microsoft тоже встроил в свою операционную систему для мобильных устройств «разговаривающего» помощника Cortana. В отличие от конкурентов она призвана предугадывать желания пользователя. Если Google Now и Siri только отвечают на запросы, то Cortana обладает некоторой самостоятельностью. Имея доступ к электронной почте, адресной книге, данным о местоположении и т. д., она дает пользователю прогноз погоды, советует выехать на запланированное мероприятие заранее, чтобы не опоздать из-за пробок, и т. д. Прототипом этой системы послужил ассистент, который раньше был встроен в Microsoft Office, - «Скрепка».

Говорящий «Навигатор»

У российского «Яндекса» также есть проект развития речевых технологий - Yandex SpeechKit. Его команда появилась в 2012 г., рассказывает руководитель направления Денис Филиппов: «Стало ясно, что люди активно пользуются мобильными устройствами не только дома, но и на улице, за рулем, и голосовое управление может быть очень полезным».

Распознавание речи Yandex SpeechKit уже давно используется в сервисах «Яндекса»: поиске, навигаторе и др. Сейчас программа умеет выделять смысловые объекты в речи, включаться по голосовой команде и синтезировать речь. Всеми технологиями «Яндекс» готов делиться с другими компаниями, говорит Филиппов. «Яндекс» предоставляет доступ к своим речевым технологиям мобильным разработчикам с помощью Yandex SpeechKit Mobile SDK. Он дает возможность бесплатно обрабатывать до 10 000 голосовых запросов в сутки. Для других продуктов есть облачный сервис SpeeсhKit Cloud.

Роботы стали общительнее

В основе устройства нынешнего поколения интеллектуальных интерактивных помощников лежат две тесно связанные технологии - распознавание устной речи и смысловой поиск ответа на вопрос, рассказывает Владислав Шершульский, директор программ технологического сотрудничества Microsoft в России. По его словам, люди давно научили компьютеры распознавать отдельные слова и короткие фразы, но лишь относительно недавно - в конце 2000-х - появились технологии, позволяющие действительно надежно распознавать естественную связную речь и понимать ее смысл.

Как для распознания речи, так и для ее понимания используются многослойные нейронные сети; программа подражает тому, как, по мнению ученых, работает человеческий мозг, рассказывает эксперт. Эффективность таких систем быстро растет и они становятся все более похожи на человека, объясняет он.

Чтобы искать ответы на любые вопросы пользователей, системе необходимо иметь доступ к огромным массивам серверов, говорит Шершульский: на них хранится вся информация, которая может понадобиться при подготовке содержательного ответа. Таких серверов и софта еще 10-15 лет назад просто не было.

«Интервью, спонтанные диалоги качественно и хорошо распознавать в реальном времени не научился пока никто», - говорит Филиппов из «Яндекса». Его команда двигается к решению этой задачи постепенно: в 2013 г. научились очень хорошо распознавать короткие запросы на любую тематику, в конце 2014 г. сделали следующий шаг - распознавание небольших текстов произвольной тематики и разработку языковой модели для диктовки.

Не только смартфоны

Системы голосового управления уже сейчас активно используются в автомобилях. Apple в этом году предложила свою автомобильную платформу CarPlay, которая позволяет водителям подключить их iPhone и с помощью встроенного экрана на панели управления автомобиля просматривать карты, звонить, отправлять и получать сообщения с помощью Siri, прослушивать музыку. Google представил операционную систему для автомобилей Android Auto. Компания Nuance, технологии которой, по слухам, применяются Siri, уже давно разрабатывает и устанавливает в автомобили свои системы распознавания речи.

Nuance также выпустила приложения, позволяющие расшифровывать аудиозаписи и переводить их в текст в реальном времени.

Еще одно направление развития систем управления голосом - call-центры. Многие интеграторы сейчас предлагают установить так называемого виртуального оператора: он задает клиентам наводящие вопросы и способен распознавать определенные слова.

По подсчетам Дмитрия Тяжлова, руководителя направления контакт-центров Orange Business Services в России и СНГ, стоимость минуты трафика на голосовой платформе в 10 раз дешевле той же минуты, обработанной оператором.

Сергей Чеховских, руководитель направления call-центров компании «Крок», рассказывает, что голосовое управление в call-центрах используют сотовые операторы, банки, сетевые ритейлеры, сбытовые компании.

Сергей Ступарь, начальник проектного отдела российского подразделения логистической компании Itella, рассказывает, что его компания использует голосовое управление в системе управления складом. Это стоит чуть дороже, но в среднем экономит время на одну операцию для сотрудника на 26%, говорит он.

Филиппов из «Яндекса» уверен, что в будущем все больше устройств будет оснащаться системами голосового управления. «Возможно, эти системы со временем станут более человечными. Холодильник будет высказывать недовольство тем, что вы недостаточно плотно закрыли дверцу. И не факт, что человеку это всегда понравится», - предупреждает Шершульский из Microsoft.

Пока никто не прокомментировал этот материал. Вы можете стать первым и начать дискуссию.
Комментировать