Алло, банк слушает


О технологии распознавания речи говорят давно, но практическая ее реализация до недавнего времени, как правило, оставляла желать лучшего. Существенным шагом вперед стали система Siri в iPhone (начиная с модели 4S) и голосовой поиск Google в устройствах на платформе Android. А недавно Nuance, один из ведущих участников рынка систем распознавания речи, обновила свою систему Nina, дополнив распознавание американского английского еще 38 языками. Заодно Nuance выпустила ряд продуктов для разработчиков банковских приложений. Эти продукты поддерживают распознавание речи на британском английском, французском, испанском и итальянском языках.

Программа Nuance требует, чтобы пользователь произнес условленную фразу, и биометрическая функция точно идентифицирует говорящего. Точность распознавания при этом приближается к 100%, уверяет директор по продуктам и маркетингу Nuance Себастиан Рив. Кроме того, программа может обнаружить неуверенность в речи и распознать попытку подменить живой голос аудиозаписью. «Когда человек говорит неуверенно, это может означать, что он мошенник, и программа для проверки задает вопрос, опираясь на базу знаний, – объясняет Рив. – А система защиты от подмены голоса записью сравнивает речь говорящего с ранее записанными звонками. Если обнаруживается полное совпадение, следует отказ в доступе».

Новый продукт Nuance появился на рынке после успешного тестирования корпорацией USAA, предоставляющей финансовые услуги в основном американским военнослужащим, рассказывает Рив. Теперь USAA планирует применить сервис, использующий голосовые команды, в работе со всеми своими клиентами.

Разработка Nuance наглядно демонстрирует возможности речевых технологий с точки зрения взаимодействия человека с устройствами и программами. Производители смартфонов с физической клавиатурой, очевидно, считают ручной набор текста основным способом его ввода в устройство. Иной точки зрения придерживаются компании, инвестирующие в голосовые технологии.

Многим из нас приходилось иметь дело с экспериментальными устройствами и системами, распознающими речь из рук вон плохо; иногда одну и ту же команду приходится повторять по многу раз. Но системы, использующие облачные технологии, позволяют комбинировать голосовой ввод с визуальным, говорит Рив: «Если я вслух диктую сумму, а приложение распознает сказанное неправильно, то, когда на экран будет выведен этот неправильный вариант, его можно исправить». В основном такие системы должны использоваться в приложениях с невысокими требованиями к безопасности, полагает Рив: «Чаще всего мы связываемся с банком, чтобы проверить платеж или запросить баланс, а в таких случаях безопасность не очень важна. И если 40% всех звонков приходится на такие простые операции, почему бы не использовать для ответа на них что-нибудь простое вроде голосовой биометрии? Там, где риск выше, например при переводе денег, конечно, необходима более серьезная защита».