Партнер проекта:
МегаФон

Как искусственный интеллект маскируется под человека и кому это выгодно

Сколько раз в день вы разговариваете с роботами?
PhotoXpress

У него не болит голова, не простывает горло, нет перерыва на обед и сон, он может одновременно совершать сотни тысяч звонков и говорить на разные темы. Это робот, точнее – искусственный интеллект, обученный распознавать человеческую речь и вести осмысленный диалог. 

Многие из нас уже разговаривают с роботами по несколько раз в день – например, в колл-центре банка, магазина или госструктуры – и даже не догадываются об этом. Роботы применимы везде, где основным инструментом работы является телефонный разговор по скрипту, говорит директор по маркетингу корпоративного бизнеса «МегаФона» Павел Захаров. 

Эксперты обещают рынку речевых технологий трехкратный рост в ближайшие пять лет. 

Девайсы подали голос 

Что такое речевые технологии?

Речевые технологии распознают, анализируют и синтезируют голос человека. Их используют для записи, расшифровки и анализа разговоров, для имитации речи и восприятия смысла фраз компьютером. С их помощью можно управлять электроникой голосом или подтверждать личность клиента в банке. И это одно из самых сложных направлений компьютерной науки, поскольку находится на стыке трех самостоятельных дисциплин: лингвистики, математики и программирования.

Роботы заговорили не сегодня – первые машины для синтеза речи появились еще в 30-е гг. XX в. Хотя эти разработки научных институтов просто произносили слова и звуки, для того времени это был прорыв. Но с развитием искусственного интеллекта в XXI в. речевые технологии стали настоящей сенсацией. Человеческую речь научились распознавать и, что особенно важно, понимать разные устройства – телефоны, часы, бытовая техника. Теперь компьютеры умеют поддерживать беседу и правдоподобно воспроизводить манеру речи живого человека. 

Рынок речевых технологий ожидает почти трехкратный рост в ближайшие пять лет – к 2025 г. он увеличится до $26,8 млрд (это больше, чем ВВП Исландии или Кипра в прошлом году), прогнозируют эксперты исследовательской компании Meticulous Research. В 2019 г., по их оценкам, объем рынка составил $10,34 млрд. 

Бум потребительских речевых технологий начался с голосовых ассистентов, которые умеют распознавать речь, определять значение сказанного и синтезировать голос для ответа. Голосовое управление и виртуальные помощники стремительно набрали поклонников: 90% американцев знают о голосовых сервисах и 72% используют их, говорится в исследовании PwC «Приготовьтесь к голосовой революции». Больше половины респондентов исследования (1000 человек) используют голосовых помощников ежедневно. 

Неприкасаемые

Во время пандемии COVID-19 госструктуры, больницы и бизнес всерьез задумались о том, как уменьшить тактильное взаимодействие своих сотрудников и клиентов с разными девайсами, и голосовые технологии стали отличным решением, пишет аналитик по стратегии американского разработчика решений на базе искусственного интеллекта RAIN Шанна Валиа. По прогнозу исследовательской компании Juniper Research, в этом году в мире будет использоваться 4,2 млрд устройств с голосовыми ассистентами, а к 2024 г. их количество вырастет вдвое – до 8,4 млрд девайсов. 

Интеллект выходит в люди

Голосовые роботы и системы речевого анализа нашли работу в бизнесе и госсекторе даже раньше, чем эти технологии добрались до домашней электроники. Госдума, Совет Федерации и аппарат президента еще в 2005 г. установили автоматические системы стенографирования, которые переводили выступления в машинописный текст, говорится на сайте Центра речевых технологий. С того же времени бизнес начал автоматизировать колл-центры и заменять людей на роботов для выполнения простейших операций. 

С развитием искусственного интеллекта речевые роботы из простых ретрансляторов фраз превратились в собеседников. Например, летом 2019 г. «Тинькофф банк» запустил голосового ассистента «Олег», который может переводить деньги, получать справки, отключать услуги.

Но самую большую популярность набрали системы для обработки входящих звонков, использующие силу искусственного интеллекта. К примеру, Сбербанк подключил робота «Анна» для ответов на простые вопросы клиентов в колл-центре, а «Ак барс банк» доверил компьютеру телефонные интервью для заполнения документов на кредит. 

Хуже писать, чем говорить

Популярность голосовых сервисов эксперты объясняют просто: говорить удобнее, чем писать. В среднем человек печатает 35–65 слов в минуту, а произносит 150–190 слов. 
Вдобавок искусственный интеллект и постоянное развитие технологий увеличили точность распознавания слов практически до уровня живых людей, отметила партнер венчурной фирмы KPKB Мэри Микер на конференции разработчиков Code Conference в Кремниевой долине. Так, по ее оценкам, точность понимания речи системами Google c 2013 г. увеличилась на 20% до 95%, что близко к уровню восприятия человека. 
«Голосовые интерфейсы достигли технологической зрелости, чтобы стать полноценным генератором добавленной стоимости для потребителей и бизнеса», – соглашается компания Deloitte в докладе «Влияние голосовых интерфейсов на торговлю в Европе». 

/PhotoXpress

«Роботы применимы везде, где основным инструментом работы является телефонный разговор по скрипту. За счет автоматизации и перевода типовых разговоров на искусственный интеллект можно привлечь или обслужить больше клиентов», – объясняет Захаров из «МегаФона». Чаще других интеллектуальную обработку вызовов используют компании финансового сектора, ритейлеры, контакт-центры, госструктуры и девелоперы, рассказывает он. 

Спрос на роботов-телефонистов разработчики таких систем объясняют экономией. Себестоимость разговора оператора колл-центра – 12–15 руб. за минуту, а робота – в 2–3 раза меньше, объяснил «Ведомости&» исполнительный директор компании Fonemica Игорь Баско. «Нанимать людей сложно и дорого, обучение сотрудника занимает месяцы, а на создание бота уходит одна неделя. Работает он в десятки раз быстрее, чем человек. Если человек способен совершать в день около 200 звонков, то для автоматической системы это число не ограничено: хоть 1000, хоть 1 млн», – говорит он. 

Как работает робот «МегаФона»

Голосовой робот «Мегафона» (решение «Интеллектуальная обработка вызовов») учится на 300–600 готовых записях, а потом с помощью технологии машинного обучения создает новые ветки диалогов уже на основании проведенных им бесед. С каждой новой беседой голосового робота качество интеллектуальной обработки звонков улучшается без привлечения человеческих ресурсов.
Сам «МегаФон» также использует роботов для обучения специалистов по телемаркетингу и сотрудников колл-центров. Действующий по разным сценариям робот-тренажер учит специалиста реагировать на неожиданные запросы звонящих и грамотно работать с возражениями клиентов. 

Голосовые роботы тоже бывают разные, продолжает Баско: самые простые и дешевые информаторы просто звонят абоненту и зачитывают информацию. Более сложные боты с линейной логикой способны реагировать на заданные варианты ответа. Боты на базе искусственного интеллекта способны вести диалог на заданную тему на уровне, близком к человеческому. 

По оценкам Fonemica, выгода от внедрения таких роботов становится ощутимой, если компания обрабатывает более 5000 звонков в месяц. Боты могут взять на себя до 30% ежедневных рутинных операций сотрудников колл-центра. Интеллектуальные системы обработки вызовов способны сократить операционные расходы бизнеса на поддержку горячей линии на 15–70% – в зависимости от того, как много обязанностей можно переложить на робота, подсчитали эксперты Deloitte в отчете «Диалоговый искусственный интеллект» (Conversational AI). 

Голос за роботов

На рынке искусственного интеллекта и речевых технологий выигрывают компании, которые раньше других начали инвестировать в перспективную сферу. Разработав речевых роботов для себя, они начинают предлагать готовые решения на базе своей технологии другим бизнесам. 

К концу 2019 г. накопленная экспертиза позволила разработать решение для других компаний, и «МегаФон» начал продавать «Интеллектуальную обработку вызовов». Это облачная технология с голосовым роботом, который способен обучаться в процессе работы, обзванивать клиентов и обрабатывать входящие звонки. 

Какой интеллект называют искусственным?

Искусственным интеллектом обычно называют технологии обработки данных, которые имитируют мышление человека, обладают способностью самообучаться, искать решения без заданного алгоритма и выдавать результаты, «сопоставимые как минимум с результатами интеллектуальной деятельности человека», как говорится в Национальной стратегии развития искусственного интеллекта. 
В банках искусственный интеллект анализирует платежеспособность потенциальных заемщиков, в медиа – рекомендует новые фильмы и музыку, изучив увлечения пользователя, на промышленных предприятиях – подбирает оптимальный режим работы оборудования. 
Россия утвердила стратегию развития искусственного интеллекта в октябре 2019 г. с прицелом на то, что технологии искусственного интеллекта смогут стать конкурентным преимуществом отечественной экономики. Авторы стратегии (ее основными разработчиками были правительство и Сбербанк) оценили мировой рынок решений на основе искусственного интеллекта в $21,5 млрд. К 2024 г., по прогнозам аналитиков, он достигнет почти $140 млрд, внеся существенный вклад в рост мировой экономики, который ожидается на уровне $1 трлн.

«Менее 1% людей догадываются, что ведут диалог с роботом», – рассказывает Захаров. Так получается потому, что система чрезвычайно быстро обрабатывает запрос и выдает ответ примерно через 700 мс после того, как собеседник замолчал, – почти как живой человек. Робот мог бы отвечать и быстрее, но людям психологически комфортнее общаться в привычном «человеческом» темпе. Только в отличие от человека он может совершать до 100 000 звонков в час (для сравнения: человек может проработать на телефоне 5000–8000 минут в месяц), распознает акценты и диалекты и может корректно работать в разных часовых поясах, не раздражая клиентов звонками рано утром или посреди ночи. 

/PhotoXpress

«МегаФон» предлагает решение под ключ: клиент платит фиксированную стоимость, исходя из количества отработанных роботом минут. В нее входят телефония, разработка скрипта, запись реплик профессиональными дикторами, обучение робота, интеграция решения с системами заказчика, тестирование, анализ. Минимальный тариф включает 100 000 минут, максимальный – 2 млн и более минут. Чем больше объем звонков, тем меньше стоимость за минуту.