27 апреля 2023, 11:58 / Новые технологии

О чем речь

Ваш разговор будет записан

Freepik

Создание голосовых ассистентов, распознавание телефонных разговоров в контакт-центрах, озвучка контента и расшифровка голосовых файлов в текст – решать подобные задачи позволяют, в том числе, технологии синтеза (TTS) и распознавания речи (ASR). Продукты на базе этих технологий, которые предлагают бизнесу российские разработчики, год от года совершенствуются. Виртуальный секретарь становится лицом компании, а аналитика беседы с клиентами помогает повысить потребительскую лояльность и нарастить объемы продаж.

Существует множество направлений применения речевых технологий: транскрибация звуковых файлов в текст или автоматический перевод на иностранные языки, голосовой ввод данных в приложениях, помощь клиентам по типовым запросам, прием и маршрутизация голосовых обращений в техподдержку, протоколирование заседаний, управление умными устройствами и многое другое.

Сегодня объем отечественного рынка речевых технологий и продуктов на их базе составляет около 24 млрд рублей. На нем работает более 15 локальных вендоров, в числе ключевых игроков – Яндекс, Тинькофф, Сбер, 3iTech. Их решения построены на общем принципе «из речи в текст и обратно», но отличаются по ряду параметров дополнительных возможностей. Рассмотрим на что способны российские речевые платформы.

Человеческий фактор

Речевые технологии не просто превращают голосовые файлы в текст и наоборот озвучивают его, они еще и анализируют полученные данные и делают определенные выводы, позволяющие организациям совершенствовать свое взаимодействие с клиентами. Это так называемая речевая аналитика. Чаще всего она используется для оценки качества обслуживания клиентов.

«По большому массиву аудиоданных можно собирать информацию о том, насколько эффективна работа каждого сотрудника и всего подразделения, насколько точные ответы получает клиент, насколько качественно менеджер по продажам «идет по скрипту», часто ли в разговорах проскакивают негативные эмоции, – перечисляет эксперт Центра искусственного интеллекта СКБ Контур Елена Волкова.

Следующий этап эволюции речевых технологий – не просто слушать человека и записывать сказанное им, а самому вступать с ним в контакт, освобождая операторов для решения более сложных задач. При покупке товаров робот информирует покупателя о статусе заказа, при записи на прием – согласовывает время и дату, при найме – проводит первичное собеседование. Сокращаются затраты на персонал, бот не «выгорает» и показывает конверсию в среднем на четверть выше, чем человек, за счёт четкого следования скрипту и безразличия к негативу.

Сильные стороны

При выборе вендора большую роль играет качество технологии распознавания. «Точность исчисляется показателем WER – частотой ошибок в словах, – поясняет директор департамента контактных центров и роботизированных систем компании NAUMEN Сергей Попов. – Распознавание, работающее на широком домене, то есть обученное на датасетах из разных предметных областей, сможет эффективнее работать с вариативной речью клиентов, не ограничиваясь узким набором возможных ответов».

У решений ключевых игроков точность распознавания приблизительно одинаково высокая, поэтому заказчики смотрят на добавочный функционал.

Например, у платформы SaluteSpeech от Сбера есть онлайн-определение эмоций сразу во время разговора с клиентом. Это позволяет системе в режиме реального времени корректировать ответы робота и при необходимости переводить разговор на оператора. А вот во время разговора клиента с оператором, эта функция позволяет супервизору в контакт-центре отследить, что у какого-то сотрудника фиксируется проблема в коммуникации с клиентом, и вовремя ему помочь скорректировать формат общения, чтобы клиент в итоге остался доволен. Еще одна особенность платформы – технология Insights дает возможность предсказывать CSI (индекс удовлетворенности клиентов) всех диалогов с оператором, классифицировать такие диалоги как позитивные, нейтральные или негативные, а также определять более 300 различных речевых характеристик.

Сильная сторона Yandex SpeechKit – скорость распознавания и возможность быстро генерировать большой объём текста. Функция «Пунктуатор» повышает точность автоматической расстановки знаков препинания, поэтому итоговый текст проще воспринимается читателем. Движок Yandex SpeechKit используется не только в сервисах Яндекса, например в Навигаторе, он также доступен разработчикам мобильных приложений для iOS и Android. Предусмотрена возможность голосовой активации – включение по голосовой команде. Система запускается прямо на устройстве, анализирует весь входящий звуковой поток и при обнаружении речи начинает искать в ней кодовую фразу, заданную разработчиком. Это позволяет экономить заряд батареи в смартфоне или планшете.

Платформа Tinkoff VoiceKit при сортировке звонков отбирает записи по более чем 20 фильтрам, к примеру, по дате, фамилии оператора, по продолжительности разговора, по длительности пауз в нем, по темпу речи, по результату разговора. Система ищет не просто однокоренные слова, а близкие по контексту синонимы. Если фраза была произнесена, то сервис найдет ее из 20 миллиардов выражений за пару секунд. Технологии Tinkoff VoiceKit тоже имеют «надстройку» – телефонного секретаря Олега. Он предназначен для абонентов любых сотовых операторов. Олег защищает от спама и нежелательных звонков, записывает разговор и присылает владельцу расшифровку речи, причем клиент может заранее решить, на какие номера сервис будет отвечать, а на какие – нет.

Платформа 3i VOX предлагает голосовую биометрию для идентификации и поиска целевых голосов в аудиозаписях, а также голосовой антифрод для минимизации рисков от мошеннических действий и внешних угроз. Разработчики ПО и сервисов также могут создавать интеллектуальные приложения с 3i VOX и встраивать в них различные функции платформы по частям или комплексно. Легко создавать субтитры для ТВ–передач, эфиров, подкастов или видеофильмов.

Всегда под рукой

Для заказчиков важен и доступ к быстрому тестированию технологии. Вендоры предлагают демоверсии разной степени «погружения в продукт».

Tinkoff VoiceKit на своем сайте предлагает и синхрон, и асинхрон, кроме того, есть телеграм-бот, который выдает результат в виде текстового файла. Перевод построчный, с разбивкой на предложения.

У SaluteSpeech тоже есть телеграм-бот: он расшифровывает голосовые сообщения, «кружочки» с видео в ТГ и небольшие по размеру аудиофайлы. К примеру, получасовой разговор в MP3 бот обработал за минуту и выдал текст, разбив на блоки длиной в 4 тысячи знаков каждый. А пятиминутную запись телефонного разговора расшифровал за несколько секунд, корректно передав сложные цифры, упомянутые в ходе беседы. Также синхронное распознавание и синтез платформы можно протестировать на сайте продукта.

3i VOX формирует текстовый файл по итогам расшифровки аудио, загруженного на сайт. Помимо русского и английского поддерживает казахский и узбекский. Малейшая пауза в разговоре воспринимается как конец предложения, кроме того, собеседникам в диалоге присваиваются номера, с которых начинается каждая фраза, из-за чего текст сложно читать. Зато максимальный размер аудиофайла для демо составляет 500 МБ и использовать можно до 180 минут.

У Yandex SpeechKit нет возможности протестировать асинхронную расшифровку. Телеграм-бот ее не поддерживает: можно лишь наговорить текст в микрофон, предварительно выбрав один из более чем десяти поддерживаемых языков.

Не словом единым

Голосовые ассистенты постепенно учатся распознавать эмоции, чтобы строить более глубокий диалог. «Заказчики обращают внимание на возможность легкой настройки скриптов, позволяющих предоставить ответ клиенту, оперативной публикации новых веток ответов, а также качество распознавания голоса и естественность синтеза речи», – убежден директор бизнес–юнита «Собственные продукты» Группы Т1 Владимир Вигура. При переводе текста в речь важно, чтобы синтезированный голос звучал максимально естественно.

«Роботы уже сейчас способны улавливать в интонациях ту или иную эмоцию и реагировать на это соответствующими речевыми конструкциями, – отмечает руководитель AI/ML проектов компании ITentika Дмитрий Ходыкин. – Для реализации такого поведения нейронные сети обучают на участках речи человека, которые изначально помечены как «грустные», «гневные» и так далее».

Также важную роль играет сам голос ассистента. Все больше компаний уделяет этому особое внимание, бизнесу становится важно, чтобы голос их цифрового представителя был уникальным и запоминался клиентам.

«Крупные компании стремятся наделять своих помощников уникальным голосом, который отражает их позиционирование и имидж», – подтверждает Сергей Попов из NAUMEN.

Для создания голоса бренда у Yandex SpeechKit есть Brand Voice, а SaluteSpeech предлагает услугу YourVoice. После получения готового голоса заказчик с помощью технологии синтеза может озвучить необходимый ему текст.

Yandex SpeechKit в опции Brand Voice Adaptive синтезирует голос по записанным заранее фразам-шаблонам, используя их как подсказку для робота. Во время звонка он не только синтезирует шаблоны, но и дополняет их новыми переменными из баз данных, при этом переменные всегда будут разными – например, имена абонентов. В демоверсии SpeechKit голоса звучат естественно. YourVoice от SaluteSpeech позволят озвучить своим голосом любой объем текста без ограничений, также у сервиса есть цифровая библиотека готовых голосов из которых можно выбрать подходящий для себя. Звучание голосов YourVoice также достаточно естественно. Голоса Tinkoff VoiceKit произносят текст без запинок, но механические нотки все же проскальзывают. Китайский акцент 3i VOX выдает робота с головой.

Цена слова

Среди других важных факторов, влияющих на заказчика при выборе голосового сервиса, можно выделить: легкую интеграцию по API, наличие разных форматов поставки и, конечно, стоимость самого решения. Стоимость на развертывание решения в контуре компании рассчитывается индивидуально, а вот стоимость облачного использования вполне можно сопоставить.

Синтез Yandex SpeechKit стоит от 1 320 рублей за 1 млн символов, синхронное распознавание – 0,1600 рублей, асинхронное – 0,0025 рублей.

Синтез Tinkoff VoiceKit в реальном времени стоит 820 рублей за млн символов, минута распознавания при онлайн-обработке потока – 0,72 рублей, при онлайн-обработке файла – 0,48 рублей и при отложенной обработке – 0,18 рублей.

Минимальная стоимость использования SaluteSpeech – 600 рублей в месяц, синтез речи – 186 рублей за 1 млн символов, распознавание – 1 копейка за секунду.

А вот 3i VOX свои цены не афиширует.

Еще один критерий, который дает важное преимущество при выборе вендора, это вхождение в реестр отечественного ПО. SaluteSpeech и Yandex SpeechKit в реестре, а вот Tinkoff VoiceKit пока нет. Возможно, это связано с тем, что такие разработчики не ориентированы на крупный бизнес и госкорпорации.