Искусственный интеллект научится «воскрешать» умерших

Эксперты рассказали, как в России развиваются технологии по генерации текстов и образов
Евгений Разумный / Ведомости

Через два месяца после появления новой предобученной генеративной модели ChatGPT-4 в марте 2023 г. число ее активных пользователей достигло 100 млн человек – это исторический рекорд по скорости роста. Эксперты наперебой бросились оценивать емкость рынка, ожидаемые темпы прироста, возможности применения и риски. Технологические компании, в свою очередь, переориентировали ресурсы команд на создание собственных генеративных моделей. Российские гиганты не остались в стороне: так, у нас появились GigaChat от «Сбера» и YandexGPT. Другие компании также создают собственные русскоязычных модели. Какие препятствия мешают совершить технологический прорыв, в материале «Ведомости. Инноваций и технологий».

Про деньги

Весенние релизы чат-ботов с интегрированным генеративным искусственным интеллектом (ГИИ) Google Bard и ChatGPT-4 вызвали новый виток интереса к технологии. Практически все компании воспользовались информационным трендом и выпускали десятки новостей, в той или иной степени связанных с GPT или другими моделями. Некоторые начали применять сгенерированный нейросетями контент в своих сервисах. Впрочем, финансовые результаты от инвестиций в ИИ раскрывают пока единицы.

Однако авторитетные эксперты не теряют оптимизма. К 2032 г. выручка рынка ГИИ достигнет $1,3 трлн по сравнению с $40 млрд в 2022 г., полагают аналитики Bloomberg Intelligence. То есть прогнозируются годовые темпы роста сектора на уровне 42%.

«Рынок ждет взрывной рост в сфере ГИИ в следующие 10 лет, что коренным образом изменит работу технологической отрасли», – сказал старший технологический аналитик Bloomberg Intelligence Мандип Сингх. По мере развития технологии расходы на нее будут увеличиваться. Согласно аналитическому отчету Bloomberg Intelligence, к 2032 г. на ГИИ будет приходиться от 10 до 12% объема поставок IТ-оборудования, программных продуктов и рекламы. Сейчас этот показатель – менее 1%.

McKinsey оценила общую экономическую выгоду от ГИИ в диапазоне от $2,6 трлн до $4,4 трлн в год. В совокупности со снижением затрат и увеличением производительности труда это даст кумулятивный эффект.

В результате мировая экономика получит дополнительно от $6,1 трлн до $7,9 трлн в год, предполагают эксперты. Примерно 75% от общего экономического эффекта, который может дать ГИИ, будет связано с четырьмя функциями: работа с клиентами, маркетинг и продажи, разработка программного обеспечения и НИОКР.

«ЖИВЫЕ» АВАТАРЫ

«Воскрешать» умерших музыкантов начали еще в 2012 г., когда показали голограмму Тупака Шакура, потом это повторилось с аватарами других звезд зарубежной эстрады – Фредди Меркьюри, Майкла Джексона, Принса. В России оживляли культовых солистов группы «Кино» Виктора Цоя и группы «Сектор Газа» Виктора Хоя. Однако это были заранее созданные и записанные голограммы, которые проигрываются во время выступления. По-настоящему «оживить» аватар, чтобы он был интерактивным и реагировал на происходящее, позволит целая связка технологий: GPT будет генерировать текст, другие нейросети распознают речь и синтезируют ее. Отдельный блок будет отвечать за распознание и создание мимики графического образа. Еще один – за выработку реакций и эмоций. Текущий уровень технологий пока не позволяет этому случиться: не хватает мощности «железа» и не создано ПО.

ГИИ становится технологией общего назначения, влияние которой сравнимо с последствиями появления парового двигателя, электричества и интернета, уверены в Gartner. Недавно компания опросила 2500 руководителей ведущих корпораций. 70% респондентов сообщили, что исследуют возможности внедрения ГИИ, а 19% запустили пилот или релиз.

В России экономический эффект от внедрения компаниями технологий ИИ за 2021 г. превысил, по самым скромным подсчетам, 300 млрд руб., сообщил летом прошлого года вице-премьер Дмитрий Чернышенко. Около 200 млрд руб. пришлось на Сбербанк, добавил он. Однако, по его словам, эффект был гораздо больше, но пока нет достоверной методики его оценки.

Финансовый эффект от внедрения ИИ для «Сбера» в 2022 г. достиг 235 млрд руб., сообщил представитель организации. Какую долю из этой суммы обеспечил ГИИ, в компании не раскрывают.

«Яндекс» также не называет финансовый эффект от внедрения ИИ. Однако в сентябре 2023 г. стало известно о планах компании монетизировать YandexGPT за счет платной подписки для сторонних разработчиков. Хотя чуть более года назад гендиректор «Яндекс технологий» Петр Попов сказал о необходимости давать доступ к современным технологиям не только крупнейшим IТ-компаниям, но и всему сообществу исследователей и разработчиков. «Для обучения такой большой языковой модели требуются огромные ресурсы, опытные специалисты и годы работы», – указывал он. Сейчас «Яндекс» тестирует решения на базе собственной модели в трех сервисах и оценивает экономический эффект от их внедрения в 1,2 млрд руб. в 2024 г.

Мнение рынка

Генеративные модели пока редко получают «человеческую оболочку» и интерфейс, но, возможно, в будущем появятся модели, которые смогут полностью дублировать поведение реального человека, полагает генеральный директор компании «Дататех» (Холдинг Т1) Юрий Евтушик. По его словам, в таком случае можно будет «воскрешать» умерших близких. Знаменитости уже отправляют на мероприятия своих аватаров – например, цифровыми версиями себя обзавелись участники группы ABBA. Также ГИИ мог бы сочинять сказки для детей и рассказывать их на ночь, когда родители задерживаются.

Пока ГИИ активно используется в более приземленных целях. Так, «Сбер» создал русскоязычные большие языковые модели ruGPT-3 и ruGPT-3.5. Они используются, например, в сервисе GigaChat, который представляет собой ансамбль открытых нейросетевых моделей NeONKA – ruGPT-3.5, Kandinsky 2.2, FRED-T5 и ruCLIP, поделился начальник управления экспериментальных систем машинного обучения департамента общих сервисов «Салют» Сбербанка Сергей Марков.

ЧТО ТАКОЕ GPT

Большая языковая модель (БЯМ, или LLM – large language model) – языковая модель, которая состоит из многопараметровой нейронной сети, которая обычно включает миллиарды весовых коэффициентов. Наиболее известный представитель БЯМ – это GPT-4 от OpenAI.

Модель умеет писать статьи, рекламные тексты, автоматически анализировать документацию, придумывать заголовки, шаблоны писем для деловой переписки, скрипты для голосовых систем и т. д. Эти модели опубликованы в открытом доступе и любой желающий может использовать их в собственных системах и сервисах, добавил он.

Новейшую версию модели YandexGPT-2 можно протестировать в навыке «Давай придумаем», который работает на ya.ru, в приложении «Яндекс», «Яндекс Браузере» и гаджетах с Алисой, сказал представитель «Яндекса». «В этом режиме нейросеть можно попросить написать небольшой текст на заданную тему, предложить идеи, проанализировать небольшие фрагменты текста или объяснить сложные понятия», – добавил он.

Например, YandexGPT может написать письмо с отчетом директору компании, а затем переделать его в письмо для внутренней рассылки сотрудникам. Модель также умеет кратко пересказывать статьи из интернета.

Интересный способ использовать нейросети нашли учителя и преподаватели, поделился представитель «Яндекса». Они с помощью YandexGPT создают тесты для контрольных работ. Трудно придумать правдоподобный, но неправильный вариант, когда знаешь ответ, а нейросети легко справляются.

Препятствия

Для достижения результатов, о которых сказал Евтушик, предстоит ответить на ряд вызовов, которые сегодня стоят перед разработчиками больших языковых моделей. В «Сбере» назвали препятствия, которые затрудняют качественный прорыв в ГИИ. Так, обучение и работа больших сетей потребляют значительные вычислительные ресурсы. Дело в том, что между длиной контекста (рецептивного поля) классических моделей и вычислительной мощностью существует квадратичная зависимость. Замедлить потребление ресурсов можно лишь ценой некоторых потерь в точности.

Сейчас исследователи ищут методы, которые увеличат длину контекста моделей оптимальным образом, чтобы не оставить без внимания все важные «дальнодействующие» зависимости внутри моделируемых последовательностей, указал Марков. Причем, уточнил он, речь о работе не только с длинными текстами, но и с мультимодальными данными. Например, о диалоге, содержащем помимо текстовых частей еще изображения и звуковые сообщения. В этом случае число токенов (в них исчисляется потребляемая мощность на обработку запроса) в обрабатываемых последовательностях сильно возрастает, потому что требуется много токенов для кодирования звука или изображения без потери существенных деталей.

Другая сложность – это конечное число «шагов рассуждения» при вычислениях, продолжил Марков. Это мешает моделям выполнять многие алгоритмы: арифметические действия с большими числами, сортировку больших списков, «перевертывание» длинных списков или текста, подсчет элементов и т. д.

Большие модели также склонны заучивать клише, которые многократно повторяются в обучающих выборках последовательности. В результате при взаимодействии они будут постоянно появляться в сгенерированном тексте. Однако хуже всего, сказал Марков, что генеративные языковые модели нередко выдают фактические ошибки и могут откровенно фантазировать. Этот эффект часто называют «галлюцинациями» моделей. В результате «глюков» нередко возникают фактоиды – недостоверные или ложные утверждения, похожие на достоверные.

Наконец, подытожил Марков, знания моделей без дообучения устаревают. Это означает, что ответы будут словно из прошлого.

Цена, по мнению Евтушика, является основным препятствием для прорыва в этих разработках. Немногие корпоративные заказчики в России могут себе позволить создать крупные GPU-кластеры из-за высокой стоимости аппаратного обеспечения для обучения моделей, полагает он.

«Это ограничивает рост мелких и средних игроков, но открывает колоссальные возможности для крупных компаний, технического потенциала которых хватает для реализации решений и их совершенствования, качество моделей сравнимо с западными аналогами. На этом фоне вызовы и препятствия в РФ и мире одинаковые – принятие новой технологии людьми и бизнесом и поиск коммерчески обоснованных сценариев применения генеративных моделей, которые дают понятный и измеримый результат для бизнеса», – считает Евтушик.