Синтетические данные захватывают рынок ИИ

Зачем бизнесу массивы искусственно сгенерированной информации
iStock
iStock

Синтетические данные, представляющие собой искусственно сгенерированные массивы информации, превращаются в один из базовых элементов цифровой инфраструктуры. По оценкам аналитиков Global Market Insights, мировой рынок генерации синтетических данных в 2024 г. достиг $310,5 млн, а до 2034 г. будет расти более чем на 35% ежегодно. При этом ценность технологии измеряется не столько собственным объемом рынка, сколько количеством ИИ-проектов, которые без нее были бы невозможны. «Как электропроводка: ее собственный рынок и рынок всего, что от нее работает, несопоставимы», – объясняет руководитель лаборатории иммерсивных технологий в образовании Московской школы управления «Сколково» Артем Егоров.

Синтетические данные используют в ситуациях, когда настоящих данных недостаточно, они слишком дороги в сборе или их применение ограничено законодательством. Они «помогают закрывать дефицит реальных данных, защищать персональную информацию, создавать редкие и опасные сценарии в практически неограниченном объеме, значительно ускоряя обучение и повышая робастность (устойчивость модели к ошибкам, шумам и нетипичным входным данным, способность сохранять работоспособность в нестандартных ситуациях. – «Ведомости. Инновации и технологии») моделей», говорит главный конструктор ВЭБ.РФ Денис Кузьмин.

В ряде случаев синтетика – единственный возможный способ решения задачи, отмечает руководитель лаборатории ИИ в медицине университета «Иннополис» Илья Першин. Один из самых показательных примеров связан с большими языковыми моделями. По словам эксперта, именно синтетические данные стали фактором качественного скачка ИИ в 2023 г., когда нейросети начали давать содержательные и «человечные» ответы благодаря обучению с подкреплением на основе обратной связи от человека. На первом этапе людям показывали варианты ответов алгоритма и просили выбрать лучший. На этих оценках обучили отдельный ИИ, который научился предсказывать человеческие предпочтения. Затем уже эта промежуточная модель сгенерировала колоссальный массив синтетических данных, на котором и натренировали основную модель.

Российский рынок синтетики

В России использование синтетических данных переходит от точечных экспериментов к встраиванию в бизнес-процессы. «Это уже не единичные кейсы, но и не массовый тренд. Активнее всего здесь действуют крупные технологические игроки и финансовый сектор», – рассказывает директор консалтинговой компании «Яков и Партнеры» Марина Дорохова.

По ее словам, спрос на синтетические данные в России начал формироваться относительно рано – в том числе из-за ограниченного доступа к зарубежным датасетам и дефицита качественного русскоязычного контента. Отдельной верифицированной статистики об объемах российского рынка в открытом доступе нет, но косвенно об интересе рынка свидетельствует активность отечественных вендоров, добавляет Марина Дорохова.

По словам Егорова, при обучении GigaChat 3 Ultra было использовано около 14 трлн токенов, из которых примерно 5,5 трлн были синтетическими. Таким образом, около 40% обучающего корпуса модели составили данные, созданные искусственным интеллектом. «По оценкам «Сбера» (разработчик моделей GigaChat. – «Ведомости. Инновации и технологии»), это больше, чем доступно качественных русскоязычных текстов в открытом интернете», – подчеркивает эксперт.

Симуляция угроз

Интерес бизнеса к синтетическим данным объясняется требованиями по защите персональных данных, дефицитом качественных выборок, высокой стоимостью разметки (разметка – процесс аннотирования данных для обучения моделей, например, выделение объектов на изображении или присвоение тексту категорий. – «Ведомости. Инновации и технологии») и необходимостью моделировать редкие события. «Наиболее зрелый спрос – в финансовом секторе, здравоохранении и промышленности, и это не случайно: именно там пересекаются высокая чувствительность данных, жесткая регуляторика и потребность в больших объемах для обучения моделей», – поясняет Дорохова.

Например, в финансовом секторе синтетика необходима для моделирования мошеннических операций, кредитных рисков и аномалий. В медицине – для создания диагностических изображений без нарушения врачебной тайны. В университете «Иннополис» исследуют данные о движении взгляда врачей-рентгенологов при анализе снимков: реальных данных такого рода крайне мало, рассказал Першин. Исследователи собрали небольшой набор наблюдений с участием специалистов, после чего обучили модель генерировать синтетические траектории движения взгляда. По словам Першина, технология позволила на 20–30% повысить качество прогнозирования того, на какие области рентгеновского снимка обратит внимание врач.

Еще одна точка применения искусственных данных – моделирование чрезвычайных ситуаций и производственных дефектов, в том числе для систем видеоаналитики. Например, для обучения системы компьютерного зрения обнаружению возгорания, оставленных предметов, драк или проникновения на охраняемую территорию необходимы тысячи размеченных примеров. По словам директора по развитию RVi Group Антона Фролова, сегодня для этих задач используют Unreal Engine 5, Unity и платформу Nvidia Omniverse Replicator. Они позволяют генерировать сцены с заданными параметрами, в том числе освещением, погодными условиями, углами обзора.

В ретейле и логистике синтетические данные помогают адаптировать модели компьютерного зрения к новым сценариям без масштабного сбора информации. Руководитель по разработке систем технического зрения Ozon Мария Гафурова рассказывает, что компания применяет синтетические данные для дообучения моделей в устройствах бесконтактного измерения веса и габаритов товаров. По ее словам, технология не заменяет реальные данные, но позволяет расширять датасеты (наборы данных для анализа или обучения моделей. – «Ведомости. Инновации и технологии»), балансировать редкие классы и моделировать сложные или нестандартные ситуации для улучшения качества модели.

Ловушка искусственных данных

По мере роста рынка появляются и попытки выработать подходы к работе с технологией. В начале 2025 г. «Сбер» совместно с Ассоциацией больших данных (АБД) анонсировал разработку национального стандарта синтеза данных. Документ зафиксирует требования к созданию конфиденциальных синтетических датасетов, критерии их качества и механизмы защиты приватности.

По словам Дороховой, компании нередко переоценивают уровень приватности синтетических данных: исследования показывают, что при определенных условиях из них можно частично восстановить оригинальные записи. Отдельной проблемой остается регуляторная неопределенность: в ряде отраслей пока нет однозначного ответа, можно ли обосновывать решения моделями, обученными преимущественно на синтетике. Это создает правовые риски при аудите или судебных разбирательствах.

Но главный вызов – фундаментальная деградация ИИ. По словам Кузьмина, когда модель начинает учиться преимущественно на продуктах других моделей, возникает своего рода информационное самоотравление: система варится в собственном соку, теряя связь с реальными данными. В 2024 г. ученые Оксфордского и Кембриджского университетов описали этот процесс в журнале Nature как «коллапс модели». Это дегенеративный процесс, при котором алгоритмы со временем забывают истинное распределение исходных данных, начинают очищать редкие, но важные значения и транслировать системные ошибки, которые усиливаются от поколения к поколению. По словам доцента кафедры «Защита информации» МГТУ им. Н. Э. Баумана Дмитрия Служеникина, при обучении на синтетике возникает «коллапс знаний»: модель постепенно теряет реальные знания и начинает уверенно ошибаться. Проблема усугубляется тем, что на стандартных тестах модель может продолжать демонстрировать высокие результаты.

Даже малая доля синтетики способна все испортить, предупреждает Служеникин. Эксперт ссылается на эксперименты, проведенные в рамках Консорциума исследований безопасности технологий ИИ: их результаты показали, что всего 5% сгенерированных сообщений в потоке данных заметно снижают точность прогнозов и замедляют поиск аномалий.

Проверка на достоверность

Единого стандарта оценки качества синтетики на рынке пока нет. Обычно разработчики ориентируются на три параметра, отмечают в МГТУ им. Н. Э. Баумана. Первый – правдоподобие, то есть насколько синтетические данные похожи на реальные. Второй – разнообразие сценариев и случаев. Третий – полезность данных для решения реальных задач.

Главным критерием качества остается проверка модели на реальных данных, которые никогда не участвовали в процессе обучения. Если было использовано слишком много синтетических данных и качество ИИ-модели упало, то долю синтетики снижают, объясняет Першин. В высокорисковых сценариях (например, в медицине) применяют «слепые» экспертные оценки – метод, при котором специалисты анализируют результаты работы модели, не зная, на каких данных (реальных или синтетических) она обучалась. В видеоаналитике новую модель сначала запускают в тестовом режиме: она работает параллельно с действующей системой, но ее выводы не влияют на реальные процессы – это позволяет оценить качество алгоритма без риска ошибок.

При обнаружении разрыва между симуляцией и реальностью инженеры используют дообучение на небольшом объеме реальных данных, отмечает Фролов. Другой подход – рандомизация области данных – предполагает намеренное добавление в синтетические выборки шумов, необычных текстур и фонов, чтобы модель училась выделять существенные признаки объекта. Также разработчики практикуют генерацию на основе ошибок , когда целенаправленно создаются дополнительные синтетические сценарии под конкретные ошибки модели, выявленные в ходе эксплуатации.

Предел замещения

Эксперты сходятся в том, что синтетические данные не заменяют реальность, а расширяют ее возможности. В задачах компьютерного зрения, моделирования аварийных ситуаций, генерации редких событий или предварительного обучения нейросетей доля синтетических данных даже может быть доминирующей. По словам Кузьмина, граница допустимого замещения определяется конечной целью применения модели. В диагностике редких заболеваний доля синтетики может быть высокой, а в системах управления беспилотным транспортом или объектами критической инфраструктуры – строго ограниченной.

Границы применимости синтетики определяются и человеческим фактором. В исследованиях поведения потребителей синтетические респонденты помогают компаниям тестировать гипотезы еще до начала работы с фокус-группами, отмечает заместитель директора компании стратегического консалтинга «АРБ Про» Роман Копосов. Однако финальные выводы о спросе и готовности платить по-прежнему делаются на основе реальных интервью и продаж. «Синтетика работает только там, где понятно, какую реальность мы моделируем. Если процесс хаотичный, поведение людей плохо изучено, а цена ошибки высокая, заменить реальные данные нельзя», – полагает эксперт.

По мере развития ИИ доля синтетических данных будет увеличиваться, полагают опрошенные специалисты. Но пока ни одна технология генерации не позволяет отказаться от реальных данных: они остаются главным способом проверить, насколько искусственная модель соответствует реальности. «Синтетические данные – мощный инструмент, но важно понимать его ограничения. Если учитывать слабые места, можно извлечь максимум пользы без неприятных сюрпризов», – резюмирует Служеникин.