Обмани меня: как нейросети обучаются на фейковой информации о поведении людей

Объем рынка синтетических данных может достичь $1,788 млрд к 2030 году
Синтетические данные позволяют «накормить» нейронные сети достаточным для обучения количеством информации
Синтетические данные позволяют «накормить» нейронные сети достаточным для обучения количеством информации /iStock

Синтетические данные имитируют информацию о поведении людей в реальном мире, но при этом позволяют избежать разглашения персональных данных. Объем этого рынка может достичь $1,788 млрд к 2030 г., а среди потребителей синтетических данных банки, страховщики, медицина и разработчики беспилотных автомобилей и систем компьютерного зрения

Одной из значимых проблем рынка обучения нейронных сетей является нехватка данных, на которых обучается алгоритм. Традиционно для этих целей используются специальным образом размеченные данные из реального мира. К примеру, если мы хотим научить алгоритм предсказывать, с какой вероятностью заемщик вернет кредит, нужны примеры реальных людей с указанием возраста, пола, образования, истории транзакций с банком и т. д. Таких примеров нужно много – от тысяч до десятков миллионов в зависимости от числа параметров самой нейросети. Чаще всего собственной клиентской базы банку для этого недостаточно. Но можно использовать информацию других участников рынка, из которой убраны персональные данные клиентов. По оценке Markets and Markets, рынок таких наборов данных (датасетов) в мире в 2024 г. составил $2,82 млрд. Прогноз на 2029 г. – $9,58 млрд.

Синтетические данные – это искусственно созданные наборы информации, которые имитируют статистические и структурные свойства реальных данных, но не содержат фактической информации о реальных людях, событиях или объектах. Такой вид данных существенно дешевле обычных датасетов, и при этом нет риска, что информацию удастся по косвенным признакам привязать к конкретному человеку, так как все данные в датасете являются стопроцентным фейком. Компания Grand View Research оценивала объем мирового рынка генерации синтетических данных в 2023 г. в $218,4 млн c потенциалом роста до $1,788 млрд к 2030 г.

Импортозамещение данных

В начале 2025 г. Сбербанк сообщил, что совместно с Ассоциацией больших данных (АБД) ведет разработку национального стандарта синтеза данных. Стандарт должен описать технологию, по которой будут создаваться конфиденциальные синтетические данные для развития технологий искусственного интеллекта (ИИ).

Стремительное развитие ИИ требует больших объемов данных, но при этом ужесточаются требования к их безопасности, сказал руководитель блока «Технологии» Сбербанка Кирилл Меньшов. Решением этого противоречия стал синтез данных – подход, позволяющий создавать искусственные наборы, сохраняющие статистические структуры и зависимости оригинальных данных, но не содержащие конфиденциальной информации.

По словам Меньшова, использование синтетических данных ускоряет разработку, исключая необходимость получения доступов к реальным данным и прохождения длительных проверок безопасности. Также упрощается обмен данными: не требуется заключать дополнительные соглашения и настраивать защищенные каналы, при этом риски утечки информации полностью исключаются. Но ручная подготовка данных трудоемка, а использование нерепрезентативных данных ведет к доработкам ПО и сдвигу сроков вывода продуктов на рынок.

«Синтетические данные становятся стратегической альтернативой традиционному обезличиванию. При корректной генерации они сохраняют структуру и зависимости исходных наборов, но не содержат реальных сведений, что позволяет безопасно использовать их для обучения моделей, аналитики и пилотных проектов», – подтверждает представитель АБД.

Решения на базе синтетических данных уже применяются в финансовом секторе, ритейле и здравоохранении. Один из участников АБД – крупный банк – использует синтетические данные для обучения ML-моделей во внешнем контуре, тестирования приложений и обмена данными в рамках исследований. Следующим шагом после разработки национального стандарта синтетических данных должно стать создание биржи синтетических данных в рамках БРИКС, которая позволит России укрепить позиции на глобальном рынке ИИ и обеспечить компаниям безопасный доступ к мультикультурным наборам для обучения и экспериментов, уточнил представитель АБД.

Ложные паттерны

С одной стороны, синтетические данные позволяют увеличить размер датасета, добавив в него искусственно сгенерированные данные. Это решает проблему дефицита данных для обучения, к тому же сбор и ручная разметка данных – это длительный и дорогостоящий процесс, говорит руководитель Yandex AI Studio в Yandex B2B Tech Артур Самигуллин. С помощью синтетических данных можно генерировать примеры редких ситуаций, которые сложно или дорого получить в реальности. Кроме того, такие данные не содержат персональной информации – это позволяет минимизировать риски утечки и выполнить требования законодательства.

Но при этом в синтетических датасетах накапливаются ошибки, синтетические паттерны, упрощения и обобщения, и такие данные трудно идентифицировать. «Использование синтетических данных при обучении модели может привести к более частым ошибкам, она может генерировать однотипные ответы, если в датасете не будет сложных синтаксических конструкций и речевых оборотов», – предупреждает Самигуллин.

Чтобы минимизировать риски деградации модели, важно сохранить в фундаменте обучения реальные данные и контролировать долю синтетических данных. Важно использовать проверенные источники данных, а также регулярно очищать датасеты от ошибок. В противном случае грязные данные будут повторяться и распространяться, попадая в новые датасеты для других моделей. Чтобы снизить риск галлюцинаций и повысить точность ответов при использовании моделей, обученных на синтетических данных, стоит не только опираться на знания модели, но и добавлять в контекст запроса релевантные данные, резюмирует Самигуллин.

Синтетические данные позволяют более качественно обучить модели машинного обучения в ситуациях существенной нехватки объемов данных и их несбалансированности, говорит представитель «Т-технологий». Например, если нужно построить рекомендательную систему с первых недель жизни нового продукта, но данных кликстрима (последовательность цифровых следов, оставляемых пользователем в процессе навигации по интернету) еще недостаточно для обучения нейросети или если необходимо обучить антифрод – классификатор по транзакциям, но мошеннических операций меньше 1%. «Синтетическими данными чаще всего пользуются в ИИ для медицины, беспилотников и антифрода, но мы используем в том числе в рекомендательных системах», – отметил представитель «Т-технологий».

Синтетические данные находят применение в банковской и страховой сферах, а также в здравоохранении и промышленности, где работа с реальными записями ограничена регуляторными нормами или редкостью событий, рассуждает главный архитектор сервисов ИИ и машинного обучения Cloud X Кирилл Смеловец. Это особенно полезно при решении задач кредитного скоринга, прогнозирования рисков, поломки агрегатов и других видов аналитики, где требуется балансировать классы.

«В области обработки текстов синтетические данные стали фактически стандартом. Крупные языковые модели способны создавать огромные корпуса инструкций, на которых затем дообучаются более компактные модели», – рассуждает Смеловец. Этот подход показал, что в ряде бенчмарков модели, обученные на синтетических данных, достигают или даже превосходят результаты, полученные на реальных корпусах. Но важно понимать, что подобные тесты не всегда отражают качество модели в реальных сценариях: сгенерированный текст может содержать галлюцинации, логические ошибки или избыточную однотипность.

В компьютерном зрении синтетические данные применяются для создания размеченных изображений и видео, что особенно ценно при обучении систем распознавания объектов и сцен. С помощью современных 3D-движков исследователи создают виртуальные сцены, изменяют освещение, текстуры и ракурсы, формируя миллионы кадров с точной аннотацией. Такие данные широко применяются при обучении приложений, где используется машинное зрение, говорит Смеловец. При всех преимуществах синтетические данные несут определенные риски. «Если распределения сгенерированных выборок не совпадают с реальными, модели могут переобучаться и выдавать некорректные результаты при внедрении», – предупреждает эксперт Cloud X.-