Количество синтетических данных растет, однако они приводят к коллапсу при обучении последующих поколений моделей

Пока наша лента новостей заполняется текстами, изображениями и видео, созданными нейросетями, растёт и доля синтетики в наборе данных, на котором обучаются новые поколения моделей. Кажется, что это безобидно: ведь машинные тексты часто не отличить от человеческих, а искусственные изображения помогают восполнить пробелы в обучающих выборках. Но в научном сообществе всё чаще звучит тревожный термин — «коллапс моделей». Что это такое и почему рост синтетических данных может привести к деградации искусственного интеллекта?

Исследователи из Оксфордского университета и Google выяснили, что бесконтрольное использование результатов работы нейросетей в качестве обучающих данных ухудшает качество следующих моделей. Они назвали это явление «model collapse» и показали, что при повторном обучении на синтетических текстах и изображениях машины начинают забывать истинное распределение данных: сначала исчезают «длинные хвосты» — редкие слова и образы, затем вся выборка сжимается вокруг средней величины. По сути, модели перестают понимать уникальные выражения и упрощают реальность до набора штампов. IBM объясняет это явление тем, что ошибка каждой модели наследуется следующей, и со временем отклонения усиливаются, пока сеть не перестаёт генерировать что‑то новое.

Дефицит качественных текстов делает проблему острее. По данным отраслевых аналитиков, запасы проверенной человеческой информации в открытом доступе сокращаются. В результате разработчики всё чаще прибегают к генерации, замыкая круг: модели учатся на продуктах собственных «коллег». Это и есть «синтетическая ловушка»: снаружи всё выглядит нормально, но в содержании накапливается однообразие, а редкие и важные факты исчезают. Эксперты предупреждают: из-за потери разнообразия машинный интеллект может ошибаться, не заметить аномалии и упустить редкие явления.

«Растёт риск, что будущие нейронные сети превратятся в генераторы штампов, вечно переписывающих собственные ответы, – считает доцент Кафедры искусственного интеллекта Финансового университета Андриянов Н. А. – В научной литературе описано, что при тренировке поколений моделей на синтетических данных хвосты распределения, т.е. редкие уникальные фразы исчезают, а выход становится предсказуемым и однотипным. Чтобы этого избежать, необходимо сочетать искусственные и реальные источники, отслеживать происхождение данных и избегать «переваривания» одного и того же контента»».

Проблему коллапса можно сравнить с многократным копированием ксерокопии: каждое новое поколение копии немного бледнее и менее детализировано, чем оригинал. В тексте эта метафора особенно наглядна. Изначально большая языковая модель учится на разнообразных, богатых человеческих данных. Затем она начинает генерировать похожие тексты, которые кажутся правдоподобными. Когда же эти синтетические тексты снова идут в обучение, в них уже меньше редких слов и устойчивых оборотов, и новая модель начинает говорить шаблонами. Учёные выделяют два этапа коллапса: «ранний» – когда исчезают редкие хвосты распределения, и «поздний» – когда остаются только самые частотные элементы, а вариативность стремится к нулю.

Такое упрощение опасно не только для генераторов текстов. В исследованиях с генераторами изображений ученые также наблюдали, что после нескольких итераций обучения на синтетических данных изображения цифр начинают сливаться, а их разделение на группы и классы теряет чёткость. В крупных языковых моделях синтетические ответы могут звучать убедительно, но содержать ошибки, усиливающиеся с каждым поколением. В бизнес‑задачах, где нейросети помогают принимать решения, коллапс может привести к неверным выводам и дискриминации, ведь редкие случаи просто исчезнут из поля зрения.

Поэтому многие компании инвестируют в лицензирование данных у издательств и платформ с уникальным контентом. Индустриальные альянсы разрабатывают стандарты маркировки источников и водяных знаков, чтобы отделять машинный текст от человеческого и контролировать соотношение. В качестве временной меры исследователи предлагают ограничивать долю синтетики в обучающем наборе до 20–30%, постоянно обновлять выборки реальными данными и проверять их на разнообразие. Ещё один путь – использование тестовых наборов, не содержащих синтетики, чтобы оценивать реальное качество модели.

Ситуация напоминает сельское хозяйство: полезно увеличивать урожай за счёт удобрений и селекции, но нельзя навсегда заменить почву искусственными субстратами. Качество будущих моделей зависит от того, насколько тщательно мы будем ухаживать за «почвой» – человеческими знаниями и культурой. Только так можно избежать коллапса и сохранить многообразие идей.

Другие пресс-релизы