Оптимизационные процессы охватили практически все сферы нашей жизни, начиная от технических конструкций и заканчивая культурными установками целых поколений. А вместе с ними и потребность в генерации новых данных, для обучения и дообучения моделей ИИ. При этом динамика проводимых системных изменений в оптимизационных процессах при машинном обучении показывает значительный рост и качество, а также непредсказуемость.
Как рассказал доцент кафедры искусственного интеллекта Финансового университета Владимир Олегович Миронов выделить одну ветвь уже не представляется возможным, затронуты практически все форматы и формы данных: фото, видео, аудио, текст, специальные данные. Многие модели уже не требуют реальных данных, а вполне работают на синтетических данных (искусственно сделанных, которые имеют те же статистические параметры и структуру, как и реальные) и приложимы к натурным. При этом тренд на синтетику усиливается с каждым днём и известно более 20 корпораций, которые предоставляют такие услуги на мировой рынок: Gretel AI, Mostly AI, Datavant, tonic.ai, Infinity AI, Synthesis AI, SBX Robotics, DataGen, Aiforia, Epistemix, MediSyn, vAIsual, Nuvanitic и т. д. Что самое интересное такие данные обладают очень большой изменчивостью и вариативностью, позволяя создать все новые и новые наборы, крайне похожие на реальные.
Так, например, в 2025 году доля контента, созданного искусственным интеллектом (ИИ), составляет от примерно 1,6% до 50—52% в зависимости от типа контента и рынка. Британский холдинг WPP оценивает, что в 2024 году было 1,6% всего рекламного контента, созданного с помощью ИИ. Вместе с тем, согласно другим источникам, таких как исследование Graphite и ADPASS, на английском языке примерно половина текстового контента в интернете создаётся при помощи ИИ начиная с 2024 года и дальше тенденция сохраняется в этом диапазоне. По прогнозам, к 2026—2027 годам доля генерируемого ИИ контента может составить до 90% в интернете и 10,7% всего контента во всех медиа к 2029 году.
С одной стороны, мы видим разнообразие данных, их обилие и независимость от реальных процессов и удешевление разработки, с другой — серьёзную проблему. Большие языковые модели хорошо учатся только на новых, уникальных данных и значительно деградируют на базовых наборах. В подтверждении этому глава OpenAI, Сэм Альтман, сетовал на то, что 4 версия ChatGPT сильно отстаёт в развитии из-за обилия очень простых к ней вопросов со стороны пользователей. Позднее эту гипотезу подтвердили экспериментально Benjamin Pikus, Pratyush Ranjan Tiwari, Burton Ye в своей работе: Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets. Они показали, что обучение на 10% самых сложных примеров (тех, где базовая модель чаще всего терпит неудачу) даёт значительный прирост производительности — до 47%, в то время как простые примеры дают минимальные улучшения — от 3 до 15%. Это происходит ввиду того, что сложные примеры сохраняют смешанные результаты успеха/неуспеха на протяжении всего обучения, в то время как простые примеры быстро сходятся к стабильному успеху, исключая возможности для обучения.
С подобными трудностями столкнулась и студенческая команда Финансового университета под руководством Владимира Олеговича Миронова при обучении модели для распознавания DeepFake’ов (то есть полностью сгенерированных лиц) на хакатоне Kryptonite ML Challenge 2025, посвящённом разработке модели, способной противостоять DeepFake-атакам. В этом соревновании команда кафедры искусственного интеллекта Финансового университета заняла первое место и предложила очень эффективное решение. Подробный отчёт об этой работе мы представили в блоге университета.
В ходе исследования команда сравнивала модели FaceNet, ArcFace, MagFace, AdaFace и GhostFace. Обучение проводилось на наборе данных CelebA, содержащем 10 000 персонажей, что составляет около 200 000 реальных фотографий. В этот набор также были включены фейковые данные, которые необходимо было распознать; они были созданы на основе четырёх различных архитектур: Roop, Ghost, Arc2Face, InstantID. В итоге команда достигла крайне низкого значения ERR и высокой проверенной точности. Скорость инференса на видеокарте RTX 4090 составила 900 изображений в секунду.
Однако рост и качество подделок будет только расти в связи с тем, что повышается качество самих синтетических данных. Более того, заметна тенденция, что модели всё более начинают «специализироваться», то есть уход от работы крупных массовых игроков таких как ChatGPT, Claude, DeepSeek, Bloom, PaLM, Grock к более нишевым и компактным решениям. Таким образом, современный тренд заключается не в самом факте появления новой технологии, а в темпах её внедрения и влияния на общество. Ранее первостепенное значение имела содержательная составляющая нововведений, однако сегодня приоритет смещается в пользу быстроты и глубины изменений.
Примечательно, что такое отношение формируется параллельно с интенсивностью технологических изменений, свидетельствуя о глубоком понимании природы экономических процессов и возможности осознанного выбора пути собственного развития. На первый план выходит упор на полную систематизацию и оптимизацию деятельности и ограничения зоны ответственности по рассматриваемым вопросам. Не так уже интересно содержание, сколько связь основных показателей по получаемым данным.