Представьте, что вы случайно порвали важную фотографию на мелкие кусочки и бросили их в шредер. В обычной жизни дорога обратно одна: смириться с потерей. Но в мире искусственного интеллекта всё иначе. Новое поколение генеративных моделей, называемых диффузионными, учится превращать хаос в порядок и восстанавливать изображение из чистого шума. На первый взгляд это выглядит как магия, но в основе лежит простая физическая идея.
Классические генеративные модели вроде генеративно-состязательных сетей соперничают, как два игрока: один генерирует изображение, другой оценивает, похоже ли оно на реальное. Системы бывают капризны и склонны к «коллапсу мод». Диффузионные модели идут другим путём. Сначала они «пачкают» исходные данные случайным шумом, а затем учатся поэтапно убирать этот шум, получая всё более чёткие версии изображения. Ученые сравнивают этот процесс с каплей чернил, растворяющихся в стакане воды: молекулы постепенно расходятся, пока цвет равномерно не распределится по всему объёму. Если научиться отслеживать движение молекул назад, можно восстановить исходную форму.
Алгоритм работает так: в фазе прямого диффузирования в каждое изображение добавляют небольшую дозу случайных помех тысячу раз, пока не останется только «телевизионный снег». В фазе обратного хода нейросеть шаг за шагом прогнозирует, как выглядело изображение на предыдущем этапе, и убирает чуть-чуть шума. После обучения она способна взять чистый шум и за те же тысячи итераций превратить его в реалистичную фотографию или рисунок. Этот медленный, но надёжный процесс обеспечивает высокую стабильность и детализацию, поэтому диффузионные модели быстро потеснили генеративно-состязательные модели в генерации изображений.
Доцент Кафедры искусственного интеллекта Финансового университета Андриянов Н. А. признаётся, что поначалу даже специалисты воспринимали эту идею как фантастику. «Представьте, что вы стираете рисунок ластиком, но делаете это постепенно, слой за слоем. Если фотографировать каждую итерацию, можно в обратном порядке восстановить исходный рисунок. Диффузионные модели делают то же самое: они учатся мысленно дорисовывать образы между двумя соседними состояниями и благодаря этому превращают белый лист в картину», — рассказывает он.
Секрет диффузионных моделей в том, что они обращаются к физике случайных процессов. Первая версия таких алгоритмов была предложена в 2015 году в работе Соля–Дикстина, где использовались идеи из термодинамики. Позже исследователи из Стэнфорда разработали подход, основанный на оценке градиента распределения данных (score-based models), что позволило обойти необходимость нормализующих констант и использовать более гибкие архитектуры. Современные диффузионные модели объединяют эти направления и оптимизируют сложную математическую цель, называемую доказательством нижней границы правдоподобия, чтобы научиться генерации изображений высокой чёткости.
Помимо картин, диффузионные модели применяются для увеличения разрешения (super‑resolution), дорисовывания частей изображения (inpainting) и даже для генерации музыки и молекул, например, лекарственных соединений. Во время обучения важно подобрать правильный график шума: если шум увеличивается слишком быстро, модель может «забыть» изображение; если слишком медленно — обучение будет идти долго. Поэтому исследователи используют тысячи шагов и тонко настраивают параметры.
В отличие от других подходов, диффузионные модели лишены двухстороннего соревнования, что делает их обучение более устойчивым. Недостаток у них один – скорость: чтобы получить качественную картинку 1024 × 1024 пикселя, приходится совершать сотни итераций очищения шума. С другой стороны, развитие аппаратуры и оптимизаций уже ускоряет процесс, и в ближайшие годы мы увидим ещё более впечатляющие результаты. Как в генерации видео, так и 3D-графики.
Диффузионные модели напоминают нам, что иногда путь к творчеству лежит через хаос. Вдохновлённые законами природы, они показывают, что даже беспорядок можно превратить в искусство, если действовать постепенно и последовательно.