НИУ ВШЭ и «Яндекс» предложили метод ускорения нейросетей для генерации изображений

OZON4 057+1,37%↑CNY Бирж.10,791+1,42%↑IMOEX2 620,39+1,96%↑RTSI1 137,66+0,55%↑RGBI119,06+0,45%↑RGBITR784,44+0,47%↑

Команда ученых НИУ ВШЭ и Yandex Research предложила метод, который снижает вычислительные затраты и ускоряет генерацию изображений в диффузионных моделях без потери качества. Речь идет о моделях, которые сегодня задают стандарт в задачах генерации изображений, однако их использование ограничено высокой нагрузкой на вычисления, говорится в сообщении компании.

Уточняется, что разработанный метод Scale-wise Distillation of Diffusion Models (SwD) снижает вычислительную нагрузку при генерации изображений, что позволяет получать результат за 0,3–0,4 секунды.

Как пояснил автор работы, обычно процесс генерации в диффузионных моделях требует десятков шагов с вычислениями в высоком разрешении. При этом на ранних этапах формируется только общая структура изображения, а мелкие детали еще не различимы, поэтому часть вычислений оказывается избыточной. Предложенный учеными метод SwD решает эту проблему двумя способами. Во-первых, генерация начинается с низкого разрешения и постепенно уточняется по мере снижения шума — это исключает избыточные вычисления на ранних этапах. Во-вторых, метод использует дистилляцию уже обученных моделей — таких как FLUX и Stable Diffusion 3.5, где более простая модель-студент учится воспроизводить результат сложной и сокращает число шагов генерации с десятков до 4–6.

Для обучения используется предложенная авторами новая функция потерь — Maximum Mean Discrepancy (MMD), которая сравнивает то, как модель-учитель «видит» изображение на своих внутренних уровнях обработки, с тем, как модель-студент представляет то же изображение. В отличие от традиционных подходов, это не требует вспомогательных моделей, что упрощает и ускоряет обучение, подчеркивают в компании. Более того, MMD может использоваться как самостоятельный метод дистилляции (сжатия знаний): в экспериментах время одной итерации обучения сокращается в 7 раз по сравнению с более сложными комбинированными подходами.

Новый подход сокращает время генерации с нескольких секунд до 0,3–0,4 секунды при сохранении визуального качества. В результате метод SwD позволяет быстрее и дешевле использовать современные диффузионные модели и делает их более доступными для практического применения, отмечается в сообщении.

Разработка описана в научной статье, которая будет представлена на одной из крупнейших конференций в области искусственного интеллекта — ICLR 2026.