16 апреля, 08:58 / Открытия

«Яндекс» и ВШЭ предложили метод ускорения нейросетей для генерации изображений

/iStock

Команда ученых Yandex Research и НИУ ВШЭ предложила метод, который снижает вычислительные затраты и ускоряет генерацию изображений в диффузионных моделях без потери качества. Речь идет о моделях, которые сегодня задают стандарт в задачах генерации изображений, однако их использование ограничено высокой нагрузкой на вычисления, говорится в сообщении компании.

Уточняется, что разработанный метод Scale-wise Distillation of Diffusion Models (SwD) снижает вычислительную нагрузку при генерации изображений, что позволяет получать результат за 0,3–0,4 секунды.

Как пояснили авторы работы, обычно процесс генерации в диффузионных моделях требует десятков шагов с вычислениями в высоком разрешении. При этом на ранних этапах формируется только общая структура изображения, а мелкие детали еще не различимы, поэтому часть вычислений оказывается избыточной. Предложенный учеными метод SwD решает эту проблему двумя способами. Во-первых, генерация начинается с низкого разрешения и постепенно уточняется по мере снижения шума – это исключает избыточные вычисления на ранних этапах. Во-вторых, метод использует дистилляцию уже обученных моделей – таких как FLUX и Stable Diffusion 3.5, где более простая модель-студент учится воспроизводить результат сложной и сокращает число шагов генерации с десятков до четырех–шести.

Для обучения используется предложенная авторами новая функция потерь – Maximum Mean Discrepancy (MMD), которая сравнивает то, как модель-учитель «видит» изображение на своих внутренних уровнях обработки, с тем, как модель-студент представляет то же изображение. В отличие от традиционных подходов, это не требует вспомогательных моделей, что упрощает и ускоряет обучение, подчеркивают в компании. Более того, MMD может использоваться как самостоятельный метод дистилляции (сжатия знаний): в экспериментах время одной итерации обучения сокращается в семь раз по сравнению с более сложными комбинированными подходами.

Новый подход сокращает время генерации с нескольких секунд до 0,3–0,4 секунды при сохранении визуального качества. В результате метод SwD позволяет быстрее и дешевле использовать современные диффузионные модели и делает их более доступными для практического применения, отмечается в сообщении.

Разработка описана в научной статье, которая будет представлена на одной из крупнейших конференций в области искусственного интеллекта – ICLR 2026.