От Pixar до Midjourney: новые технологии визуального сторителлинга

Тридцать лет назад студия Pixar произвела революцию в мультипликации, выпустив первый полнометражный мультфильм, полностью созданный на компьютере – легендарную «Историю игрушек» (1995). Компьютерная 3D-анимация тогда поражала воображение и позволяла создавать кадры, практически невыполнимые традиционными методами рисования. Сегодня на пороге новой революции стоит уже генеративный искусственный интеллект (ИИ) – технологии, которые способны мгновенно создавать визуальный контент по описанию. Эксперты отмечают, что нейросети сейчас могут генерировать практически любой контент и это радикально сокращает затраты времени на покадровую отрисовку и монтаж анимации. По мере совершенствования алгоритмов возникает возможность делать мультфильмы интерактивными, а их содержание – персонализированным под каждого зрителя.

Ещё недавно создание качественного иллюстративного материала для мультфильма или комикса требовало долгих часов работы художников. Теперь же достаточно сформулировать текстовый запрос и нейросеть выдаст готовое изображение нужного стиля. Одним из самых известных инструментов этого рода стала Midjourney – популярнейшая нейросеть для генерации изображений по тексту. Подобные сервисы (DALL·E, Stable Diffusion и др.) быстро развиваются: Midjourney славится фотореалистичностью и разнообразием стилей, позволяя творцам мгновенно получать концепт-арты, фоновые сцены или персонажей по описанию. Причём качество уже достигает уровня, когда ИИ-картинки порой не отличить от настоящих фотографий.

Такие инструменты нашли применение на самых ранних этапах создания анимационных проектов. Режиссёры и сценаристы используют генеративные модели для раскадровок и концепт-дизайна: вместо набросков от руки можно сгенерировать серию кадров, задающих визуальный стиль и атмосферу будущего мультфильма. Нейросеть также позволяет быстро перебрать альтернативные варианты декораций или облика героев. К примеру, Midjourney поддерживает режимы сохранения референсов, благодаря которым можно удерживать единый облик персонажа от кадра к кадру, а также создавать серию иллюстраций.

Отдельно стоит отметить и феномен персонализированного арт-портрета. Сегодня любой желающий может превратить свою фотографию в персонажа мультфильма, сгенерируя аватар в узнаваемом «пиксаровском» стиле по одному снимку. Персонализированные изображения в мультяшном стиле это уже не диковинка, а массовый тренд, подкреплённый доступностью генеративных инструментов.

Если синтез изображений стал реальностью несколько лет назад, то генерация видеороликов нейросетями только недавно начала стремительно развиватся. «Нейровидео» – так в медиа называют технологии создания видео по текстовому описанию или одному кадру. Уже существуют публичные сервисы, позволяющие получить короткий анимационный клип, просто описав сцену словами. Например, российская модель Kandinsky Video, разработанная Сбером и представленная в конце 2023 года, способна создавать мультфрагменты продолжительностью до 16 секунд на основе текста. Другая нейросеть Gen-2 от стартапа Runway, предлагает широкому кругу пользователей генерировать ролики по описанию, изображению или даже комбинируя оба способа.

Пока что открытые нейросети генерируют видео ограниченной длительности, как правило, считанные секунды и далеко не всегда точно следуют замыслу автора. В 2025 году компания Midjourney, зарекомендовавшая себя в области ИИ-изображений, сделала шаг в мир ИИ-видео, запустив свою первую модель Midjourney Video V1. Этот сервис позволяет превращать статичный рисунок в короткий динамический клип, по сути, «оживлять» изображение за счет сгенерированной анимации. Загружая картинку и выбрав характер движения (плавное или резкое, с указанием направления), пользователь получает до четырёх вариантов 5-секундной анимированной сцены, которые при желании можно сцеплять в последовательность до ~20 секунд. С выходом Video V1 Midjourney встала в один ряд с лидерами гонки генеративного видео – такими как Sora от OpenAI, модели Gen-3/Gen-4 от Runway и Veo от Google.

Еще один прорывной компонент – это генерация движений и действий персонажей с помощью ИИ. Традиционно, чтобы анимировать героя, нужны либо навыки покадровой анимации, либо комплекс motion capture (технология захвата движения). Новые алгоритмы стремятся упростить и этот процесс. Появились инструменты, которые по текстовому описанию способны сгенерировать реалистичную последовательность движений для персонажа. Например, сервис DeepMotion предлагает задать движение для 3D-модели, просто описав его словами. Система ориентирована на реалистичность и часто используется разработчиками игр и кино для быстрого прототипирования анимированных сцен.

Помимо текста, генеративные модели могут обучаться движению по видео-примерам или ключевым кадрам. Существуют решения (как Gooey AI или PixVerse AI), позволяющие превращать цепочки изображений в анимированные последовательности – фактически заполняя промежутки между заданными позами автоматически. Другие алгоритмы научились синхронизировать речь и мимику: достаточно загрузить аудиотрек, и цифровой аватар воспроизведет речь с подходящей артикуляцией. Подобные технологии применяются в виртуальных ассистентах, а теперь проникают и в мультфильмы. Можно заставить нарисованного персонажа говорить любым голосом, совпадая по губам.

Для индустрии мультимедиа это означает, что рутинные этапы анимации становятся автоматизированными. Простые сцены: персонаж идет, улыбается или машет рукой легко генерируются алгоритмом. Аниматор из творца покадровых движений превращается скорее в постановщика. Достаточно корректно описать: “что должен сделать герой”, “как он это сделает” и ИИ сгенерирует эпизод. В результате даже небольшая студия или индивидуальный автор смогут оживить своих персонажей без оборудования motion capture и без армии рисовальщиков.

Совмещение перечисленных технологий ведет к появлению принципиально новых форматов анимационного сторителлинга. Во-первых, мультипликация становится персонализированной под зрителя. Если раньше все видели один и тот же фильм, то теперь контент можно адаптировать под предпочтения или даже данные конкретного человека.

Во-вторых, анимационные истории обретают интерактивность, вовлекая зрителя в действие. Примером ранних экспериментов был фильм “Чёрное зеркало: Брандашмыг” Netflix, где зритель делал выборы, влияющие на концовку. Проблема заключалась в том, что все развилки приходилось снимать вручную, что дорого и долго. С возможностями ИИ создавать сцены интерактивного мультфильма, возможно по запросу пользователя. Таким образом каждый следующий кадр «дорисовывается» моделью на основе последних событий. Это позволяет объединить кинематографичность сюжетов с бесконечностью вариативности. История может длиться сколько угодно, развиваясь неповторимо для каждого участника. Персонажи в таком мультфильме потенциально способны импровизировать диалоги, а мир изменяться от взаимодействий.

По мнению Алексея Николаевича Чернякова, кандидата философских наук, доцента кафедры информационных технологий Факультета информационных технологий и анализа больших данных Финансового университета при Правительстве Российской Федерации, наступает переломный момент, когда зритель из пассивного потребителя превращается в со-творца истории. Генеративные нейросети делают возможным интерактивный диалог между автором и аудиторией. Персонализированная анимация позволит каждому буквально увидеть отражение своих фантазий на экране, а интерактивность вовлечёт зрителя в повествование, усиливая эмоциональную связь с контентом. Таким образом, меняется сама модель сторителлинга: повествование больше не высечено в граните, оно адаптируется под контекст и отклик аудитории в режиме реального времени.

Другие пресс-релизы