13 ноября 2023, 15:30 / Новые технологии

Сам себе Ренуар

Генеративный ИИ превращает каждого в художника

Андрей Гордеев / Ведомости

Генеративный искусственный интеллект (ИИ) назван самой перспективной технологией на ближайшие годы. Одной из основных причин растущей популярности генеративного ИИ является его способность порождать новые идеи в области искусства, создавать уникальные произведения, на которые раньше был способен только человек. Генеративный ИИ открыл новые возможности для художников и дизайнеров.

Как это работает

В последние годы стали популярны не только иностранные генераторы изображений (Midjourney, DALL-E, Stable Diffusion), но и российские: Kandinsky от «Сбера» и «Шедеврум» от «Яндекса». Они преобразовывают входящий текст от пользователя в изображение. Сейчас генеративный ИИ и GPT у всех на слуху, но как это работает, понимают немногие.

Сначала текст пользователя проходит через модель обработки естественного языка (NLP). Она устанавливает контекст и смысловые связи. Например, получив запрос «спелая вишня на дереве», NLP преобразует его в набор свойств и атрибутов «спелая», «вишня», «дерево», а также устанавливает связи между ними. Затем полученные данные используются как навигационная карта для генератора изображений. Как правило, для этого процесса применяются большие языковые, диффузионные или сверточные модели.

«Создание изображений происходит следующим образом: сначала генеративный ИИ получает случайный входной сигнал, который называется шумом. Затем он пропускает этот шум через нейронную сеть, и она генерирует новое изображение на основе данных из обучения. Чем чаще генеративный ИИ проходит через этот процесс, тем лучше и точнее становятся создаваемые изображения», – сказал директор по AI-продуктам Just AI Алексей Борщов.

YandexART формирует изображения методом каскадной диффузии (упрощенно – генерация картинки из шума. – Ред.), рассказал представитель «Яндекса». Сначала нейросеть генерирует небольшую картинку в соответствии с запросом пользователя, а затем поэтапно увеличивает ее разрешение, насыщая деталями.

«Для того чтобы результаты были достаточно точными и качественными, предварительно нейросеть учится на примерах – картинках с подробным текстовым описанием того, что на них изображено. Их превращают в цифровой шум – по сути, набор точек. Задача нейросети – «собрать» из него изображение, похожее на исходное. Именно так она учится понимать, как выглядят различные объекты, предметы, явления. YandexART обучалась на 330 млн примеров, причем эти изображения отбирались в несколько этапов с помощью трех режимов фильтрации», – пояснил представитель «Яндекса».

В основе большинства зарубежных нейросетей для создания изображений лежат диффузионные модели. YandexART выделяется среди них тем, что использует технологии и решения «Яндекса». Например, собственный текстовый энкодер, понимающий запросы на разных языках, три режима фильтрации для отбора красивых картинок, обучающий датасет из 300 млн изображений с текстовым описанием и метод обучения нейросети с подкреплением.

По словам представителя «Яндекса», это не только улучшило качество отрисовки, но и научило YandexART понимать российский культурный код. «Нейросеть знает известные места и города страны, выдающихся личностей разных эпох и персонажей мультфильмов и сказок. Например, модель может нарисовать Чебурашку, богатырей и Бабу-Ягу», – сказал он.

Востребованность ИИ-творчества

Летом 2023 г. Midjourney сообщал о 16 млн пользователей на серверах Discord (официальные пользователи используют чат-бот в этом мессенджере), из которых 1,5 млн активных, а число ежемесячных посещений достигает 28,5 млн. Сайт Stable Diffusion посещает 6 млн человек в месяц. OpenAI утверждает, что около 1,5 млн пользователей DALL-E ежедневно генерируют более 2 млн изображений. Все это говорит о востребованности генерации изображений в мире.

Более 2 млн пользователей создали свыше 10 млн изображений с помощью Kandinsky 2.1 от «Сбера» за первые четыре дня после публичного релиза. Для сравнения: ChatGPT от OpenAI для привлечения аналогичного количества пользователей понадобилось пять дней.

С момента запуска «Шедеврума» весной 2023 г. пользователи скачали приложение 7,2 млн раз и отправили более 120 млн запросов на генерацию контента – изображений, текстовых постов и видео. «В среднем пользователи проводят в «Шедевруме» больше 30 минут, потому что это весело и интересно: можно дать волю фантазии, подписываться на других авторов, ставить лайки и общаться в комментариях», – заявил представитель компании.

Нейросеть YandexART часто используется для решения прикладных задач. Например, с ее помощью можно создавать обложки музыкальных альбомов, иллюстрации для сайтов, изображения для книг, образовательных курсов и даже театральных постановок. «Яндекс» придумал использовать сгенерированные YandexART изображения в рекламных объявлениях, размещаемых на площадке. По словам представителя «Яндекса», они сейчас есть в каждом пятом размещении.

Сервис генерации изображений в Jay Copilot (дает доступ к различным нейросетям) регулярно использует больше 30% пользователей, сказал Борщов из Just AI. При этом свыше 70% хотя бы один раз попробовали эту функцию. «Такую популярность можно объяснить быстрым и качественным результатом, который получает пользователь, и вау-эффектом от него. Стандартная генерация дополнена возможностью вносить изменения в полученный результат в диалоговом режиме, создавая новые изображения и автоматически внося изменения в промпты [текстовые описания] с помощью GPT», – добавил эксперт.

Авторское право

При создании новых изображений генеративный ИИ опирается на обучающие данные, у большей части которых есть авторы, чьи права защищены. Однако пока текущие редакции законов не регулируют сгенерированные изображения, тексты, музыку и т. д.

Эксперты дискутируют о том, кому принадлежит право на полученный объект творчества: либо пользователю, составившему запрос, либо разработчикам ИИ, применяемого для генерации, либо обеим сторонам поровну.

Звучат даже предложения наделить правосубъектностью сам ИИ, что противоречит существующей логике законотворчества: обладать правами может только физическое или юридическое лицо.

Юристы, общество и законодатели всех стран ищут универсальный механизм, принятие которого, как ожидается, будет стимулировать более широкое использование сгенерированных изображений и текстов. Сейчас компании и предприниматели рискуют получить иск о нарушении авторских прав при использовании полученных объектов для коммерческих целей. В случае пробелов в праве судьи имеют право расширенно и исходя из своих внутренних убеждений толковать существующие нормы законодательства, что и создает юридическую неопределенность. Другими словами, пока не принят закон и не сложилась правоприменительная практика, предсказать исход дела невозможно.

За нарушение авторских прав полагается штраф до 200 000 руб. либо арест до полугода. Если же стоимость незаконно созданных экземпляров превышает 1 млн руб., наказанием может стать лишение свободы до шести лет со штрафом в размере до 500 000 руб.

Неурегулированность этой сферы открывает возможность привлечения и по другим статьям УК – например, за надругательство над флагом России. Так, президент Сбербанка Герман Греф рассказал на форуме Finopolis 2023, что сеть Kandinsky при генерации российского флага нарисовала на нем купола собора Василия Блаженного: «Депутаты посчитали, что это издевательство над нашим национальным флагом. Мы тут же остановили определенные вещи – символы государственные она (нейросеть. – Ред.) не генерит уже, она генерит картинку, заранее заданную». Хорошо, что прокурор попался современный и с чувством юмора, продолжил топ-менеджер, «он все изучил, и, слава богу, нас никуда не привлекли <…> могло бы быть иначе».

Как ранее писали «Ведомости», в Китае Управление по вопросам киберпространства КНР (САС) в апреле 2023 г. опубликовало проект мер по регулированию сервисов генеративного ИИ. По задумке разработчики обязаны позаботиться о соблюдении авторских прав (контента, который использовался для обучения нейросети) и маркировке контента, созданного c помощью ИИ. Под запрет подпадут пропаганда с применением сервисов генеративного ИИ терроризма, экстремизма и ксенофобии, порнография, информация, нарушающая экономический и социальный порядок в КНР, а также раскрывающая личные данные и коммерческую тайну.

Китайские власти будут сами проверять сервисы на основе генеративного ИИ до выдачи им разрешения на работу в стране. При описанных выше нарушениях разработчики понесут ответственность в виде штрафа от 10 000 до 100 000 юаней (примерно от 120 000 до 1,1 млн руб.), блокировки, а при угрозе безопасности государству – и уголовного наказания.

Как заявил на Finopolis 2023 Греф, главное – не зарегулировать отрасль. В опубликованных подходах ЦБ к политике ИИ в финансовой сфере заложен разумный риск-ориентированный подход. Он подразумевает, что интенсивность контроля зависит от баланса уровня риска, возникающего из-за использования технологии, и потенциального положительного эффекта от ее внедрения.

«Мы видим примеры, когда США и Китай используют ИИ и при этом создают все условия для его развития, в то же время не перерегулируют. И мы видим европейский подход, где сначала цифровая директива, а затем принципы регулирования ИИ фактически убили развитие ИИ в Европе. И сегодня все более-менее крупные компании стараются релоцироваться за пределы регулирования Евросоюза. Нам, конечно, очень важно этого не повторить. Но мне кажется, что пока в России и правительство очень хорошо это понимает, и Центральный банк трезво и без всяких страхов подходит к этому», – заявил Греф.