Американские писатели выступили против использования их книг для обучения нейросетей

Российские издатели также опасаются, что ИИ начнет создавать сюжеты, мало отличимые от авторских
Getty Images

Более 8000 американских писателей потребовали, чтобы разработчики нейросетей платили им за обучение языковых моделей на их текстах. Коллективное письмо было отправлено гендиректору OpenAI Сэму Альтману, главному исполнительному директору Alphabet Сундару Пичаи, основателю Facebook (принадлежит Meta, признанной в РФ экстремистской и запрещенной) Марку Цукербергу, основателю Stability AI Эмаду Мостаку, гендиректору IBM Арвинду Кришне и главному исполнительному директору Microsoft Сатье Наделле, пишет The Wall Street Journal (WSJ).

Обращение было опубликовано Гильдией авторов, крупнейшей в США профессиональной организацией писателей. Среди подписантов лауреаты Пулитцеровской премии Дженнифер Иган, Майкл Шейбон и Луиза Эрдрич. Обращение поддержали также авторы «Кода Да Винчи» Дэн Браун, бестселлера «Голодные игры» Сьюзен Коллинз и Маргарет Этвуд, написавшая роман «Рассказ служанки».

«Миллионы защищенных авторским правом книг, статей, эссе и стихов стали пищей для систем ИИ, бесконечной пищей, за которую никто не выставляет счет, – говорится в письме литераторов. – Вы тратите миллиарды долларов на разработку ИИ-технологии. Будет справедливо, если вы компенсируете нам использование наших работ, без которых ИИ был бы банальным и крайне ограниченным».

Как следует из письма, за последнее десятилетие доходы писателей упали на 40%, а средний доход писателя, работающего полный рабочий день, в 2022 г. составил всего $23 330. Гильдия авторов считает, что с развитием технологии ИИ писателям «будет еще сложнее зарабатывать на жизнь».

В своем письме они настаивают, что развивающие нейросети компании должны запрашивать у них разрешение на использование объектов интеллектуальной собственности для их обучения. Кроме того, авторы письма требуют денежных компенсаций за использование их работ в прошлом и будущем, следует из документа. В ином случае, как считают подписанты, ИИ «угрожает нанести ущерб профессии, наводнив рынок посредственными, написанными машинами книгами, рассказами и журналистикой».

Письмо было отправлено на фоне двух судебных исков против OpenAI от писателей, обвиняющих компанию в нарушении авторских прав, в том числе от писательницы и комика Сары Сильверман, заявившей о незаконном использовании ее мемуаров. Представитель OpenAI сказал WSJ, что ChatGPT обучается на «лицензионном контенте, общедоступном контенте и контенте, созданном ИИ-тренерами и пользователями», добавив, что компания соблюдает права творческих работников и писателей.

Российские издатели и эксперты не исключают, что нейросети по мере обучения смогут конкурировать с профессиональными литераторами.

Чем сильнее развивается ИИ, тем лучше он становится в анализе больших массивов авторских текстов, машинном обучении на основе этого анализа и последующей интерпретации и компиляции по запросу, что может уменьшить интерес к творческому труду настоящих авторов, считает генеральный директор издательства «Альпина PRO» Илья Долгопольский. Под угрозой прежде всего находятся авторы художественных произведений, считает он. «Возможно, в будущем ИИ сможет справиться и с прозой, и с поэзией, создавая фабулы и сюжеты, мало отличимые от оригинальных авторских, – выразил опасение топ-менеджер. – Это может привести к утрате уникальности и авторского вклада в создание художественных произведений».

Если книга была написана с участием ИИ и прошла верификацию приведенных фактов редактором, то это как минимум стоит указать, защитив тем самым интересы читателей, считает генеральный директор издательства «Эксмо» Евгений Капьев. Например, Amazon уже проверяет авторство текстов и блокирует неоригинальные работы, так как количество созданных ИИ текстов заметно выросло, добавил он.

Но проследить, какую именно информацию использовала нейросеть для своего развития, затруднительно. Такие гиганты, как OpenAI, парсят данные по всему интернету, т. е. вся информация, которая находится в открытом доступе, в том числе книги, используется для обучения моделей ИИ, пояснил руководитель NLP R&D команды в Just AI Константин Котик.

Отследить, какие конкретно литературные произведения и в каком объеме используются для обучения ИИ, невозможно, говорит сооснователь компании Parodist AI Владимир Свешников. Даже если модель генерирует текст, который точно совпадает с фрагментом произведения, это не означает, что для обучения было использовано само произведение, объясняет он. Вполне возможно, что отрывок был процитирован на форуме, в рецензии или в научной работе, которые публично доступны, и модель получила его именно оттуда, пояснил эксперт. Чтобы полностью обезопасить свое творчество, авторам придется публиковать свои произведения исключительно на закрытых платных ресурсах, считает Котик.

С аналогичной претензией могут выступить, например, фотографы, чьи работы также есть в открытом доступе, предположил Котик. Кроме того, это программисты и дизайнеры, чьи работы используются для обучения таких продуктов, как GitHub Copilot, Midjourney, и их аналогов, добавил Свешников.

Сейчас американские писатели вряд ли чего-то добьются, поскольку из-за отсутствия законодательства и объективных средств контроля ситуация с использованием данных разработчиками нейросетей никак не регулируется, полагает директор по развитию компании «Формат кода» Александр Жуков. Более того, он считает требования авторов письма несправедливыми, поскольку не известно, какую именно роль в том, что ИИ пишет связные и качественные тексты, играют их книги, а какая доля стиля и логики приходит от пользователей Reddit и 4chan, которые также участвуют в массивах обучающих данных.

Писателям будет сложно добиться компенсации за использование текстов законодательными способами, но в то же время риски для самих писателей в этом минимальны, считает эксперт в области ИИ и продвинутой аналитики Axenix Василий Крикунов. «Убежден, что в ближайшем будущем читать рукотворные книги, смотреть на рукописные картины станет очень модно, потому что в мире синтетического контента это дает возможность почувствовать свою исключительность», – сказал он.

Сложно сказать, по какому именно пути пойдет американский регулятор, отмечает преподаватель образовательной платформы Moscow Digital School Александра Орехович. Япония в июне 2023 г. заявила, что не будет обеспечивать соблюдение авторских прав на данные, используемые при обучении ИИ, напоминает она. По ее словам, такое решение связано с желанием нивелировать препятствия для развития ИИ в стране, но это не означает, что такой опыт будет заимствован другими государствами.

Орехович считает, что ситуация актуальна и для российского правового поля, где правообладатели произведений имеют право запрещать использование произведения по своему усмотрению. То есть в случае использования их произведений в нарушение авторского права они имеют основания на выплату компенсаций, пояснила она. По ее словам, в России в последнее время вырос спрос на разрешение споров в сфере авторского права и использования произведений при обучении нейросетей.

«Ведомости» направили запросы в Российский союз писателей, а также издательства «Просвещение», «Росмэн», «Азбука-Аттикус» и «Рипол-классик».