16 апреля 2024, 16:35 / Новые технологии

Искусственный интеллект моделирует перспективы

Как ИИ меняет мир, и как меняется сам

Istock

2022-й стал годом, когда генеративный искусственный интеллект ворвался в общественное сознание, а в 2023-м он начал проникать и в бизнес. Похожее случалось в 2016 г.: нейросети были на первых полосах, а вместе с ними метавселенные, Web 3.0, индустрия 4.0, интернет вещей. А в 2017-м считалось, что мир раз и навсегда изменит блокчейн. «Богом из машины» блокчейн не стал, общество не изменил, но вместе с тем он постепенно находит свое применение. Например, на смену электронным подписям приходят машиночитаемые доверенности. 2024 г. имеет все шансы стать поворотным для будущего ИИ, поскольку ученые, предприниматели и политики будут пытаться определить, как эффективно интегрировать в нашу повседневную жизнь генеративные нейросети.

От большего к меньшему

Развитие генеративного ИИ повторяет эволюцию компьютеров, хотя и в более ускоренном темпе. Занимавшие целые стадионы первые суперкомпьютеры нескольких игроков уступили место меньшим, более производительным машинам, доступным бизнесу и исследовательским центрам. За последние 20 лет прогресс привел к появлению домашних компьютеров практически в каждом доме.

Дальнейшее развитие генеративного ИИ, как и в случае с компьютерами, направлено на достижение большей производительности при меньших размерах. В 2023 г. появились более эффективные большие языковые модели с открытым исходным кодом (open-source), начиная с запуска семейства LlaMa и заканчивая такими, как Mistral и Mixtral, Falcon и Llama 2. Открытая модель Stable Diffusion достигла относительного паритета с проприетарными Midjourney и DALL-E. Многие open-source модели теперь могут превзойти в большинстве бенчмарков все, кроме самых мощных нейросетей с закрытым исходным кодом. Этого удалось достичь благодаря использованию методов тонкой настройки и наборов данных от сообщества опенсорс-разработчиков.

В исследовании Gartner Hype Cycle генеративный ИИ находится на «пике завышенных ожиданий» и на пороге сползания во «впадину разочарования», другими словами, относительно скоро наступит неутешительный переходный период. В то же время аналитики Deloitte утверждают, что многие руководители «ожидают существенного трансформационного воздействия в краткосрочной перспективе». Истина, скорее всего, окажется где-то посередине: генеративный ИИ действительно создает широкие возможности, но он не будет универсальным инструментом, «всем для всех». Шансы на успех покажет то, насколько глубоко генеративный ИИ проникнет в существующие сервисы, а не шум вокруг конкретной реализации по типу ChatGPT. Например, Google в 2018 г. представил функцию в своем почтовом сервисе, которая после этапа обучения начинала подсказывать слова и целые фразы при написании имейлов.

Сегодня во многих сферах используется огромное количество решений на основе нейросетей и ИИ, которые не называют сменой парадигмы, а скорее, воспринимают как удобный инструмент, отметил представитель ВТБ. В банке применяется порядка 800 моделей на основе ИИ для различных инструментов. Они встроены в антифрод-решения, в кредитный скоринг, оценку риска, возвратности кредита, склонности клиента к покупке или попаданию под влияние мошенников и т. д. Существуют внутренние вспомогательные сервисы, в основе которых лежат технологии ИИ. Например, распознавание документов и генерация протоколов совещаний.

Таким образом, скоро аналогично будут воспринимать Copilot в сервисах Microsoft или генеративную заливку Adobe Photoshop.

Мультимодальный генеративный ИИ

Мультимодальные модели нового поколения ‒ как проприетарные GPT-4V от OpenAI или Gemini от Google, так и с открытым исходным кодом вроде LLaVa или Qwen-VL, способны и заниматься обработкой изображений, и вести диалог на естественном языке. Благодаря мультимодальности пользователь может попросить инструкцию по ремонту и получить визуальные подсказки наряду с пошаговыми текстовыми инструкциями. Кроме того, корпорации работают над тем, чтобы, помимо генерации изображений, ИИ-модели могли преобразовывать текстовое описание в видео. В конце января Google анонсировала Lumiere, а OpenAI в феврале открыла доступ к Sora с такими функциями.

Мультимодальность упростит взаимодействие пользователя с ИИ, сделает его более интуитивным, утверждает вице-президент по стратегии и инновациям МТС, CEO Future Crew Евгений Черешнев. «Проще говоря, хочешь написать код, Copilot тебе его генерирует; хочешь кино снять, ИИ будет выдавать изображение; захочешь получить психологическую консультацию с цифровым двойником врача, будут задействованы все модули модели: графика, голос, текст», – пояснил специалист.

Кроме того, мультимодальный ИИ окажет значительное влияние на креативные индустрии. «Действительно талантливых и качественных произведений всегда было и будет очень мало, в лучшем случае единицы процентов от общей массы. ИИ кардинально изменит эту ситуацию для производителей массового контента, в том числе за счет замены сценаристов, иллюстраторов и многих других. Творчеством будут заниматься только талантливые самородки», – считает Черешнев.

Вместе с тем креативные способности ИИ далеко не совершенны. На конференции «Телеком 2024» директор по стратегическому маркетингу «Яндекса» Андрей Себрант иллюстрировал эту ситуацию примером: «Сейчас, к сожалению, мы всеми силами давим креативность ИИ. Одна американская писательница несколько лет назад получила доступ к ранним версиям GPT, когда про них вообще никто нигде не слышал. Она написала рассказ, который взял первое место на конкурсе каких-то рассказов, а сама писательница была поражена тем, что все сильнейшие, с ее точки зрения, места были написаны нейросетью». Через несколько лет появился GPT-4, женщина решила попробовать написать произведение с помощью этой модели и «поняла, что это полный отстой». Она пришла к разработчику и спросила: какого черта вместо гениального соавтора она получила непонятно что, продолжил рассказчик. Разработчик ей ответил: «Хороший рассказ имеет героя не только положительного, но и отрицательного, и этот подонок делает мерзкие вещи. Мы все два года вложили в то, чтобы сетка не могла публично придумать и посоветовать ни одну мерзкую вещь. В хорошем рассказе может быть очень плохой конец. Мы же хотим, чтобы наша нейросетка была позитивной. Никаких смертей в конце», – рассказывает Сербант. Поэтому сейчас большая часть возможностей ИИ выкручена в минимум, подытожил он. «Я подозреваю, что использование открытого кода приведет к тому, что появятся модели, которые будут страшно ругать в прессе и требовать их запретить, и модели, в которых эти ограничения искусственно навешиваемой гири на ногах будут сняты», – добавил эксперт.

Малые языковые модели и локальные модели

«Я думаю, что мы находимся в конце эры, когда будут существовать гигантские модели, а мы будем улучшать их другими способами», – говорил на открытой лекции в Массачусетском технологическом институте генеральный директор OpenAI Сэм Альтман в апреле 2023 г. – Мы слишком много внимания уделяем количеству параметров». При этом GPT-4 от OpenAI, по неподтвержденным данным, имеет около 1,76 трлн параметров.

Нейросети с многими миллиардами параметров положили начало нынешней популярности ИИ, но они же создают соответствующие издержки: требуются огромные инфраструктурные ресурсы в виде тысяч и десятков тысяч графических процессоров и постоянные энергозатраты. Кроме того, существуют возможности повышать качество работы не только за счет роста параметров. Обучение меньших моделей на большем количестве данных приводит к более высокой производительности, отмечали исследователи Deepmind. С этим соглашается вице-президент VK по AI, контентным и рекомендательным сервисам Антон Фролов. Обучение небольших моделей на ограниченном, но качественном дата-сете гораздо эффективнее, чем на неограниченном, но с «грязными» данными, сказал эксперт.

Кроме того, на получение большего результата при меньшем количестве параметров направлена и значительная часть исследований в области генеративного ИИ. «Стремление уменьшить размер ИИ-моделей связано не только с тем, чтобы снизить инфраструктурные издержки, но еще и для того, чтобы развивать направление локальных нейросетей. Чтобы добиться этого, разработчики «сжимают» нейросети до меньшего количества параметров после этапа обучения, а также снижают точность с 16 битов до, например, четырёх.

Получившиеся модели менее требовательны к объему памяти и вычислительным мощностям», ‒ отметил Фролов. По его словам, в краткосрочной перспективе ИИ-модели будут работать (а в ряде случаев уже работают) не только на удаленных серверах с множеством графических процессоров, но еще и на конечных устройствах: смартфонах, умных колонках. Вполне возможно, модели появятся и в профессиональных фотоаппаратах, звуковой аппаратуре, допустил специалист.

Если ИИ реализует свой потенциал, то по своей силе он может стать столь же значимым фактором, каким были компьютеры на протяжении последних десятилетий. Он позволит повысить производительность, высвободив инновации и породив новые бизнес-модели, а также разрушив те, которые не смогут адаптироваться достаточно быстро.