Даниил Гаврилов: «ИИ – это черный ящик»

Руководитель лаборатории научных исследований искусственного интеллекта T-Bank AI Research об этапах развития и будущем области
Руководитель лаборатории научных исследований искусственного интеллекта T-Bank AI Research Даниил Гаврилов
Руководитель лаборатории научных исследований искусственного интеллекта T-Bank AI Research Даниил Гаврилов /Максим Стулов / Ведомости

К 2027 г. в интернете могут закончиться новые данные для обучения моделей искусственного интеллекта (ИИ). Крупные разработчики моделей (вроде OpenAI) уже видят эту проблему. При этом они до сих пор не могут сказать точно, как устроены ИИ-модели изнутри. О том, как можно преодолеть кризис данных для ИИ, рассказал* в интервью «Ведомостям» руководитель лаборатории научных исследований искусственного интеллекта T-Bank AI Research Даниил Гаврилов.

– Даниил, для начала: что такое NLP и для чего оно нужно бизнесу?

– NLP ‒ область, которая изучает, как можно работать с текстами и автоматически их обрабатывать. Изначально в NLP пробовали применить наши знания из лингвистики, чтобы делать предсказания о том, как устроен язык, что-то о нем понимать. Впоследствии такие предсказания начали делать при помощи машинного обучения и глубокого обучения.

NLP в бизнесе – это, по сути дела, любой искусственный интеллект, который так или иначе взаимодействует с текстом, а порой и с остальными видами информации. Поначалу это были простые модели, которые могут классифицировать текст. Например, очень понятное применение для бизнеса – это линия поддержки. Вот пришел запрос от пользователя, у которого сломалась какая-то часть продукта. Бот поддержки хочет понять, про что пытается спросить пользователь, чтобы перенаправить его на нужного оператора.

Еще одно из очень понятных применений NLP – это машинный перевод. Языковые переводчики, это, по сути дела, тоже NLP. Поначалу они были устроены достаточно примитивно, а благодаря глубокому обучению очень сильно прокачались в 2015‒2016 гг.

– А когда зародилось вообще NLP? В 2010-ых?

– Нет. NLP на основе статистики и компьютерной лингвистики появилось еще в 1950-х. Уже с 2010-х NLP развивалось на основе машинного и глубокого обучения. Опять же, NLP ‒ это очень большая общая область, ничего конкретного не включающая в себя. Это просто руководство о способах работы с текстами.

– Мы можем встретить NLP-продукт, когда мы звоним в поддержку банка, а где еще?

– Чатботы обслуживания – это самые старые NLP-продукты сейчас.

– Сталкиваетесь ли с тем, что пользователи просто не доверяют таким программам? Преодолевается ли этот барьер?

– Мне кажется, это вопрос привычки пользователя. И вопрос того, насколько такие продукты хорошо работают. Если мы вспомним, как виртуальные ассистенты выглядели лет десять назад, то всегда было ощущение, что они тебе отвечают что-то невпопад. И ты такой: «Блин, пожалуйста, дайте мне человека». Сейчас, конечно, все работает намного лучше. И люди более готовы к такому. То есть, если продукт решает их проблемы, мне кажется, идейно не так важно, отвечает человек или машина.

– Вы говорили, что данные для обучения ИИ в интернете к 2027 г. могут закончиться. Можете объяснить, почему?

– Данных, накопленных в интернете, да и в целом имеющихся у человечества, на самом деле, не так уж и много. Конечно, появляются новые данные. Но наша потребность в том, чтобы «захапать» для ИИ больше данных, растет намного быстрее. Последние десять лет основным источником улучшения качества того искусственного интеллекта, к которому все привыкли, ‒ чат-боты и прочее – масштабирование изучаемых данных. То есть нашелся очень понятный инструмент: мы можем создавать ИИ-технологии при помощи глубокого обучения. И чтобы его улучшать, нам надо просто использовать больше данных. Это очень примитивный подход, но при этом он хорошо работал.

Мы могли до бесконечности увеличивать эти модели. Я помню времена, когда большой моделью считалась та, которая имеет 100 млн параметров. То есть вот есть 100 млн чисел, которые описывают, как ведет себя модель. Сейчас в моделях с открытым исходным кодом – десятки миллиардов параметров. А закрытые модели, скажем, от OpenAI, неизвестно, какого размера: там могут быть сотни миллиардов или триллионов параметров.

Тот прирост качества, который мы осуществляли при помощи масштабирования, он уменьшается. Мы сталкиваемся с тем, что эти данные заканчиваются. Мы не можем впихнуть в модели больше знаний, чем у нас уже есть в открытом доступе. Сейчас это одна из важных проблем, которая стоит перед областью ИИ.

Нам нужно найти новые источники масштабирования. Кандидатов есть несколько, но до конца не понятно, какой из них будет работать. Это очень долгая работа. Но сейчас все выглядит так, что во многом все будет упираться в увеличение длительности ответа модели. Если мы просим модель решить очень сложную задачу, мы позволим ей подумать какое-то время. Мы можем подождать день, неделю, можем и месяц, если это очень важный ответ, который принесет много-много пользы.

Вопрос в том, каким образом обеспечивать такой вид масштабирования. Я думаю, что это могут быть какие-то методы self-play, когда модель сама с собой рассуждает и обновляет размышления по своему ответу. Модель OpenAI o1 (вышла в сентябре 2024 г.) во многом использует этот подход: эта модель может думать над сложной задачей полторы-две минуты, и при этом она выдает частичку своих рассуждений пользователю.

Масштабировать можно как-то сложнее. Например, при помощи обучения с подкреплением, когда модель будет взаимодействовать с окружающим миром и получать от него некий фидбэк.

– Фидбэк – это как? Можно на конкретном примере?

– Мы можем сделать модель, цель которой решить математическую задачу. Она ее решает неправильно, но получает объяснение, где ошиблась. На основе этого она адаптируется и дает новое решение. И так будет до того момента, пока она не решит задачу правильно. Опять же, здесь фидбэк может быть произвольным. Это могут быть деньги, это может быть еще что-то.

– Фидбэк в виде денег? Это как?

– Модель взаимодействует с миром, и фидбек для нее – это заработанные деньги. Заработала больше – делай так чаще. Меньше – реже. Главное, чтобы модель достаточно долго пыталась добиться правильного результата.

– А новые методы масштабирования, они же могут тоже закончиться? Когда это произойдет?

– Когда это произойдет, это будет очень приятной проблемой для решения. Мы снова упремся в то, что сделали очень много. Сейчас хочется все-таки найти такие методы и выжать из них максимум.

– Компании, которые работают с ИИ-технологиями, уже думают об этом кризисе масштабирования?

– Да, это абсолютно точно обсуждается. Но какое-то время назад все еще верили в масштабирование за счет привлечения большего количества данных. Сейчас в том числе и OpenAI и другие большие компании начали говорить о том, что все упирается в эти ограничения.

– Этот кризис когда появился?

– Нет какого-то конкретного момента. Всё планомерно накапливалось. Опять же, я об этом рассуждал давно. Другие компании об этом говорили не очень часто, я могу допустить, что у них была своя мотивация: OpenAI, например, пытался заработать больше денег.

– А другие кризисы в области ИИ наблюдаете?

– Лейтмотив разговоров про ИИ – это черный ящик, и мы не понимаем, как он устроен внутри. И это непонимание приводит к серьезным последствиям. Например, если наша модель должна будет достаточно долго взаимодействовать с внешней средой, получать от нее фидбэк, чтобы улучшаться в дальнейшем, есть опасение, что она станет деструктивной или, по крайней мере, станет вредить человеку: писать ему что-то нехорошее, например.

Или же, если у нас возникает какой-то баг или ошибка в приложении без ИИ, мы прекрасно понимаем, как его починить. Мы закопаемся в код и в конце концов его починим. Если что-то подобное происходит с ИИ-приложениями, разработчики единственное, что могут сделать, – это развести руками и сказать: «Что поделать, это ИИ, мы не можем никак это улучшать и не знаем, что там внутри». И это очень странное состояние области, в которой некоторые разработчики пытаются выработать интерпретируемости, чтобы развитие ИИ стало такой же разработкой софта, как и в любой другой области ИТ.

Сама природа ИИ-моделей, которые мы обучаем, абсолютно не интерпретируемая. Но при этом создаются подходы, которые позволяют делать эти модели интерактивными, чтобы понять, как устроено их знание о мире.

Самое интересное, что происходит сейчас в NLP, это как раз развитие методов интерпретируемости. Потому что раньше все эти методы были, на самом деле, гаданием на кофейной гуще. Исследователи из Anthropic представили методы, которые как раз позволяют заглянуть внутрь модели. Стали появляться продукты, которые как раз таки направлены на предоставление какого-то инструментария для интерпретируемости моделей. Мне кажется, такая продукция тоже создаст небольшой рынок в будущем, сейчас он только-только зарождается. Такая продукция нужна в первую очередь для сегмента B2B.

– Важно ли публиковать ИИ-разработки с открытым исходным кодом для развития научных исследований в этой области? У продуктов OpenAI, например, закрытый код.

– Мы должны понимать, что разговоры о том, что наука должна быть открытой, ведутся в основном со стороны науки. OpenAI имеет полное право игнорировать эти разговоры. Они все-таки делают продукт, и их задача – это получать от него выгоду и создавать какие-то разработки, которые могут как-то, по их мнению, помогать людям. Вот можно почитать обнародованные переписки Илона Маска и гендиректора OpenAI Сэма Альтмана. Им нужно делать самые передовые разработки, которые даже в науке не везде есть. Они занимаются исследовательской деятельностью, но не особо афишируют, что и как у них внутри устроено, чтобы только они могли этим заниматься.

– Есть французский разработчик Mistral AI, у него код открытый. Он от OpenAI отстает из-за этого?

– Есть еще канадская команда Cohere, у которой код закрыт, но они тоже отстают от OpenAI. Здесь дело, на самом деле, не в том, что код открыт или не открытый.

У OpenAI были открытые разработки, они в 2022 г. выкатывали код системы для распознавания речи Whisper в открытый доступ. Здесь, скорее, очень прозаичный вопрос в том количестве денег и ресурсов, которые доступны IT-компаниям. У OpenAI ресурса навалом, у Mistral AI его значительно меньше. В июне 2024 г. Mistral AI получил инвестиции в €600 млн ($640 млн). OpenAI получал еще в 2019 г. $1 млрд от Microsoft.

– А какие еще ограничения?

– Сторонний фактор – ограничение ресурсов. Повторить успех OpenAI можно, нам нужно просто несколько миллиардов долларов инвестиций в год и огромное количество видеокарт. Даже если представить, что деньги эти есть, нам нужно где-то разместить сотни тысяч видеокарт. Ребята в Google DeepMind от этого пострадали: количество карт просто не влезает в их дата-центры. Но там нужно еще атомную станцию, наверное, поставить, чтобы это все питать. Илон Маск пытался провернуть такое, чтобы была атомная станция и его дата-центры питала. Это вот такие очень прагматичные проблемы, которые необходимо решать. И даже если мы найдем какой-то секретный рецепт масштабирования будущего, это будет означать, что нам все еще нужно масштабироваться.

– Когда пользователь думает об ИИ, он вспоминает в первую очередь генеративные модели, например ChatGPT. На ИИ-компании не давит факт, что массовому пользователю нужны только генеративные модели?

– Да остальные-то не очень интересные и позволяют сделать мало прикольного. То есть еще задолго до GPT-3 [выпущен OpenAI в 2020 г.] было понятно, что генеративные модели – это будущее.

В году 2018-м было соревнование, где надо было с помощью ИИ решать задачи ЕГЭ. Модель должна посмотреть в учебники и дать правильное решение задачи. То есть она должна просто найти правильный ответ в учебнике и выделить его. В тот момент я сидел и думал: «Блин, у нас с вами есть генеративные модели, которые ничем не ограничены, они могут просто написать вам ответ на задачу. Ну что за глупость, зачем мы просим модель искать ответ в учебнике?».

– Как правило, ИИ-разработчики пишут у себя на сайте, чтобы пользователи указывали название генеративной модели, если используют ее в своей работе. То есть ИИ упрощает жизнь человека, но продукция, которую он получает и использует от ИИ, остается собственностью компании. Считаете ли вы такой подход правильным?

– Мне кажется, еще очень многие компании не разобрались, как правильно вообще регулировать авторское право в области ИИ. Сегодняшний подход компаний не вызывает у меня ощущения, что все сделано правильно. Надо ждать какого-то логичного решения.

Сейчас намного больше вопросов, кто ответствен за решения, которые принимаются ИИ-моделями. Это намного важнее, чем то, кто нарисовал картинку. Логично, если ответственность бы понесла компания, которая принимала автоматическое решение на предсказании модели. Но опять же, у нас нет интерпретирования ИИ. Мы видим его как черный ящик. Ну как нам понять, кто виноват, кто принял решение? Если OpenAI начнет давать какие-то гарантии, то, наверное, ответственными станут они. Но пока это не так.

– Сейчас разработчики генеративных ИИ выпускают модели под конкретные узкие задачи: один сервис генерирует картинку, а другой – решает задачу по математике. Продолжится ли тренд на сегментацию ИИ-сервисов под отдельные сферы деятельности?

– ИИ проще работать над конкретными задачами. Более того, разработчикам проще и дешевле создавать такие модели. Для небольших компаний и даже больших, но не тех масштабов, в которых находится в OpenAI с инвестициями в миллиард долларов, намного выгоднее делать специализированные модели.

– Российский вузы, например, МГПУ и НИУ ВШЭ, проводят эксперименты, где разрешают своим студентам писать дипломные работы с применением ИИ. Как правило, они разрешают использовать ИИ только для поиска источника и редактуры уже готового текста. На ваш взгляд, нужно ли ограничивать область применения ИИ в научных трудах?

– Мне кажется, не существует никакого правильного решения, это иллюзия. Единственное, к чему мы должны стремиться, это чтобы у нас все становилось эффективнее и лучше. Поэтому, например, исследователи «Т-Банка» могут в любом месте использовать ИИ, если это им помогает.

Бывало, что какие-то студенты писали при помощи ИИ код, и он был с багами. Мы тогда били по рукам и говорили, чтобы переправляли то, что они пишут. Я сам использовал генеративный ИИ, чтобы вкатиться в какие-то домены, в которых я не очень хорошо разбирался. Я понимал, что они могли быть применимы к моей деятельности, и у ИИ спросил, какие из них мне подходят.

Кто-то будет переживать, что из-за ИИ у нас потеряется наш навык решать что-то самостоятельно и человечество в темный век скатится. Но то же самое говорили про интернет, где можно любую информацию найти, а самому ничего не знать. Но по итогу нам все еще нужно во многих вещах разбираться самостоятельно и фильтровать информацию из интернета.

– Кого ИИ может заменить быстрее – нейрохирурга или кассира?

– Такие предсказания очень тяжело давать. Все попытки предсказать будущее с ИИ, которые были сделаны в прошлом, имеют случайную точность. В мире постоянно исчезают старые профессии и появляются новые, и это, скорее, то, к чему нужно быть готовым, чтобы подстраиваться под этот изменчивый и сложный мир. В обозримой перспективе, мне кажется, не будет такого, что людей начнут увольнять из-за ИИ. Скорее, работа с ИИ станет необходимым навыком в работе. А вот люди, которые сейчас игнорируют эти технологии, станут менее востребованы на рынке труда, чем те, кто владеет этими инструментами и может ими пользоваться.

* Интервью было проведено в кулуарах Конгресса молодых ученых