В ФРС назвали прогнозы нейросетей точнее экспертных

Они могут стать мощным инструментом для аналитиков
Нейронные сети в составе больших языковых моделей находятся в большой зависимости от уже написанных экспертных текстов, поэтому они не смогут полностью заменить прогнозистов/ Getty Images

Эксперты ФРС установили, что нейронные сети в составе больших языковых моделей (Large Language Models, LLM; заложены в основе ChatGPT, PaLM, YandexGPT) более точно предугадывают инфляционную динамику, чем экономисты. В своем июльском исследовании «Искусственный интеллект и прогнозирование инфляции» эксперты регулятора сравнили прогнозы ценовой динамики в США, которые составила модель PaLM (Google), с ожиданиями в «Обзоре профессиональных прогнозистов» от ФРС на промежутке 2019–2023 гг.

Для каждого квартала на этом временном отрезке исследователи ограничили языковую модель только теми данными, которые были доступны на тот момент (т. е. нейросеть не видела события, произошедшие после даты отсечки составления прогноза). Они обнаружили, что при прогнозировании инфляции модель демонстрирует гораздо меньшие значения среднеквадратичной ошибки (MSE), чем прогнозисты регулятора. Для PaLM средний показатель отклонения за 2019–2023 гг. составил 3,02, в то время как для экспертного прогноза – 5,70.

По наблюдениям экспертов ФРС, языковая модель менее точно предсказывает инфляцию на краткосрочном горизонте: при прогнозировании показателя для текущего квартала величина MSE у PaLM составила 0,39, у экспертов – 0,29. При этом нейросеть точнее оценивает ценовую динамику в долгосрочной перспективе: PaLM демонстрировала средний показатель ошибки в 7,87 для аналогичного квартала следующего года (например, когда прогнозировала инфляцию в I квартале 2021 г., «находясь» в I квартале 2020 г.), для экспертов MSE при этом составляла 13,79 – в 1,75 раза больше.

Авторы доклада уверены, что большие языковые модели могут быть использованы экспертами как мощный и при этом относительно недорогой инструмент для прогнозирования основных макроэкономических показателей. Проблемы, которые они при этом отмечают, включают в себя непредсказуемость ответов LLM (они могут быть разными при различных формулировках одного и того же запроса) и неочевидность алгоритмов их работы (проблема «черного ящика»).

Потенциал нейросетей

LLM уже сейчас находят широкое применение в бизнесе, в ВТБ они применяются для работы банковского голосового помощника, с их помощью обрабатываются автоматические сообщения в call-центре, сортируются документы и решаются другие задачи, сообщил «Ведомостям» представитель кредитной организации.

«Для экспертов языковые модели могут оказаться полезными. С их помощью можно анализировать и систематизировать существующую информацию – это может помочь при построении прогнозов», – считает директор по развитию технологий искусственного интеллекта «Яндекса» Александр Крайнов.

Представитель Банка России на запрос «Ведомостей» не ответил.

Специализированные нейронные сети уже давно используются в задачах прогнозирования различных экономических показателей на основе исторических данных, отмечает доцент факультета экономических наук НИУ ВШЭ Людмила Егорова. При этом нейросети, обучаясь на больших массивах числовой информации, уже с середины 2010-х гг. начали давать более точные прогнозы, чем эксперты, указывает она. Современные языковые модели используют текстовые данные, что дает им возможность лучше «понимать» конкретные запросы и давать качественные прогнозы, уточняет эксперт. Это повышает требования к методикам обучения модели и качеству запросов, но потенциал у LLM для решения задач прогнозирования несомненен, уверена Егорова.

Более высокая точность прогнозов языковых моделей достигается за счет использования огромного числа разнообразных источников информации, указывает главный аналитик Совкомбанка Наталья Ващелюк. Профессиональные прогнозисты, участвующие в опросе ФРС, – это небольшая часть экспертного сообщества, модель же «натренирована» не только на прогнозах, но и на комментариях представителей бизнеса, научных статьях, высказываниях обычных людей и других материалах, поясняет она. Эксперты могут при этом быть предвзятыми: профессиональные американские прогнозисты в большей степени ориентируются на целевой уровень инфляции ФРС в 2% и в долгосрочном горизонте склонны ожидать именно его, добавляет Ващелюк.

Аналитики уже сейчас могут использовать LLM в работе как способ поиска информации, добавляет она. При этом следует помнить, что результаты, выдаваемые LLM, необходимо перепроверять, так как нередки случаи, когда они ошибаются в фактических данных, научных терминах или расчетах, предупреждает эксперт.

Языковые модели смогут значительно упростить задачи макроэкономического прогнозирования для пользователей, слабо владеющих методами машинного обучения, навыками программирования или даже инструментами эконометрики, считает Егорова. При этом крайне важно, чтобы модель обучалась при активном взаимодействии с экспертным сообществом – на основе аналитических текстов и под наблюдением профессиональных прогнозистов, указывает она. Результаты такой работы, вероятно, проявятся уже очень скоро, считает эксперт.

Сложности LLM

Языковые модели могут неплохо улавливать, например, потребительские настроения, что крайне важно для оценок макропоказателей в будущем, но у них существует две значительные проблемы, отмечает главный экономист «БКС мир инвестиций» Наталья Лаврова. Во-первых, они остаются «черным ящиком»: достаточно сложно определить факторы, объясняющие тот или иной прогноз, указывает она. Экономисты уделяют большое внимание сбалансированности своих вычислений, тщательно подбирают ограниченный набор параметров модели, нейросеть же рассматривает их в почти неограниченном количестве, поясняет Лаврова. Это значит, что при отклонении прогноза от фактического значения сложно определить, из-за каких параметров оно произошло, уточняет она. Кроме того, нейросеть обрабатывает именно факторы, имеющиеся у нее в заданный момент, и в меньшей степени закладывает изменения будущего, поэтому в теории она больше подходит для краткосрочного прогнозирования, чем для долгосрочного, добавляет Лаврова.

В долгосрочном прогнозе важны скорее общие тренды в экономике, для понимания которых нужны исторические данные за большой период – языковые модели могут анализировать их весьма эффективно, указывает Егорова. В краткосрочной же перспективе важны понимание текущей ситуации и знание контекста, с чем лучше всего справляются эксперты, добавляет она. Результаты исследования ФРС это подтверждают, отмечает эксперт.

На практике языковые модели сейчас хорошо прогнозируют индикаторы, связанные с потреблением, но несколько хуже улавливают изменения в производстве (особенно если оно не связано с потребительской активностью внутри страны), делится Лаврова.

LLM находятся в большой зависимости от уже написанных экспертных текстов, поэтому нейросети не смогут полностью заменить прогнозистов, указывает Ващелюк. По сути, «оценки» языковых моделей – это обобщение огромного количества материалов, опубликованных в интернете, и других оцифрованных источников, уточняет она. Это значит, что если эксперты прекратят публиковать доклады о показателях вроде инфляции и ВВП, то у нейросети не будет актуальных представлений о макроэкономических тенденциях, ее прогнозы будут сильно отдалены от реальности, уверена Ващелюк. В связи с этим сомнительна и заявленная ФРС выгода от перехода на LLM: если не будет более дорогих способов прогнозирования, то не сможет работать и их более дешевый агрегатор в виде языковых моделей, добавляет эксперт.

Нейросети совершают достаточно большое количество фактических ошибок и на данный момент технологии, позволяющей контролировать их, не существует, отмечает директор департамента цифровой трансформации ПСБ Александр Сахаров. Когда такие нейросети смогут предоставлять развернутый ответ с указанием условий и ограничений, они станут очень мощным инструментом в руках прогнозистов, уверен он.

Использование языковых моделей для макроэкономического прогнозирования подразумевает слишком большие риски неточности и может требовать значительных ресурсов на их переобучение, поэтому вряд ли они найдут широкое применение, считают в ВТБ.