Большинство студентов считают, что ИИ не сможет заменить их на работе в ближайшие десять лет. Низким такой риск называют 27,2% респондентов, 41,5% — крайне маловероятным. Эти оценки были получены НИУ ВШЭ в ходе опроса 4200 студентов в 2025 году. Они приводятся в докладе «Эпоха больших языковых моделей: почему они все еще не профессионалы», подготовленном научным руководителем НИУ ВШЭ Ярославом Кузьминовым и старшим преподавателем кафедры высшей математики НИУ ВШЭ Екатериной Кручинской. Доклад был представлен на XXV Ясинской (Апрельской) международной научной конференции по проблемам развития экономики и общества, которая проходит с 15 по 18 апреля в НИУ ВШЭ.
Умеренным назвали риск того, что ИИ сможет выполнять за них работу, 15,9% студентов. В целом только 2,7% считают такой риск высоковероятным и 4,7% — вероятным. 8,1% респондентов пока не определились, стоит ли им опасаться ИИ.
В докладе отмечается, что генеративный искусственный интеллект (GenAI), более известный как семейство больших языковых моделей, получил широкое распространение начиная с 2022 года. В связи с тем что рост мирового ВВП замедляется, происходит поиск новых точек роста, и внедрение ИИ рассматривается как возможность стимулировать этот рост. Однако компании говорят о целом ряде рисков, связанных с использованием ИИ. В частности, это риск нарушения авторских прав, получения неверной информации, невыполнения нормативных требований, нарушения конфиденциальности данных и т.д. На данный момент нет надежных метрик, которые могли бы оценить потенциал ИИ для успешного решения сложных профессиональных задач.
«Наиболее важная проблема окупаемости GenAI — невозможность профессионального использования этого инструмента ввиду критически высокого шанса наличия ошибки даже в самых простых вопросах, что исключено для специалиста, который должен применять ядро знаний с безукоризненной точностью. Можно ли продемонстрировать ограничения GenAI и доказать их значимость? Возможность такой проверки есть», — констатируют эксперты ВШЭ.
На созданном сотрудниками ВШЭ и другими профильными экспертами уникальном сете вопросов (бенчмарке), основанном на таксономии Блума, было проверено, может ли ИИ действовать как профессионал. При этом бенчмарк проверялся на самых новых моделях — GPT-4o1 и GigaChat MAX. В результате исследования были подтверждены три гипотезы: 1) количество параметров моделей имеет низкое влияние на шанс ответить верно; 2) сложность и таксономия в совокупности не влияют на шанс ответить верно; 3) множественный выбор снижает шанс ответить верно. Исследования показали, что современные модели равно допускают ошибки как в простейших заданиях, в которых требуется что-то запомнить, так и в сложных вопросах понимания процесса или теории. Доля правильных ответов, которые давал GigaChat MAX (non-CoT), составила 49%. У GPT-4o1 она достигла 51%.