Российские исследователи научились быстрее обучать языковые модели рассуждению

Freepik
/Freepik

Команда T-Bank AI Research совместно с лабораторией Omut AI Центрального университета представила новый метод обучения больших языковых моделей (LLM). Он позволяет развивать способность к логическим рассуждениям без обучения с подкреплением. Об этом говорится в сообщении компаний.

Исследователи объясняют, что в классическом обучении с подкреплением корректируются миллиарды параметров модели, что требует значительных вычислительных ресурсов и памяти. Разработка T-Bank AI Research и Центрального университета использует векторы-настройки (steering vectors), которые позволяют усиливать правильные логические шаги без изменения всей архитектуры модели.

По результатам экспериментов, новый подход подтвердил эффективность на шести бенчмарках: пяти тестах по математическому рассуждению семейства Qwen от Alibaba и LLaMa3 от Meta (организация признана экстремистской и запрещена в РФ). На примере модели Qwen2.5-14B удалось достичь сопоставимого с полным обучением качества, изменив 0,0016% параметров. Метод продемонстрировал стабильные результаты на моделях Qwen2.5 (1.5B, 7B, 14B, Math-версии) и LLaMa3.1-8B-It, результаты исследования были представлены на конференции по эмпирическим методам обработки естественного языка EMNLP-2025, проходившей в Сучжоу (Китай) с 4 по 9 ноября.

Уточняется, что метод позволяет ускорить процесс создания LLM и сделать его доступнее для рынка, в том числе для университетских лабораторий и небольших компаний. Отмечается, что один из этапов обучения выполняется в десятки раз быстрее – за секунды вместо минут, а потребление памяти сокращается с гигабайтов до сотен килобайт.

«Наш метод показывает, что обучать модели рассуждать можно без изменения миллионов параметров. Это открывает новый этап в развитии доступного искусственного интеллекта для бизнеса», – считает исследователь научной группы AI Alignment лаборатории исследований искусственного интеллекта T-Bank AI Research Вячеслав Синий.

Карина Гургенова, директор по науке в Центральном университете, сообщила, что метод уже подтвердил свою эффективность на математических бенчмарках, где есть точные ответы, что позволяет достоверно измерять качество работы модели и постепенно двигаться в сторону задач с более сложными критериями качества, в том числе в гуманитарных науках.