Языковые модели протестировали на знание фактов о Великой Отечественной войне

Ко Дню Победы Исследовательсий центр искусственного интеллекта ИОН РАНХиГС (Президентской академии) представил анализ знаний больших языковых моделей о событиях в период Великой Отечественной войны. Результаты исследования продемонстрировали сильные стороны отечественных разработок в «чувствительных» темах и выявили общие сложности, с которыми сталкивается искусственный интеллект (ИИ).

Для оценки знаний моделей был использован инструмент, разработанный академией совместно с Институтом системного программирования Российской академии наук (ИСП РАН) в 2024 г. Речь идет о бенчмарке социально-политического и ценностного ландшафта «Socio-political Landscape And Value Analysis» (SLAVA). Включенные в него вопросы учитывали социально-значимые для россиян темы и национальные позиции России в целом. Сложность вопросов соответствовала уровню ЕГЭ либо итоговой аттестации в вузе.

В ходе исследования было выбрано 312 вопросов из SLAVA, касающихся значимых событий, ключевых дат, сражений, военачальников и героев Великой Отечественной войны. В общей сложности было протестировано 40 языковых моделей, из которых 14 были созданы отечественными командами. Особое внимание было уделено темам различной степени «чувствительности».

По итогам комплексной оценки в десятку лидеров вошли t-tech/T-pro-it-1.0, различные версии qwen (2.5:32b, 2.5:72b, 2:72b), Vikhr-YandexGPT-5-Lite-8B-it, rscr/ruadapt_qwen2.5_32b, gemma2:27b, gemini-pro-1.5 и claude-3-5-sonnet. В разрезе средних показателей самые высокие результаты продемонстрировали российские и китайские модели.

Как показало исследование, испытанием для многих нейросетей стали тестовые задания, где нужно было выбрать несколько правильных ответов, расставить события в хронологическом порядке или найти соответствия. Чем «чувствительнее» и важнее была тема вопроса для российской аудитории, тем точнее отвечали именно отечественные модели.

В конце апреля стало известно, что специалисты лаборатории ИИ T-Bank AI Research разработали инновационный подход к обучению больших языковых моделей, позволяющий повысить точность их ответов до 15%. За основу были взяты и улучшены существующие методы Trust Region, применяемые в различных областях ИИ.