Российские ученые создали новый алгоритм для обучения искусственного интеллекта

Ученые из лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research презентовали новый алгоритм для обучения ИИ-агентов. Метод назвали ReBRAC (Revisited Behavior Regularized Actor Critic ‒ пересмотренный актор-критик с контролируемым поведением). Как утверждают в компании, новый алгоритм обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов. Тестирование провели на робототехнических симуляторах.

Как подчеркнули в компании, разработка российских ученых может способствовать преодолению технологического и цифрового разрыва между разными странами ‒ более эффективные алгоритмы требуют меньше вычислительных ресурсов, дефицит которых сегодня сохраняется. Крупные поставщики ИИ-ускорителей, такие как тайваньская TSMC и американская Nvidia, в этом году сообщали, что не успевают удовлетворить потребности всех заказчиков. Для России ситуация осложняется тем, что поставки продукции Nvidia из-за санкций стали невозможны. В марте «Коммерсант» со ссылкой на собственные источники писал, что российское правительство готовится к дефициту вычислительных мощностей. Повышение эффективности алгоритмов обучения искусственного интеллекта, в свою очередь, может помочь странам с ограниченными вычислительными мощностями создавать и развивать передовые технологии, адаптировать ИИ под конкретные прикладные задачи, существенно экономя на дорогостоящих экспериментах, отметили в компании.

Как пояснили в Tinkoff Research, работая над новым методом, ученые выделили четыре компонента, которые были представлены в алгоритмах последних лет, но считались второстепенными и не подвергались детальному анализу. Это глубина нейронных сетей, регуляризация актора и критика, увеличение эффективного горизонта планирования и использование нормализации слоев. Первый компонент означает увеличение числа слоев нейросети, с помощью чего она лучше понимает сложные закономерности в данных. Регуляризация актора и критика заключается в том, что ученые научили компонент ИИ, предпринимающий действия, избегать нежелательного поведения, а оценивающий компонент ‒ давать первому более эффективную обратную связь. Увеличение эффективного горизонта планирования позволяет модели балансировать между краткосрочными и долгосрочными аспектами задачи, а использование нормализации слоев стабилизирует процесс обучения нейронных сетей.

Результаты исследования, в рамках которого был разработан алгоритм, представили на 37-й конференции NeurIPS The Conference and Workshop on Neural Information Processing Systems ‒ конференции по машинному обучению и нейровычислениям, которая прошла в Новом Орлеане (США) с 10 по 16 декабря. Согласно Google Scholar, это главная конференция в области ИИ в мире. Рассмотрев более 13000 научных статей, рецензенты отобрали для мероприятия 3 500 работ ученых со всего мира. Среди них четыре научные статьи Tinkoff Research. 

Визуализация вариантов тестирования алгоритма
Визуализация вариантов тестирования алгоритма /Пресс-служба Тинькофф

Помимо алгоритма ReBRAC, ученые представили две открытые библиотеки в области офлайн-обучения с подкреплением (Offline RL, ORL), благодаря которым специалистам по ИИ больше не требуется самостоятельно воспроизводить результаты наиболее весомых научных работ. Статьи уже процитировали в том числе(?) специалисты Стэнфордского университета, Калифорнийского университета в Беркли и научно-исследовательской лаборатории Google DeepMind.