Тренинг для интеллекта
Как методы обучения ИИ развиваются с помощью научных исследованийМировой рынок ИИ-решений, по прогнозам компании Grand View Research, к 2030 г. увеличится до $1,8 трлн со среднегодовым темпом роста в 37,3%. В расширении рынка одну из ключевых ролей играют научные исследования, благодаря которым создаются новейшие методы и подходы к разработке технологий и продуктов. Исследованиями в области технологий обучения нейросетей занимаются как иностранные компании OpenAI, IBM, так и российские лаборатории Yandex Research, Tinkoff Research и AIRI.
Результатом взрывного развития этого сегмента стал в том числе рост спроса на решения для обучения нейросетей. Самый распространенный принцип совершенствования ИИ – обучение с учителем ‒ состоит в том, что создается большая база однородных данных, к примеру, это могут быть изображения похожих объектов (такая база называется набор данных, dataset). ИИ ставится задача, к примеру, выбрать из dataset только изображения котят, мостов, деревьев и проч. Постепенно алгоритм учится делать выбор более эффективно. По оценке компании Straits Research, в 2021 г. рынок размеченных данных (продажа уже размеченных наборов данных и дополнительные услуги) для обучения ИИ составил $1,32 млрд и вырастет до $7,23 млрд к 2030 г.
ИИ в лабиринте
Методы обучения ИИ постоянно развиваются, что привело к появлению подходов, принципиально отличающихся от обучения с учителем. Особое внимание заслуживает метод обучения с подкреплением, который можно сравнить с работой мозга живых организмов. В этом контексте алгоритм напоминает мышь, которая должна найти выход из лабиринта, где каждое её действие ‒ это шаг к пониманию оптимального пути. В этом методе одиночные решения не оцениваются как правильные или неправильные; важен итоговый результат. Проще всего это реализовать с логическими играми: у них есть однозначный результат ‒ выигрыш или проигрыш. Шахматный суперкомпьютер, использующий технологию обучения с подкреплением Deep Blue, разработанный компанией IBM, в 1997 г. выиграл матч из шести партий у чемпиона мира по шахматам Гарри Каспарова. Ещё одной значительной вехой стало появление нейросети AlphaGo, обученной специально для игры в Го, которая в 2016 г. обыграла тогдашнего чемпиона мира Ли Седоля со счётом 4:1.
Персональный Netflix и скидки от нейросети
Кроме игр методы обучения с подкреплением используются и в реальных условиях для решения задач бизнеса. Netflix разработал рекомендательную модель, которая предлагает персонализированный контент 200 млн пользователей в более чем 190 странах. Чтобы эта система работала оптимально, компания в том числе использует обучение с подкреплением. Алгоритму ставится задача предлагать человеку такой контент, чтобы сформировать долгосрочный позитивный опыт, а не краткосрочное чувство удовлетворения. Для обучения нейросети создан симулятор Accordion, на котором она оттачивает свои навыки.
Walmart ‒ крупнейший в мире ритейлер с более чем 4 000 магазинов. Компания должна постоянно перемещать непроданные товары, чтобы освободить место для новых и более продаваемых. Обычная стратегия перемещения ненужных запасов заключается в снижении цен, которое требует многократной повторной маркировки товаров со скидкой в каждом магазине. Чтобы уменьшить операционные расходы, Walmart создала алгоритм для оптимизации снижения цен. Он собирает данные, в том числе о продажах, эксплуатационных расходах, количестве и типе товара, а также о динамических временных рамках, в которые товар должен быть продан. Этот подход использует аналитику данных, обучение с подкреплением и динамическую оптимизацию для принятия автоматизированных решений по каждому отдельному продукту и адаптирован к каждому магазину. Результатом является снижение эксплуатационных расходов и увеличение продаж, при этом в некоторых магазинах сбыт перемещаемых товаров увеличивается на 15%.
Еще одним примером использования RL является рекомендательная система YouTube. Перед алгоритмом ставится задача «убедить» пользователя провести как можно больше времени на сайте, для этого система должна показывать в рекомендациях наиболее подходящие для пользователя ролики.
Интеллектуальный пульс
Многие эксперты возлагают большие надежды на метод офлайн-обучения с подкреплением (Offline Reinforcement Learning). Оно представляет собой вариант обучения с подкреплением, который требует, чтобы агент извлекал уроки из фиксированного набора данных без взаимодействия с внешней средой. Если продолжить метафору с мышью и лабиринтом, то в данном случае мышь не перемещается по лабиринту в реальной жизни, а смотрит видео с записями других животных, проходящих лабиринт.
Это направление, которое еще широко не внедряется в реальные системы, но имеет достаточно большие перспективы. Для масштабирования его практического применения необходимы дальнейшие исследования. Крупнейшие мировые IT-компании ежегодно вкладывают миллиарды долларов в развитие технологий ИИ, по подсчетам TechCrunch, в 2023 г. в США более четверти (около $23 млрд) средств венчурных инвесторов были направлены в проекты в области ИИ, тогда как с 2012 по 2022 г. на это направление было потрачено около 12% средств. Значительная часть инвестиций уходит в научные проекты, не подразумевающие прибыли даже в среднесрочной перспективе, но они становятся фундаментом для будущих инноваций.
Например, в 2014 г. Google приобрел британский стартап DeepMind Technologies, занимающийся научными разработками в сфере ИИ, в том числе обучением с подкреплением. Некоммерческую лабораторию OpenAI основали в 2015 г. несколько технологических инвесторов, включая Илона Маска и бывшего топ-менеджера Y Combinator Сэма Альтмана. Спустя год лаборатория выпустила публичную бета-версию OpenAI Gym, платформы для разработки и сравнения алгоритмов обучения с подкреплением. В 2017 г. программа от OpenAI обыграла профессиональных игроков в Dota 2 в режиме «один на один». А в прошлом году появилась первая версия чат-бота с искусственным интеллектом ChatGPT.
Корпорация IBM занимается исследованиями в различных областях, связанных с развитием искусственного интеллекта, включая компьютерное зрение, использование ИИ в логистике, обработку естественного языка и проч. К примеру, в этом году было объявлено, что компания совместно с NASA создаёт модель для обработки спутниковых данных на базе ИИ, которая сможет предсказывать возможные изменения климата.
«ИИ развивается настолько быстро, что набор технологий обновляется в течение всего 2‒3 лет. Для тех, кто занимается разработкой, важно держать руку на пульсе и быть в курсе новых технологий и открытий. Исследователи играют ключевую роль в этом процессе, предоставляя новейшие методы и подходы, которые могут быть использованы в разработке продуктов. Без научных исследований и инноваций не появились бы ChatGPT, технологии KYC (Know Your Customer), нейронного перевода и многих других продуктов, которые полностью изменили рынок», ‒ говорит Сергей Колесников, руководитель лаборатории научных исследований ИИ Tinkoff Research.
Интеллект с русским акцентом
В России изысканиями в области технологий ИИ, как уже упоминалось выше, занимается несколько лабораторий. Yandex Research, AIRI и Tinkoff Research Yandex Research сконцентрирован на исследованиях, связанных с информационным поиском. Институт AIRI, созданный АНО «Институт искусственного интеллекта» (ранее организация была связана со Сбербанком), занимается как фундаментальными, так и прикладными исследованиями. К примеру, в 2022 г. при поддержке института была создана GENA_Language Model ‒ первая в мире нейросетевая модель, обученная на самом полном геноме человека. Среди других проектов ‒ разработка технологии поиска новых материалов с помощью моделей глубокого обучения и SEMA ‒ открытый инструмент для предсказания участков связывания антител с белками вирусов и бактерий.
Лаборатория Tinkoff Research уделяет большое внимание исследованиям в области Offline RL и достигла в этой сфере значительных результатов. В 2023 г. ученые из лаборатории открыли новый алгоритм для обучения ИИ. Метод, названный SAC-RND (SAC ‒ Soft Actor Critic ‒ мягкий актор-критик, RND ‒ Random Network Distillation ‒ случайные нейронные сети), обучает роботов в 20 раз быстрее и на 10% качественнее существующих аналогов ‒ такие результаты показало тестирование метода на робототехнических симуляторах. Помимо Offline RL, в Tinkoff Research изучают и другие наиболее перспективные направления в области ИИ ‒ обработку естественного языка, компьютерное зрение и рекомендательные системы. По результатам экспериментов они пишут научные статьи для наиболее авторитетных научных конференций ‒ NeurIPS, ICML, ACL, CVPR и других.
По словам Колесникова, компании уже удалось найти практическое применение открытий Tinkoff Research: в социальной сети для инвесторов «Пульс» существует карусель, где пользователю предлагаются инвестиционные блогеры, которые могли бы быть ему интересны. С помощью Offline RL удалось создать новую модель, которая улучшила общее количество подписок на блогеров в соцсети, что в итоге привело к большей вовлеченности пользователей на платформе.