VK запустит модель ИИ для обучения на независимых дата-сетах

Такой принцип позволит выполнять требования законодательства, в том числе в сфере персональных данных
Максим Стулов / Ведомости

VK тестирует собственное решение для обучения искусственного интеллекта (ИИ), которое может одновременно тренироваться на данных из разных баз без их фактического обмена и риска утечки персональных данных. Этот принцип называется вертикальным федеративным обучением (VML). О разработке решения рассказал руководитель группы Data Science в подразделении VK Predict Артем Агафонов во время конференции VK JT 6 марта.

Сейчас компании для обучения аналитической модели вынуждены делиться собственными данными друг с другом, с разработчиками сервиса и владельцем инфраструктуры, занимающимся их обработкой, говорит Агафонов. Безопасность этих данных гарантируется лишь доверием между участниками процесса обучения, уточняет он. Также существует вариант, при котором компании сами обучают собственную модель, затем на предсказаниях обучают meta-модель, которая объединяет проанализированные данные, продолжает Агафонов. «Но в данном случае модели не видят всех данных сразу, а также требуется передача самих данных, что уже само по себе небезопасно», – пояснил он.

Предиктивные модели (анализируются на основе данных, собранных по предыдущим взаимодействиям пользователей с тем или иным сервисом) позволяют прогнозировать спрос и предложение или, например, поломки оборудования, говорит Агафонов. Например, модель одновременно сможет анализировать данные ритейлера о продажах и о трафике торгового центра, отмечает сотрудник VK. На основе полученной аналитики ритейлер может спрогнозировать спрос на свои товары в том или ином ТЦ, а ТЦ – выбрать подходящих арендаторов. Решение может быть востребовано в разных отраслях, например финтехе и промышленности, добавил Агафонов. Сейчас VK уже тестирует сервис с несколькими партнерами из ритейла и девелопмента, в дальнейшем планирует продавать это решение.

В России федеративное обучение сейчас не распространено, говорит технический директор HFLabs Никита Назаров. «Если обучать модель на малом количестве характеристик, она будет бесполезной, – поясняет он. – Более того, при малом объеме данных в обучающей выборке конфиденциальность может быть нарушена. Но, думаю, как раз с этим у VK проблем не возникнет. VK – высокотехнологичная компания с самой популярной в России соцсетью «В контакте». Так что федеративное обучение хорошо вписывается в их продуктовый профиль». По прогнозу Ассоциации больших данных (АБД), к концу 2024 г. весь рынок больших данных в России составит 319 млрд руб.

Одним из первых технологию федеративного обучения начал использовать Google для обучения спам-фильтров, говорит Назаров. Coogle, по словам эксперта, требовалось обучать модель на содержимом почтовых ящиков, но при этом не раскрывая их, и формулировать правила, по которым можно обнаружить спам. Платформы на базе VML также развивают Amazon, IBM и Nvidia, отметил Назаров.

По данным американской аналитической компании Market.us, мировой рынок федеративного обучения в 2023 г. составил $133,1 млн, а к 2032 г. он вырастет втрое до $311 млн.

VML является перспективным направлением, так как бизнес хочет знать как можно больше о своих клиентах и за счет этого повышать их лояльность, говорит Назаров. Но при обучении VML-модели важно учитывать два момента, отметил ИИ-архитектор ГК «Самолет», эксперт Альянса искусственного интеллекта Андрей Комиссаров. Во-первых, необходимо найти того, у кого тоже есть нужные данные, и с этим может возникнуть сложность, отмечает Комиссаров: владение такими данными может не афишироваться.

Во-вторых, мало скормить данные нейросети, их нужно еще и грамотно разметить, продолжает он. Качество разметки напрямую влияет на качество обучения, а у владельцев данных они, как правило, не подготовлены для обучения. «Если VK удастся решить две эти задачи, то может получиться весьма перспективное решение, – считает Комиссаров. – В целом я бы сказал, что это скорее пиар-шаг, попытка застолбить тему, нежели реальный бизнес-кейс. Хотя если у VK в шкафу сидит армия дата-инженеров, то в плане бизнеса такая площадка также может открывать неплохие перспективы».

По словам представителя АБД, VML-решение VK имеет потенциал для компаний, которые хотят развивать технологии и свой бизнес на базе ИИ, но не готовы делиться данными с другими игроками рынка. Особенно актуально это для отраслей с повышенными требованиями к конфиденциальности данных, например для промышленности.