«Яндекс» выложил в опенсорс крупнейший датасет для развития онлайн-рекомендаций

Ученые «Яндекса» разработали и выложили в открытый доступ крупнейший в РФ датасет Yambda, который позволяет тестировать и развивать рекомендательные системы по всему миру, сообщили «Ведомостям» в компании.

Как объяснили разработчики, существующие датасеты в опенсорсе зачастую бывают устаревшими или небольшими по размеру. В свою очередь, они нужны, чтобы интернет-магазины и онлайн-кинотеатры рекомендовали действительно нужные пользователю товары и услуги. Коммерческие компании редко публикуют такие данные, отчего могут страдать научные исследования, необходимые для развития алгоритмов.

Датасет представлен в трех вариантах: полная версия содержит 5 млрд данных, уменьшенные – 500 млн и 50 млн. Необходимый вариант исследователи выбирают сами в зависимости от поставленных задач и технических возможностей.

Yambda основан на агрегированных данных о прослушиваниях, лайках, дизлайках, а также некоторых характеристиках треков в «Яндекс.Музыке». При этом сохраняется анонимность: датасет содержит исключительно числовые идентификаторы пользователей, композиций и другой информации.

В конце декабря 2024 г. Т-банк открыл доступ к двум большим языковым моделям (LLM): T-Pro на 32 млрд параметров (переменных) и обновленной T-Lite на 7 млрд параметров. большое количество данных позволяет модели учитывать больше контекста и особенностей языка, лучше запоминать информацию, делать более точные и сложные выводы.