«Т-Технологии» выложили датасет для рекомендательных систем в e-commerce

Алексей Орлов / Ведомости
/Алексей Орлов / Ведомости

«Т-Технологии» выложили в открытый доступ синтетический датасет для развития рекомендательных систем в сфере электронной торговли – T-Tech E-commerce Cross-domain Dataset (T-ECD), сообщили в компании. 

T-ECD, по данным «Т-Технологии», – один из крупнейших подобных датасетов в мире, он собран на основе анонимизированных действий 44 млн уникальных пользователей сервисов «Город» и рекламной платформы Т-Банка, 30 млн товаров и более 135 млрд взаимодействий. 

В него вошли данные по транзакциям, чекам, отзывам, а также клики, просмотры, активация специальных предложений и кэшбеков. Глубина данных составляет от одного года до трех с половиной лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения покупателей с учетом сезонных колебаний, следует из сообщения компании.

В «Т-Технологиях» подчеркивают, что в отличие от большинства академических датасетов T-ECD фиксирует не только действия (клики, лайки и покупки), но и взаимосвязь показов от конкретного источника (поиск, каталог или рекомендации) с действием или его отсутствием. Это помогает понять, например, что пользователи видели товар из рекомендаций, но никак не отреагировали и улучшать работу алгоритмов.

Руководитель направления рекомендательных систем в «Т-Банке» Марина Ананьева уточнила, что аналогичный набор данных используется внутри собственных сервисов компании и помогает в режиме реального времени персонализировать кэшбэк и рекомендации, а также повышать эффективность собственной рекламной платформы.

Датасет размещен на платформе Hugging Face и может использоваться в некоммерческих целях академическими и индустриальными ИИ-исследователями по всему миру, отмечается в сообщении.