Мария Ткачева: «Риск ошибки ИИ слишком велик»

Директор по данным S7 Airlines – о переходе на российскую дата-инфраструктуру и ограничениях ИИ в авиации
Директор по данным S7 Airlines Мария Ткачева
Директор по данным S7 Airlines Мария Ткачева /Пресс-служба S7

Рост интереса к искусственному интеллекту и переход на российские решения меняют подходы бизнеса к управлению данными. В авиации этот процесс осложняется высокими требованиями к надежности систем и безопасности информации. О том, как бизнес может выстраивать автономную инфраструктуру данных, зачем авиакомпаниям децентрализованная модель управления ими и где искусственный интеллект пока не готов заменить человека, «Ведомости. Инновациям и технологиям» рассказала директор по данным S7 Airlines Мария Ткачева.

– Об искусственном интеллекте (ИИ) говорят как о волшебной таблетке для бизнеса. Что определяет отдачу от технологических инвестиций в авиации – алгоритмы ИИ или качество и объем данных?

– Важна совокупность факторов, но качество данных играет первостепенную роль. Авиация – это сложная система, где точность является критическим критерием успеха. Чем точнее и чище данные, тем корректнее работают все системы: от коммерческого блока до процессов, происходящих непосредственно в небе и при техническом обслуживании.

– С какими объемами и типами данных работает авиакомпания?

– Речь идет об огромных массивах – терабайтах данных. Причем они неоднородны. Мы начинали с глубокой оцифровки коммерческого блока. Здесь мы уже давно и успешно используем такие данные для персонализации предложений пассажирам и динамического ценообразования.

Другой пласт – производственные данные, например телеметрия с бортов. Самолет в воздухе непрерывно отправляет отчет о своей геопозиции и состоянии всех систем. Часть этой информации может использоваться, например, для прогнозирования промывки двигателей некоторых типов воздушных судов и планирования техобслуживания – у нас в работе есть такой проект.

«Приоритет – выстроить автономную инфраструктуру сбора данных»

– Что мешает использовать этот массив данных на 100%?

– Сейчас мы сфокусированы на фундаментальной задаче – импортозамещении самого потока данных. Раньше значительную часть технической информации нам поставляли зарубежные провайдеры – производители самолетов. Теперь эти каналы закрыты и мы должны научиться собирать и интерпретировать эти данные самостоятельно. Фактически мы заново выстраиваем стабильный поток данных.

Параллельно на этот процесс влияют и регуляторные требования: даже те международные системы, которые мы могли использовать с ограничениями, теперь подлежат замене на российский софт. Поэтому наш приоритет – выстроить автономную инфраструктуру сбора данных. Как только наладим получение данных, мы сможем перейти к их массовому использованию в новых технологических процессах.

«Мы внедряем ИИ-решения очень точечно и аккуратно»

– Как вы минимизируете риски на уровне работы с данными в ИИ-проектах?

– Мы еще семь лет назад поняли, что ИИ и обработка данных должны быть максимально сближены. Сейчас все ИИ-инициативы и построение хранилищ объединены в одном департаменте. Мы централизованно чистим данные и отдаем их в работу только тогда, когда уверены в их корректности. MVP (Minimum Viable Product – минимально жизнеспособный продукт. – «Ведомости. Инновации и технологии») можно собрать на сырых данных, но для промышленных решений недостаточно просто загрузить эти данные в хранилище. Ключевое – наше подтверждение готовности к промышленной эксплуатации после проверки. Физически данные могут лежать в разных системах, но без нашего согласования мы не допустим решение в продакшен.

Риск ошибки ИИ слишком велик. Одно дело – ошибиться с рекомендацией товара на маркетплейсе, и совсем другое – допустить сбой при посадке на рейс. Поэтому мы внедряем ИИ-решения очень точечно и аккуратно.

– В какие сферы вы пока не готовы допускать ИИ?

– В техническое обслуживание и ремонт, например. Мы пробовали разработать систему прогнозирования ремонтов вместе со студентами, но технический холдинг не готов полностью доверять этим результатам. Если в других сферах точность 90% – это успех, то в диагностике дефектов нам нужны показатели, близкие к 100%.

Сейчас мы ведем проект по разметке дефектов и ложных дефектов на основании описания с инженерным холдингом, но в течение полугода просто сверяем предсказания модели с отчетами технического персонала.

В то же время в коммерции ИИ работает давно: это и ценообразование, и расчет загрузки рейсов, и планирование расписания.

«Децентрализация хороша для скорости, но зависит от стабильной работы S3-хранилища»

– Как выстроена работа с данными с точки зрения безопасности и доступа?

– Мы развиваем доменную архитектуру и Data Mesh, т. е. применяем децентрализованный подход к управлению данными. У нас шесть основных доменов данных. В зависимости от чувствительности информации мы разделяем их по контурам, обеспечиваем маскирование и защиту.

Для кросс-доменной аналитики мы используем платформу CedrusData, которую VK Tech приобрела в марте этого года, – она позволяет пользователям и моделям работать с чувствительными данными, не получая к ним прямого доступа. Системы общаются на уровне ID (имеется в виду обезличенный идентификатор пассажира. – «Ведомости. Инновации и технологии»), мы не выводим персональные данные пассажиров там, где это не требуется.

– Есть ли у такой архитектуры ограничения?

– Децентрализация хороша для скорости, но зависит от стабильной работы S3-хранилища. Последние два года у нас были сложности с S3-хранилищами (тип хранилищ, спроектированный для больших объемов данных и быстрого доступа к ним из любых систем. – «Ведомости. Инновации и технологии»), а если данные из S3 перестают поступать, возникают сбои. Для авиации это критично. Поэтому для критически важных систем, работающих в реальной эксплуатации, мы уже смотрим, насколько надежна эта архитектура, и выбираем между централизованным сбором данных и децентрализованной схемой с дополнительным мониторингом.

– С каким софтом вы работаете?

– У нас стандартная архитектура для компаний с хранилищами данных. Для небольших хранилищ мы используем [систему управления базами данных] PostgreSQL, для больших объемов, где важна скорость, – [базы данных, оптимизированные для аналитики больших массивов в реальном времени] Vertica и ClickHouse. Оркестрация – [система для автоматизации и управления задачами обработки данных] Airflow, шина данных – [платформа для передачи данных между системами в режиме реального времени] Kafka.

В планах – постепенный уход от Vertica, но он возможен только при наличии стабильного российского S3-хранилища. Мы зависим от требований безопасности: нам нужно решение на собственном железе, а рынок в основном предлагает облака. Пока мы смотрим на решения от VK Tech, так как нам нужна высокая скорость обработки в реальном времени.

«Бюджет на данные выделили в независимый поток»

– Как выстроить взаимодействие IT и бизнеса и обосновать инвестиции в архитектуру данных?

– Это всегда непросто. Бизнесу сложно объяснить, почему на интеграцию двух систем требуются миллионы. Однако нам удалось добиться того, что бюджет на данные выделили в независимый поток. Он утверждается напрямую генеральным директором без согласования с бизнес-подразделениями.

Такой централизованный подход эффективнее. Каждый бизнес-заказчик видит только свой кусок – например, новую услугу на сайте. Мы же видим всю цепочку изменений, которые эта услуга повлечет в других системах и отчетности. Независимость дата-департамента позволяет делать качественный и целостный продукт для всего холдинга.

– В каких процессах эффект от управления данными наиболее заметен?

– Данные сегодня пронизывают все процессы. Головная компания холдинга принимает управленческие решения на основе цифр. Даже инженерный блок, который раньше был более автономным, сейчас интегрируется в общую экосистему данных. Например, закупка запчастей в текущих условиях – это сложнейший процесс со множеством таких факторов, как цена, сроки, логистика. Имея полный объем данных, руководство видит объективную картину и может минимизировать риски.

«Мы все говорим на одном технологическом языке»

– Авиация – глобальная отрасль. Как вы находите баланс между суверенной архитектурой и необходимостью международного взаимодействия?

– Обмен данными в авиации во многом завязан на провайдеров систем бронирования и регистрации. Эти системы интегрированы между собой, и, даже если они разработаны разными компаниями, у них есть отлаженные протоколы взаимодействия. Мы как авиакомпания работаем в рамках международных и государственных регламентов обмена данными.

Авиация строится на жестких международных стандартах, протоколы взаимодействия едины во всем мире. Даже если мы меняем программное обеспечение на суверенное, мы сохраняем протокол. Например, если открывается новое направление в Китай или другие страны Востока, интеграция с их аэропортами проходит без проблем, потому что мы все говорим на одном технологическом языке.

– Как на архитектуру данных влияют требования регуляторов и правила работы с персональными данными?

– Усиление контроля за персональными данными – это общемировой тренд. Мы стараемся относиться к этому как к возможности разработать новые технологии.

Совместно с департаментом информационной безопасности мы внедрили платформу DataHub, где фиксируется расположение персональных данных. ИИ анализирует метаданные каждой системы, размечает наличие персональных данных и передает отчет в службу безопасности. Это существенно упростило процесс: раньше нужно было опрашивать владельца каждой системы вручную – теперь у нас есть централизованная разметка. На базе этой же системы мы автоматизировали маскирование данных для тестовых сред.

В области ИИ ограничений больше. Из соображений безопасности мы не можем использовать публичные облачные сервисы и передовые зарубежные модели вроде Claude или ChatGPT. Приходится искать баланс: разрабатывать собственные решения или использовать решения российских игроков, хотя технологический разрыв пока сохраняется.

«Нужно одновременно поддерживать старое, внедрять новое и менять интеграции»

– Какие направления развития дата-архитектуры ключевые для вас сейчас?

– Мы делим ресурсы примерно 70 на 30: большая часть идет на текущие задачи бизнеса, а остальное – на модернизацию архитектуры.

Мы завершаем миграцию с Oracle на Vertica. В перспективе, возможно, будем уходить с Vertica, один из сценариев – переход к децентрализованной архитектуре с российским S3-хранилищем. Однако сначала мы будем следить за его стабильностью и только после этого принимать решение.

Еще один важный трек – развитие «самообслуживания» и проект с VK Tech по созданию системы нативных запросов. Мы хотим, чтобы пользователь мог на русском языке написать: «Покажи мне выручку за вчера», а система сама конвертировала это в SQL-запрос (инструкция на языке Structured Query Language, используемая для взаимодействия с базами данных. – «Ведомости. Инновации и технологии»). Это снизит нагрузку на IT-блок и решит проблему нехватки технических компетенций у сотрудников бизнес-подразделений.

– В какие сроки планируете реализовать эти задачи?

– Нативные запросы – это горизонт ближайшего года. Перестройка хранилищ – процесс более длительный, года на три. Это связано с тем, что у нас параллельно переписывается множество фундаментальных систем: по ремонту запчастей, по отслеживанию полетов. Нам нужно одновременно поддерживать старое, внедрять новое и менять интеграции.

Ресурсы команды ограничены, поэтому мы расставляем приоритеты, исходя из запросов бизнеса, а в оставшееся время модернизируем архитектуру.