Большое будущее данных
Бизнес движется к интегрированным решениям в управлении даннымиКак показал опрос Высшей школы бизнеса НИУ ВШЭ, обогащение и интеграция распределенных данных – одно из самых активных направлений цифровой трансформации российского бизнеса. Более половины компаний ведут работу по повышению отдачи от данных в 2023 г., а в ближайших планах она стоит еще у трети компаний.
Сложности управления
С ростом компьютерных мощностей сбор данных из разных источников развивался лавинообразно, и в конце 1990-х гг. появился термин «большие данные». В начале 2010-х гг. бизнес-гуру предвещали, что в сочетании с искусственным интеллектом (ИИ) они обеспечат быстрый прорыв в аналитике, однако довольно быстро выяснилось, что это под силу лишь немногим компаниям из числа «цифровых аборигенов».
В 2023 г. отмечен новый всплеск увлеченности большими данными, который связан, в частности, с распространением генеративного, или «разговорного», ИИ. По данным DataBricks, в последние полгода ее клиенты чаще всего адресуют в озеро данных запросы, связанные с подключением разговорного ИИ. С его помощью они учатся извлекать информацию о настроениях из отзывов потребителей о компании или продукте. Другие важные сферы применения – компьютерное моделирование и оптимизация, включая цифровых двойников, а также географическая и пространственная аналитика. Самый быстрый прирост продаж услуг платформы DataBricks наблюдается именно в сфере интеграции данных: более чем вдвое за один год.
Что такое интеграция данных
Под интеграцией разнородных данных понимают их объединение, которое позволит пользоваться разными массивами одновременно. Для бизнеса интеграция данных означает расширение угла обзора информации и ее обогащение из своих или сторонних источников.
Разработчики софта не одно десятилетие работают над системами управления большими данными, но универсальных решений до сих пор нет, так как все это требует значительных усилий как от разработчика, так и от клиента. Российские организации много лет пользовались интегральными системами мировых лидеров – SAP, Oracle, Microsoft, IBM, Informatica, их уход из России не мог не сказаться на компаниях, которые успели адаптировать эти продукты. Однако опыт, полученный при внедрении западных решений, помог им развить собственные компетенции в сфере данных, поэтому сейчас им легче сделать осознанный выбор программного обеспечения (ПО). Архитектор данных «Сибур диджитал» Егор Донцов на одной из конференций в марте 2023 г. рассказал, как действовала его компания, когда стали недоступны инструменты SAS.
Выяснилось, что на российском рынке нет подходящих коммерческих альтернатив, поэтому решили ориентироваться на продукты open source. Систему начали строить на основе языка Python и библиотеки Great Expectations, проект был запущен в декабре 2022 г.
По оценкам DIS Group, развитие рынка больших данных в ближайшие два года может принести в российскую экономику 1,6 трлн руб. Одновременно растет и потребность в решениях по управлению данными. 45% крупных компаний планируют в первую очередь импортозаместить решения этого класса.
Информацией приходится делиться
Инвестиции бизнеса в данные растут год от года во всем мире. Однако наладить их сбор, хранение, очистку и интеграцию – непростая задача. Основатель исследовательской и консалтинговой компании NewVantage Partners Рэнди Бин в 2023 г. отметил, что среди респондентов опроса из числа менеджеров крупнейших компаний лишь 23,9% считают, что достигли целей преобразования бизнеса на основе данных (четыре года назад таких было 31%). В 2022 г. только 20,6% респондентов сообщили, что в их организациях утвердилась соответствующая культура, т. е. массовое желание и умение работать с данными (в 2019 г. таковых было 28,3%). В статье в HBR Бин признает, что «усилия бизнеса по включению потоков данных в процессы принятия решений были не столь успешными, как лидеры компаний предполагали ранее».
Как следует из опроса NewVantage Partners, главная причина медленного прогресса в этой сфере – корпоративная культура. Люди не желают правильно собирать, хранить данные и делиться ими и предпочитают принимать решения, исходя из опыта, интуиции и собственных данных.
В компаниях нежелание делиться данными объясняют в том числе рисками утечек информации. По данным американской НКО ITRC, за первую половину 2023 г. данные о 150 млн американцев были так или иначе скомпрометированы. Причиной утечек, как правило, становились кибератаки (1000+ эпизодов). Гораздо меньшая доля приходилась на ошибки сотрудников или системных администраторов.
Исследователи пишут, что интеграция данных не увеличивает угрозу утечек, так как предполагает шифровку, токенизацию или маскирование данных. Бoльшим киберрискам подвержены старые системы хранения, которыми компании пользуются традиционно.
Очистка, обогащение и интеграция
Современные инструменты интеграции данных не похожи на те, которые использовались 20 лет назад. Сейчас многомерные данные можно объединять автоматически, поместив в программную среду, которая заодно обеспечит их очистку. Продвинутые решения позволяют сливать датасеты средствами low-code или no-code.
Процесс интеграции данных предполагает их выгрузку из разрозненных источников и очистку от мусора, включая удаление недостоверных и дублирующих записей. Записи конвертируются в нужный формат, претерпевая изменения, такие как анонимизация и присвоение метаданных (этап трансформации). Затем данные загружают в среду, которая позволит работать с датасетом, автоматически извлекая из него статистические или иные инсайты. Эти три составные части интеграции данных сокращенно называют ETL. В последнее время в связи с массовой миграцией в облако систем для хранения данных «порядок действий» бывает другим: извлечение, загрузка и трансформация (ELT).
Исходные данные дополняют информацией из внутренних и внешних источников, чтобы сделать датасет более полным и полезным для анализа, принятия решений или использования другими информационными системами.
Источники для обогащения данных
Обогащать операционные данные компании можно, добавив к ним данные о рынках, экономических показателях, географических ориентирах. Например, Всемирный банк для получения более детальной картины нищеты в отдаленных районах Мексики использовал не только сведения из опросов и переписи населения, но и данные аэрофотосъемки. Инструмент EarthEngine компании Google позволяет довольно точно установить реальный уровень благосостояния деревни или даже домохозяйства.
Исходные данные дополняют также геокодированием – присвоением географических координат точкам данных на основе их адресов и информации о местоположении. Геокодирование обогащает наборы данных пространственной информацией и обеспечивает визуализацию. Это полезно, например, для ритейла, который выбирает новые точки для своих магазинов из доступных адресов.
Кроме того, для обогащения датасета используют коммерческие базы данных. Поставщики таких баз (информационные брокеры) торгуют большим набором сведений о физлицах: демографическая информация, личные предпочтения, покупательское поведение и пр. Еще более широкий спектр сведений доступен о юридических лицах. В США коммерческие базы данных – многомиллиардный бизнес. Подписка на такие сервисы, как Dun & Bradstreet, Proquest, LexisNexis, и базы данных о потенциальных потребителях среди физлиц – условие существования любой крупной компании.
Облако Dun & Bradstreet Data может быть интегрировано с данными компании, которая пользуется такими ERP-системами, как Exact, Salesforce, SAP, Oracle, Microsoft, Onguard и CreditTools. В России базы данных о компаниях, а также справочники по номенклатуре изделий тоже интегрируют с операционными данными и географическими ресурсами.
Источником дополнительных данных могут служить и результаты лингвистического анализа (NLP). Появились программы, которые способны выявить в потоке письменной или устной речи ключевые слова, чтобы расклассифицировать сообщения по темам и определить общее настроение высказывания.
Сбор данных по всем точкам контакта с клиентом дает более полное представление о его поведении и предпочтениях. Этим пользуются, например, банки, чтобы персонализировать свое предложение. А у компаний бигтеха, таких как Google и Amazon, агрегация данных о пользователе – основной механизм коммерциализации на показе рекламы, платных сервисов и пр.
Объединение потоков данных и их подпитка из других источников могут происходить однократно или периодически, в пакетном режиме по мере их накопления. В последнее время распространяются инструменты, объединяющие данные из разных источников в режиме реального времени. Это особенно важно для анализа данных с разных датчиков в интернете вещей и для пользовательских платформ.
Цифровая зрелость
Ведущая международная фирма по IТ-консалтингу Freeform Dynamics вместе с японской Fujitsu провела исследование зрелости систем работы с данными по 400 компаниям разных отраслей из 14 стран Западной Европы. В результате было выделено четыре этапа развития таких систем и выявлена четкая корреляция между уровнем зрелости работы с данными и финансовыми результатами компании.
Для раннего этапа, уровня «цифровой бедняк», характерен хаотичный подход к сбору и хранению данных, следствием чего является их низкая видимость при высоких рисках. Примерно 5% компаний выборки пребывали на этом уровне в конце 2020 г.
Компании уровня «цифровой владелец» обладают базовыми компетенциями в сфере обращения с данными, однако видимость носит фрагментарный характер, причем система способна «высвечивать» прошлое гораздо лучше, чем настоящее или будущее.
На уровне «цифровой управленец» нужная информация и инсайты относительно легко извлекаются из данных, которые полны и непротиворечивы; можно делать прогностические выводы.
На уровне «цифровой повелитель» картина обновляется в режиме реального времени, инсайты появляются постоянно и все функции выигрывают от проактивной аналитики происходящего. К этому уровню исследователи отнесли лишь 4,8% выборки. По результатам анкетирования, более 90% компаний находятся на втором или третьем этапе развития.
Для успеха цифровизации бизнеса необходимы подготовленность организации и стратегическое видение ее руководителей. Решения в сфере данных стоят недешево, и, по результатам глобального опроса BCG, топ-менеджеры недовольны ими по нескольким причинам: неудобная координация и недостаточная поддержка со стороны поставщиков (84% опрошенных), шаблонные, недостаточно кастомизированные решения (74%) и некачественное обучение сотрудников компании (69%).
Примером удачного выстраивания стратегии данных может служить Tesla. В нескольких штатах США компания предлагает страхование автомобилистов на основе автоматически выводимого интегрального показателя «общей безопасности» вождения. С датчиков автомобиля Tesla снимает физическую информацию: скорость, время в пути, маршруты поездок, состояние водителя и пр. Множество показателей сводится в один скоринг, который вычисляется ежемесячно. Средний по скорингу водитель может рассчитывать на 20–40% скидки по страховке, а самый аккуратный – на 40–60%, утверждает Tesla.
Как обеспечивается интеграция
Крупные компании, особенно технологические, разрабатывают инструменты интеграции самостоятельно и хранят их либо на собственном сервере, либо в собственном облаке. Например, «графы данных», как у Amazon или Google, построены на постоянно обновляющихся данных о том, как пользователь ведет себя на их сайтах. Данные интегрируются по каждому пользователю, и на их основе создается персонализированное предложение.
Создание и поддержание собственных инструментов интеграции и анализа данных могут оказаться очень затратными и требуют мощных IТ-ресурсов. Поэтому большинство компаний подписывается на проприетарные решения по модели SaaS (Software as a Service).
Многие существующие на рынке решения представляют собой комплекс: с одной стороны, это средства очистки, контроля и объединения баз данных, а с другой – набор внешних датасетов, полезных для бизнеса, которые поддерживает вендор внутри своего облака или за его пределами. Например, компания Oracle недавно сообщила, что сотрудничает с 80 информационными брокерами, обеспечивающими сбор и хранение самой разнообразной информации о людях, бизнесах, ресурсах и рынках.
Использование внешних датасетов о людях регулируется законами: Евросоюз еще в 2018 г. принял ограничивающий сбор и использование персональных данных регламент General Data Protection Reglament (GDPR), обязательный для всех стран-участниц. В США защита персональных данных пока не такая строгая, но резиденты некоторых штатов могут потребовать удаления всех записей о себе в любой организации. Тем не менее брокеры продолжают собирать данные о миллионах и миллиардах людей. Недавно журнал Wired назвал угрозой демократии само существование таких брокеров, указав, что в базе данных Acxiom содержатся весьма подробные сведения о 2,5 млрд физлиц.
Однако сбору и интеграции больших данных о потребителях трудно помешать: провайдеры интернета и телекома продают анонимизированную информацию о своих клиентах. Например, Cosmose AI, собирая данные со смартфонов примерно 1 млрд человек, отслеживает траектории движения посетителей магазинов и объединяет их с данными от датчиков внутри торговых точек, чтобы лучше понять, как эффективнее использовать площади.
Основные тренды
Все чаще для очистки, обогащения и интеграции данных компании используют облачные сервисы. Одним из трендов здесь является интеграция данных в реальном времени. Она происходит каждый раз, когда государственный или частный сервис, например сайт банка, предлагает пользователю авторизоваться через «Госуслуги» либо когда человек платит на сайте банковской картой. Интеграция платежной системы и компании-продавца происходит моментально, и изменения, зафиксированные банком, тут же отражаются в базе данных продавца, которая отправляет покупателю уведомление об этом через свой клиентский интерфейс.
Еще один тренд – гибридная интеграция данных. Этот подход вытекает из потребности децентрализовать управление данными, например, в экосистемах. Но даже в пределах одной компании гибридная интеграция может оказаться более выгодным решением, нежели миграция всех датасетов в одно облако, если операционные данные хранятся на разных серверах и облаках.
Для интеграции данных также могут использоваться ИИ и машинное обучение. ИИ существенно сокращает затраты на трансформацию данных, упрощает их картирование, классификацию и разнесение по датасетам, помогает найти закономерности в массивах на основе статистического моделирования.
Решения для интеграции данных
Американская компания Gartner регулярно проводит сравнение и ранжирование коммерческих программных решений для бизнеса. По каждому из видов софта составляется рэнкинг, который помещают в диаграмму, называемую «Волшебный квадрат». Система ранжирования Gartner исходит из нынешнего уровня развития той или иной системы, а также из того, насколько направление развития самой технологии совпадает с прогнозом Gartner на ближайшие годы.
По прогнозам Gartner, в 2024 г. примерно вдвое сократится потребность в «ручном» выполнении задач по интеграции данных. Это станет возможным благодаря более массовому применению технологии «ткань данных», поддерживающей интеграцию расширенных данных. К 2024 г. управление и интеграция расширенных данных на основе ИИ снизит потребность в IТ-специалистах на 30%. К 2025 г. инструменты интеграции, не способные обеспечить своим клиентам работу с данными, расположенными в разных облаках по модели PaaS (платформа как сервис), уступят половину своей доли рынка тем вендорам, которые на это способны.
В рэнкинге решений по интеграции данных Gartner в число лидеров попали Informatica, Oracle, IBM, Talend, SAP, Microsoft, Denodo. Другие компании, отмеченные Gartner как лидеры, тоже обеспечили себе по несколько процентов мирового рынка. Однако почти половина этих продаж пришлась на поставщиков с долями менее 3%. Это свидетельствует о высокой фрагментации рынка и остроте конкуренции.
Universe Data – один из российских разработчиков решений для управления данными (в прошлом компания входила в рэнкинг Gartner). В январе 2023 г. Universe Data запустила собственную платформу данных. По мнению ее генерального директора Владислава Каменского, решения на этой платформе смогут заменить SAP, SAS, Oracle, Informatica и IBM в части управления справочными и операционными данными.
Однако, по мнению опрошенных CNews экспертов, зрелость российских решений пока несопоставима с западными. «Тут все просто: количество клиентов совершенно разное. Там тысячи, даже десятки тысяч, а здесь единицы и в лучшем случае десятки», – говорит Юлий Гольдберг, руководитель направления импортозамещения GlowByte. Он призывает оценивать не абсолютную, а относительную зрелость, т. е. возможность внедрения у крупных и привередливых заказчиков. Таких продуктов уже достаточно – об этом свидетельствует рост числа внедрений.
В целом рынок систем управления данными растет быстрыми темпами и, по мнению маркетологов, к 2030 г. превысит $1,5 трлн. Главным его двигателем, скорее всего, будут данные о потребителях. Следует также ожидать роста рынка данных с умных устройств.
Автор – ведущий эксперт Высшей школы бизнеса НИУ ВШЭ, старший редактор проекта «Новое в менеджменте»