Компании наводят порядок в данных

Предприятия ищут способы не допустить распространения недостоверной информации, в том числе сгенерированной нейросетями
Андрей Гордеев / Ведомости
Андрей Гордеев / Ведомости

Современные предприятия работают с информацией из множества источников: информационных систем, соцсетей, государственных баз данных, ИТ-систем партнеров и т. д. Данные отличаются форматом, качеством и степенью актуальности. Для эффективного принятия решений компаниям нужно проверять надежность информации, не нарушая текущие рабочие процессы. Исследование Высшей школы бизнеса НИУ ВШЭ, посвященное российским IT-трендам 2026 г., показывает: интеграция и обогащение данных помогут увеличить выручку и ускорить цифровую трансформацию бизнеса.

По мере увеличения объемов и появления новых источников данных все больше внимания приходится уделять вопросам цифровой гигиены, говорится в исследовании. Сегодня предприятия могут столкнуться с недостоверными внешними данными, в том числе со сгенерированными искусственным интеллектом (ИИ), а также с внешними сведениями, использование которых является противозаконным и неэтичным из-за нарушения поставщиком этих данных требований регулятора о защите персональных данных.

На этапе насыщения

Действительно, процессы работы с данными в компаниях далеки до совершенства, говорят опрошенные «Ведомостями. Технологи и инновации и» эксперты. По оценкам генерального директора Fork-Tech, консультанта и интегратора IT-решений в финтехе Кристины Коваленко, проблемы с обогащением и интеграцией данных существуют примерно у 70% российских предприятий во всех отраслях. У компаний есть нерешенные проблемы в области работы с данными, согласен руководитель продуктового направления «Некстби» Евгений Сурков. Далеко не у всех предприятий налажено системное упорядоченное накопление данных. А у тех, кто накопил большой массив исторических данных, не выстроены процедуры их обработки. Причем простого анализа исторических данных недостаточно – необходимо также моделировать все возможные, не происходившие ранее ситуации, выстраивать сценарии реагирования на редкие события, правильно управлять процессами и мерами противодействия угрозам, перечисляет он.

Наибольшие сложности испытывают крупные системообразующие государственные структуры и компании с долгой историей в промышленной и финансовой сфере, такие как «Ростех», «Роскосмос», «Росатом» и Сбербанк, которые десятилетиями строили свою IT-инфраструктуру, замечает технический директор «РДТЕХ» Дмитрий Анашкин. Системы внедрялись в разное время, от разных производителей, общие отраслевые стандарты данных в большинстве случаев отсутствуют, подтверждает партнер, лидер практики технологического консультирования компании ДРТ Тимофей Хорошев.

Значительная часть ценной информации содержится в неструктурированном виде: договора, техническая документация, переписка, данные с датчиков Internet of Things (IoT, интернет вещей), приводит примеры Анашкин. Для качественного извлечения знаний, связывания технологических и неструктурированных данных требуются ресурсоемкие инструменты умного поиска, технологии Natural Language Processing (NLP, обработка естественного языка), Large Language Model (LLM, большая языковая модель) и привлечение высококвалифицированной экспертизы, говорит он.

Причем в зависимости от отрасли особенности сбора и накопления информации сильно разнятся. Источником производственных данных на предприятиях в основном являются контрольно-измерительные приборы и автоматика, говорит управляющий директор холдинга промышленного программного обеспечения «Экспанта» Илья Измайлов. Но датчикам и контроллерам верхнего уровня свойственно выходить из строя, особенно в агрессивных средах и в непростых климатических условиях. Это связано с тем, что обслуживать или заменять их на идентичные в последние несколько лет становится все труднее: компании реализуют целые программы по модернизации и импортозамещению автоматизированных систем управления технологическим процессом на отечественные решения, которые только начинают догонять иностранные Siemens, ABB, Schneider и пр. Для разработчиков цифровых прикладных решений это создает сложности, поэтому порой приходится разворачивать собственные хранилища данных на отдельном сервере в локальной технологической сети, а сбор данных осуществляется напрямую с оборудования.

Если говорить о сфере продаж, то менеджменту, напротив, интересно анализировать информацию о поведении и предпочтениях покупателя из самых разных источников, обращает внимание Хорошев. Это нужно для того, чтобы планировать и таргетировать маркетинговые кампании исходя из максимально обогащенного профиля покупателя. Информацию можно черпать как из внутренних систем, таких как Customer Relationship Management (CRM, управление взаимоотношениями с клиентами), Enterprise Resource Planning (ERP, планирование ресурсов предприятия), (информацией от маркетинговых агентств, интернет-провайдеров, мобильных операторов и т. п.)но и из информаций от маркетинговых агентств, интернет-провайдеров, мобильных операторов и т. п., перечисляет он.

В строительном секторе больше используются «вертикальные» данные: информация сильнее завязана на проект, объект или фазу, много специализированных форматов: Building Information Modeling (BIM, цифровая информационная модель объекта), чертежи, акты, сметы, а также используются внешние подрядчики и бумажные документы, – приводит пример вице-президент ГК «ВестЛинк», директор бизнес-единицы Linkage Елена Балашова. Из‑за этого собранные сведения сложнее агрегировать «горизонтально» по ресурсам, материалам и срокам.

Накопить, но не помешать

Проблемы с обогащением данными в большей степени связаны с доступом к внешним данным, поскольку компании не готовы обмениваться ими между собой, подчеркивает генеральный директор «Галактики» Алексей Телков. В России пока не сформировался и рынок продажи данных из-за регуляторных ограничений, обращает внимание он. Впрочем, данные о реальных производственных процессах не всегда нуждаются в обогащении за счет внешних источников, делает оговорку генеральный директор АНО «Национальный центр компетенций по информационным системам управления холдингом» Кирилл Семион. Если же требуется использование данных из внешних источников, то тут два выхода. Первый – решить для себя, важны ли эти данные для получения эффектов или проще от них отказаться. Второй – использовать доверенные источники и другие инструменты, зная, как они наполняются и кем администрируются.

Проблемы с обогащением и интеграцией данных носят системный характер, продолжает директор департамента управления продуктом компании «Нанософт» Сергей Сыч. Объемы информации растут, что требует расширения инфраструктуры, а фрагментация данных между устаревшими и современными системами приводит к дублированию, потере целостности и снижению доверия. Тогда как различия в форматах и протоколах затрудняют интеграцию, а низкое качество данных замедляет внедрение ИИ и автоматизации, превращая эти задачи в стратегический вызов.

Главный архитектор больших данных Cloud X Владимир Пугачев также замечает, что при накоплении и внедрении большого количества информации управление безопасностью страдает: интеграция большого количества разнообразных систем усложняет управление доступом и настройку правильного уровня безопасности для всех пользователей. Среди проблем он также называет возможность некорректной очистки и трудность в валидации данных.

Отличить реальное от виртуального

По мере развития ИИ упрощаются многие рабочие процессы. Тем не менее чрезмерная зависимость от ИИ несет потенциальные угрозы. Среди ключевых рисков – «галлюцинации» моделей, генерация недостоверной информации и сбои в работе алгоритмов, приводящие к ошибочным решениям и негативным бизнес-последствиям.

Предприятия могут внедрить специализированные ИИ-детекторы, которые проанализируют структуру текста для оценки вероятности машинного происхождения контента, говорит директор по продуктам ГК «Цифра» Иван Друзин. К примеру, для текстов можно проводить анализ перплексии (perplexity) – измерить предсказуемость предложенного отрывка, приводит пример Пугачев. Сгенерированный ИИ-контент часто имеет низкую перплексию, так как модели выбирают наиболее вероятные слова и конструкции. Еще один вариант – это оценка burst-параметра, то есть показателя разнообразия в использовании лексики, продолжает он. Человеческий текст характеризуется неравномерным распределением сложности предложений, в то время как ИИ создает более однородный контент.

Выходом может стать и регулярное обучение сотрудников правилам кибергигиены и работе с ИИ-генерируемым контентом, обращает внимание Друзин. Наиболее продвинутые организации справляются с ретроспективным анализом и переходят от реактивного к проактивному анализу, то есть стремятся спрогнозировать параметры будущей среды и принять оптимальное решение на основе полученной информации, говорит Сурков.

Проблемы с обогащением и интеграцией данных остаются и будут актуальными в дальнейшем, так как повышение качества данных и их агрегация из различных систем – это непрерывный процесс на всем цикле жизни предприятия, прогнозирует коммерческий директор компании «Триафлай» Владимир Борботько. Одновременно меняется и IT-ландшафт предприятий: идет процесс импортозамещения, будут появляться новые системы автоматизации бизнеса, ожидает он.

Для минимизации рисков распространения неверифицированных данных компаниям важно внедрять практики управления происхождением информации, считает представитель Ассоциации больших данных. Для этого нужно фиксировать источники, версии и метаданные, вести журналы трансформаций, верифицировать поставщиков и автоматизировать контроль качества. А развитие регулирования, позволяющего применять решения для безопасной обработки и объединения данных, станет мощным стимулом для роста цифровой экономики, надеются в объединении.