Росстату пришлось отложить оценку инфляции с помощью данных онлайн-чеков

В ведомстве решили привлечь IT-компанию для обработки информации о покупках россиян
Неоднородность данных о покупках россиян затормозила автоматический расчет инфляции с помощью онлайн-чеков/ Евгений Разумный / Ведомости

Росстат разместил заказ на обслуживание системы сбора и аналитики больших данных из различных источников для их использования в расчете инфляции и ведении статистики торговли, следует из информации на сайте госзакупок. Судя по техзаданию, исполнитель будет заниматься обработкой чеков контрольно-кассовой техники (ККТ), которые Росстату передает ФНС. Срок выполнения задания – с даты заключения контракта до конца 2023 г. Сумма контракта – 20 млн руб. При этом Росстат собирался внедрить новую методику по расчету инфляции с использованием данных онлайн-чеков уже в этом году.

Включение данных из онлайн-чеков в расчет индекса потребительских цен (ИПЦ) пришлось отложить, сообщил «Ведомостям» представитель Росстата. Пока данные для расчета ИПЦ ведомство продолжит собирать по старинке – путем обхода торговых точек. Главные проблемы, из-за которых переход к более современному автоматизированному способу оценки инфляции пришлось перенести, – ограниченная открытость информации из-за налоговой тайны и неоднородность данных.

«К сожалению, этап тестирования и экспериментальных расчетов продлился чуть дольше, чем мы планировали», – сообщил «Ведомостям» представитель Росстата. По его словам, пока не решен ряд технологических моментов, связанных прежде всего с привязкой чеков к конкретным торговым точкам.

Сейчас ведомство ведет оценку роста цен на основе данных онлайн-чеков от ФНС и ЕГАИС, «но расчетом инфляции это еще назвать нельзя», отметил он. «Мы тестируем подходы, смотрим различия в динамике по отдельным позициям», – сообщил представитель ведомства. Синхронизировать эти данные Росстат сможет, когда закончится экспериментальный этап работы, добавил собеседник, не уточнив, когда планируется его завершить. ФНС в рамках соглашения об информационном обмене на постоянной основе осуществляет передачу в адрес Росстата обезличенных кассовых чеков, сообщил «Ведомостям» представитель налоговой службы. 

Эти данные не позволяют идентифицировать продавца (налогоплательщика), так как сведения, содержащиеся в фискальных документах, в том числе адрес места осуществления расчетов, составляют налоговую тайну и не подлежат передаче, добавил собеседник.

В конце 2021 г. в ведомстве объявили, что проведут эксперимент по использованию новых источников данных в расчете ИПЦ в течение 2022 г. и, если результаты будут корректны, начнут внедрять их в методику с 2023 г. Планы использовать big data в статистике анонсировал руководитель Росстата Павел Малков еще в 2020 г. (сейчас он работает губернатором Рязанской области, а ведомство возглавляет Сергей Галкин).

Согласно информации на сайте Росстата, основная проблема при автоматическом сборе заключается в том, что каждая организация сама вносит названия товаров в базу, а потому в разных магазинах они отличаются. Например, только в Москве батончик Snickers имеет 1500 вариантов внутреннего наименования. Предполагается, что в будущем нейросеть Росстата сможет автоматически распознавать названия товаров и точно идентифицировать их.

Другие источники

На ПМЭФ-2023 Росстат заключил рамочное соглашение с X5 Group, которое предусматривает обмен информацией и реализацию совместных проектов в области статистики цен, отметил представитель Росстата. Сейчас обсуждаются параметры этих проектов и алгоритм участия.

Как сообщил «Ведомостям» директор по взаимодействию с госорганами X5 Group Станислав Богданов, сейчас происходит процесс обкатки информационного обмена между сетью и Росстатом. «Пока все это тестируется на данных по ценам в нескольких товарных категориях в отдельных магазинах Х5 с прицелом на дальнейшее масштабирование», – ­сообщил он.

Помимо данных ККТ ведомство планировало в качестве эксперимента использовать другие способы – веб-скрейпинг (технология просеивания веб-страниц, которая позволяет выделить цены с сайтов розничных магазинов) и мониторинг цен онлайн-ритейлеров.

В чем проблема

При внедрении данных ККТ для построения индекса цен Росстат мог столкнуться с рядом сложностей: в распознавании продуктов, в организации передачи информации ОФД, а также в гарантии защиты информации о продажах от утечек, считает главный экономист по России Bloomberg Economics Александр Исаков. Информация, которая позволяет идентифицировать продавца в онлайн-чеках, защищена законом о ККТ, поэтому ни ФНС, ни частные ОФД не имеют права давать такую статистику, добавляет он.

Но главная проблема, по его словам, – это идентификация товаров. В чеках уникальный товар (вид продукции определенного производителя в установленной упаковке, заданной массы и т. п.) определяется единственным текстовым названием, которое не стандартизировано, поясняет он. Таким образом, любая торговая сеть или отдельный магазин волен заполнять его на свой вкус, произвольно меняя название от одной недели к другой.

Сложность интерпретации данных из ККТ, как и любых альтернативных данных, в том, что они формируются для выполнения других задач, считает руководитель направления реального сектора ЦМАКПа Владимир Сальников. Во-первых, в чеках нет идентификатора товара, что может приводить к серьезным ошибкам. Во-вторых, не ясно, как учитывать скидки по картам лояльности. Кроме того, есть доля товаров, которые не проходят через кассы, например оплата занятий репетиторам, аренда квартир, напоминает Сальников.

Как Росстат считает инфляцию

Фактически сбор данных происходит вручную. Регистраторы цен собирают данные путем обхода торговых точек с мобильными устройствами, информация с которых автоматически попадает на центральный сервер Росстата.
Росстат отслеживает цены более чем на 775 000 различных товаров и услуг. Ведомство видит изменение цен более чем в 80 000 организаций торговли и сферы услуг. Отслеживаются цены от Калининграда до Владивостока в 282 городах, в которых проживает не менее 35% всего городского населения.
Еженедельные данные собираются по 106 позициям, ежемесячные – по 558. Специалисты Росстата отслеживают цены на товары и услуги, траты на которые равны или превышают 0,1% расходов домашних хозяйств.

«Все это не стандартизовано. Отсюда ошибки в интерпретации данных. Знаю, что Минэк мониторит статистику той же ККТ, но не для оценки уровня цен, а для оценки динамики продаж», – указывает Сальников. Но даже для этих целей информацию нужно использовать с осторожностью, так как длинных рядов не накоплено, поэтому практически невозможно измерить сезонность.

Одна из ощутимых проблем заключается в постановке задачи, считает начальник отдела анализа отраслей реального сектора и внешней торговли Центра развития НИУ ВШЭ Владимир Бессонов. Приоритет – внедрить большие данные в статистику потребительских цен, а не изучить возможность их внедрения. Анализ позволил бы понять, будет ли статистика после этого более точной, дешевой и оперативной. Ведущие страны отказались от внедрения big data в статистическую практику после проведения соответствующих исследований, указывает экономист. По его словам, big data с точки зрения решения проблем статистики практически ничем не отличаются от обычных котировок – из моря информации нужно вычленить небольшую часть для построения ИПЦ, отмечает Бессонов.

Прогресс в работе с чеками ККТ и другими альтернативными источниками цен (прямой передачей от розничных сетей, скрейпингом сайтов и прайс-листов, доступных онлайн) может дать возможность расширить периметр наблюдения, спорит Исаков. Если решить вопрос с распознаванием типа продукта, то Росстат мог бы снизить нагрузку на своих сотрудников, которые заняты сбором цен, повысить скорость и точность оценки индексов цен, возможно, расширить периметр наблюдения, считает Исаков.

Вместе с тем это потребует больших инвестиций в компетенции Росстата, чтобы нанимать значительное число дата-аналитиков и программистов, которые знакомы как с технологией обработки данных, так и со статметодиками, добавляет экономист. Исходная причина отставания от планов по внедрению ККТ скорее сводится к необходимости достаточно радикального повышения сетки оплаты труда в Росстате, резюмирует эксперт.

Также важный вопрос, который не исследован, – сопоставимость новых и старых данных, отмечает Бессонов: если результаты нельзя будет сравнить, то многих это введет в заблуждение, в том числе правительство и Банк России. «Направление интересно, его можно пытаться изучить, экспериментировать, но до прямого, полноценного использования очень далеко», – считает Сальников.

В подготовке статьи участвовал Алексей Полухин