Закон об обезличивании персональных данных могут принять весной

Список информации, подпадающей под его действие, может быть расширен
Максим Стулов / Ведомости

Законопроект об обезличивании персональных данных (ПД) может быть принят Госдумой уже в весеннюю сессию, рассказал замминистра цифрового развития Александр Шойтов на «Инфофоруме-2024». Речь идет о поправках к закону «О персональных данных», подготовленных Минцифры и принятых в первом чтении еще в феврале 2021 г. В случае принятия закон позволит бизнесу и ведомствам обмениваться обезличенными ПД и обучать на собранных датасетах модели искусственного интеллекта (ИИ).

Шойтов также отметил, что действие законопроекта может быть расширено с ПД на новые типы информации – синтетические данные, геотреки и статистическое зашумление.

Сам текст законопроекта об обезличивании ПД не содержит перечисления их типов, пояснил «Ведомостям» представитель Минцифры. «Если закон примут, случаи и методы обезличивания определит правительство», – добавил он.

Правительство еще в 2019 г. одобрило концепцию Национальной системы управления данными (НСУД). Она предусматривает новый подход к госданным, в частности к унификации процессов их сбора, обработки, хранения и использования. Предполагалось, что НСУД объединит данные из сотен госсистем, реестров и баз, чтобы ими могли обмениваться ведомства. Законопроект Минцифры, принятый в первом чтении три года назад, предусматривал, в частности, порядок обезличивания ПД при таком объединении. В сентябре 2023 г. президент Владимир Путин дал поручение принять законопроект до 15 декабря 2023 г.

В декабре 2023 г. «Ведомости» писали, что Минцифры разработало поправки к закону «О персональных данных», согласно которым компании – операторы ПД смогут обезличивать данные своих клиентов самостоятельно или же передавать их Минцифры в оригинальном виде. Во втором случае обезличиванием ПД будет заниматься подведомственное Минцифры ФГАУ НИИ «Восход». Тогда председатель комитета по информационной политике Госдумы Александр Хинштейн («Единая Россия») заявил «Ведомостям», что «законопроект готов ко второму чтению, на этой неделе мы рассмотрим его на заседании комитета». Однако законопроект так и не был принят.

Действующий закон «О персональных данных» учитывал только информацию, относящуюся прямо или косвенно к конкретному человеку, объясняет заместитель генерального директора ГК «Гарда» Рустэм Хайретдинов. Но, по его словам, сегодня многие данные, которые напрямую не связаны с физлицом, производятся его «технологическим окружением». При этом они позволяют идентифицировать человека не хуже, чем его ПД, отмечает Хайретдинов.

Например, собираемые с мобильных телефонов сотовыми операторами данные о геотреках могут быть полезны для прогнозирования нагрузки на дорожную сеть и организации дорожного движения, говорит технический директор IT-компании HFLabs Никита Назаров.

Геотреки – это привязанные к устройству с «Глонасс» / GPS данные, документирующие перемещения устройства, объясняет Хайретдинов. Сегодня к таким устройствам можно отнести не только мобильные телефоны, но и автомобили, наушники и метки AirTag, которые присоединяют к сумкам, ключам или кошелькам, добавил он.

Синтетические данные искусственно создаются по определенным правилам, говорит Хайретдинов. Они часто применяются при отладке информационных систем, баз данных и иных схожих приложений, сказал бизнес-консультант по безопасности Positive Technologies Алексей Лукацкий. Но такие данные не подходят для обучения нейросетей, отмечает Хайретдинов: «Как мы их [синтетические данные] сгенерируем, так мы их [нейросети] и обучим. Применять в реальной жизни такие нейросети будет неэффективно».

Статистическое зашумление позволяет «подмешивать» посторонние данные в профили пользователей, говорит Лукацкий. Такой способ, по его словам, позволяет собирать больше данных о потребителях, но не позволяет идентифицировать кого-то из них конкретно.

Обезличивание является одним из важнейших инструментов поиска баланса между приватностью и правами субъектов ПД с одной стороны и интересами производителей различных сервисов и продуктов с другой, поясняет Лукацкий. «Одни боятся таргетированной и назойливой рекламы и поэтому не дают о себе никакой информации. А вторые хотят предоставлять лучший сервис своим клиентам и угадывать их желания на лету, что требует большого объема данных о потребителях», – говорит эксперт. Обезличивание позволяет скрыть детали по конкретному человеку, не скрывая общих характеристик, интересующих операторов ПД, уточняет он.

Обезличенные данные могут понадобиться разработчикам для отладки систем, для обучения нейросетей, техподдержке – для нагрузочного тестирования и различным аналитикам, поясняет Лукацкий. По словам Хайретдинова, важно не просто обезличить данные, но и сохранить при этом структуру и тип данных: фамилии должны остаться фамилиями, номера платежных карт – номерами платежных карт. «Нельзя менять те свойства данных, которые являются ключевыми для анализа. Скажем, если мы изменим геометки, то при таком обезличивании смысл анализа пассажиропотоков на основе этих данных пропадает», – отмечает он.

Помимо этого, продолжает Хайретдинов, при неудачном обезличивании данных можно сделать невозможным составление датасетов для эффективного обучения нейросетей. На правильно обезличенных данных можно обучить нейросети не хуже, чем на ПД, отмечает Назаров. «Большие массивы качественно обезличенных данных – это настоящий клондайк, на котором энтузиасты могут обучать свои ИИ-модели, например, для диагностики онкологических заболеваний», – говорит эксперт. Поэтому для обезличивания данных используются специальные механизмы систем управления базами данных и специализированные программные системы, которые могут сертифицироваться регуляторами для работы с определенными типами данных, поясняет он.