Дмитрий Скугаревский: Пора заставить данные говорить
В начале апреля Генпрокуратура запустила портал правовой статистики, который призван показать полную картину преступности в стране. Посетив сайт, можно узнать, что Республика Тыва – многолетний лидер по убийствам на 100 000 населения, что половина преступников в Москве имеют начальное образование и что Россия занимает третье место в мире по числу грабежей после США и Мексики.
Отрадно, что при всех недостатках одна функция портала правовой статистики родом из XXI в. Почти всю статистику можно скачать в удобной форме в рамках инициативы «открытые данные». При всей бесполезности самих данных нельзя не приветствовать желание поделиться ими. Однако соседство на одном портале раздела «открытые данные» и модных индексов Всемирного экономического форума (которые, к слову, совсем не про организованную преступность, а про отношение бизнеса к ней) наводит на мысль, что Генпрокуратура следует популяризированному Дмитрием Медведевым тренду открытости госорганов. Но готова ли она делиться не приглаженным минимумом информации, а сырыми деперсонифицированными микроданными для общественного контроля и научных изысканий?
Но какая польза от этой информации начальнику полиции общественной безопасности города при определении маршрута патрулирования? Как может помочь государственному обвинителю знание того обстоятельства, что в его регионе в среднем больше нераскрытых преступлений, чем в соседнем?
Генпрокуратура смогла объединить на портале три эпохи в подходе к анализу данных. В первой, дремучей, царствует АППГ – показатель «к аналогичному периоду прошлого года»: в этом году на n% меньше преступлений, а тот регион на m месте по их количеству. Криминальная статистика правоохранителям нужна, чтобы строить рейтинги и видеть отстающих исполнителей. Поэтому весь инструментарий количественных суждений в любых докладах правоохранительных органов – «к аналогичному периоду прошлого года» и сравнение с соседями. В этой эпохе еще не знают про коэффициент корреляции, которому исполняется 125 лет. Приблизительно тогда и пришло понимание, что важно найти не индивидуальную эволюцию показателей, а их связь. Вопрос, почему в этом году на n% меньше преступлений, важнее вопроса, на сколько меньше. Современные методы анализа позволяют не только найти связь, но и обнаружить ее направление и делать прогнозы. Назвать причины изменения преступности означает приблизиться к пониманию ее природы и откалибровать инструменты борьбы с ней.
Вторая эпоха, в которой живет портал, – 1950–1960-е, когда сбор детальной общенациональной статистики по преступности был запретительно дорог. В то время максимум, чем приходилось довольствоваться исследователям, – преступность по регионам в год. Но сегодня легко собрать, хранить, анализировать и представлять данные о каждом преступлении в отдельности, без агрегирования. Например, газета The New York Times составляет на своем сайте карту убийств в Нью-Йорке с 2003 г.: где произошло каждое убийство, кто убийца, кто жертва, какой мотив и орудие преступления. Эти данные корректируют поведение полиции (маршруты патрулирования) и жителей (цены квартир). ФБР публикует статистику преступлений на уровне почти каждого полицейского участка США c 1960-x. Только анализ микроданных, на уровне преступника или преступления, может объяснить преступность. Но агрегирование до регионального уровня стирает большинство скрытых связей из данных.
Россия уникальна в том, что в нашей стране все правоохранительные органы находятся в федеральном подчинении, что благоприятствует единой системе учета преступлений от полиции до суда. Уже сейчас МВД и Судебный департамент обладают лучшими в мире по качеству и объему микроданными о преступлениях и наказаниях. Наука анализа данных продвинулась достаточно далеко, чтобы заставить эти данные говорить. У Генпрокуратуры есть полномочия и ресурсы, чтобы составить детальнейшую картину преступности и ответа правоохранителей на нее. Осталось только научиться смотреть дальше АППГ.