В последние годы накопление «цифровых следов» радикально меняет социологию. Обработанные компьютером массивы текстов и графов позволяют выявлять социальные паттерны, которые раньше были недоступны. Как отмечают исследователи, «социальные сети являются уникальным источником данных о личной жизни и интересах», открывая беспрецедентные возможности для анализа общественного мнения и поведения. Такие современные методы как НЛП, тематическое моделирование, анализ социальных графов и байесовская каузальная аналитики позволяют агрегировать и обобщать данные сотен тысяч пользователей. При этом важно помнить об таких ограничениях как неструктурированные большие данные часто содержат шум и смещения, а алгоритмы требуют тщательной валидации.
По мнению Алексея Николаевича Чернякова, кандидата философских наук, доцент кафедры информационных технологий Факультета информационных технологий и анализа больших данных Финансового университета при Правительстве Российской Федерации, ИИ-инструменты служат социологам главным образом для выявления скрытых закономерностей и тенденций. Они дополняют традиционные методы сбора (опросы, интервью) возможностью масштабного мониторинга и прогнозирования. На основе машинного обучения можно проводить кластеризацию пользователей, выделять тематические «алгоритмические поля» интересов, оценивать настроения (sentiment analysis) и выстраивать сети коммуникаций. Например, в исследовании социального самочувствия петербуржцев тематическое моделирование на 0,5 млн постов социальной сети позволило выделить ключевые сферы городских тревог, а совмещённый анализ опросов и цифровых следов выявил локальные «точки напряжения» на карте города
ИИ-инструменты уже находят прикладные применения в аналитике общественных процессов. Ниже – лишь некоторые иллюстративные кейсы.
ИИ способен отслеживать зарождающиеся тренды в «шуме» соцсетей. Известен пример «BlueDot» – канадской платформы, обученной на глобальных новостях и неструктурированных данных (форумы, блоги) для мониторинга инфекций. В начале пандемии COVID-19 BlueDot предсказал вспышку коронавируса в Ухане 31 декабря 2019 года чем ВОЗ. Аналогично, проект HealthMap (Гарвард/Бостонская детская больница) сканирует в режиме онлайн «сообщения в соцсетях и блогах, чатах, интернет-запросы и прессу» на предмет признаков заболеваний. Это иллюстрирует возможности анализа происходящего практически в реальном времени.
Другим примером является раннее выявление протестных настроений населения. Группа учёных из США обучила нейросеть анализировать сообщения протестующих в Twitter и Facebook. Система сопоставляла смысл постов с официальной статистикой задержаний, выявляя закономерности перехода от онлайн-активности к реальным событиям. Например, «если участник акции протеста в социальных сетях очень активен, то растёт вероятность, что он найдёт единомышленников и перейдёт не просто к словам, а к действиям». Таким образом ИИ может сигнализировать о нарастании риска эскалации, давая органам власти шанс среагировать превентивно.
Социальные сети и ИИ позволяют аналитикам избирательных штабов персонализировать послания. Алгоритмы машинного обучения сегментируют электорат по взглядам и предсказывают поведение, что годами демонстрируют кейсы зарубежных выборных кампаний. Впрочем, как отмечено в сравнительном анализе, задачи ИИ в политике чаще связаны с оптимизацией административных процессов (оптимизация бюрократии, подбор кандидатов), чем с хитрыми «политтехнологиями». При этом в разных странах серьёзно варьируются регуляторные рамки. Одни вводят гибкие законы по ИИ, другие сталкиваются с вызовами этики и прозрачности его использования.
При всей перспективности ИИ-аналитики у неё есть существенные ограничения.
Социальные данные часто не репрезентативны. Пользователи соцсетей отличаются по возрасту, региону, характеру активности. Модели могут усилить существующие социальные предубеждения. Например, криминальные проявления, описанные в интернете, могут быть не пропорциональны реальности, и полагаться на них без осторожности опасно. Смещение присутствует и в языковых моделях. Они могут унаследовать предвзятости текстовых данных (классификация настроений иногда не учитывает ироничный контекст). Актуальные исследования подчёркивают, что сочетание опросов и цифровых следов позволяет уменьшить это смещение, но полностью проблему не решить.
При сборе социальных данных важно соблюдать законодательство о персональных данных (в России – ФЗ-152). Анализ часто затрагивает приватные высказывания людей. Невнимательность к приватности чревата правовыми и репутационными рисками для исследователя и организации. Этические нормы требуют анонимизации и согласия на использование данных. Кроме того, «чёрный ящик» многих нейросетей порождает проблему объяснимости. Нельзя применять модель к общественно значимым решениям, если невозможно внятно объяснить, как она пришла к выводу.
Выводы моделей всегда стоит проверять традиционными методами. Алгоритмический сигнал может быть ложным, так как в процессе обучения использовался шум соцсетей, спам или фейковые аккаунты. Поэтому требуется перекрёстная проверка. Например, стоит сравнивать ИИ-аналитику с независимыми опросами или официальной статистикой. Только так можно оценить валидность получаемых индикаторов.
Еще одним ограничением является регуляторные рамки. В разных странах подходы к регулированию ИИ различаются. Россия, как и Евросоюз, планирует ввести законы об ответственности алгоритмов и защите персональных данных. Социологи должны учитывать эти рамки. Некоторые данные (личные переписки, закрытые группы) могут оказаться вне закона для сбора и анализа. Как показывает опыт, игнорирование правовых требований ведёт к санкциям и нарушает доверие общества.
В заключение хочется отметить, что ИИ уже перестаёт быть просто технологией из «будущего». Он превращается в инструментарий современного социолога. При ответственном подходе и учёте описанных факторов алгоритмы действительно позволяют «понимать общество» глубже, чем когда-либо прежде.