ASTR172,45-0,09%CNY Бирж.11,619+2,19%IMOEX2 348,15-0,07%RTSI945,09-0,73%RGBI113,43-0,33%RGBITR754,84-0,29%

Экономисты ВШЭ научились прогнозировать рождаемость по поисковым запросам

Сотрудники факультета экономических наук НИУ ВШЭ показали, что точность прогноза рождаемости в России можно улучшить почти в полтора раза, если добавить в модель динамику поисковых запросов по темам, связанным с беременностью и родами. В наиболее эффективных моделях ошибка прогноза снижается с 4,6 до 3,2%. Результаты исследования опубликованы в журнале Populations and Economics.

Повышение рождаемости и поддержка семьи остаются одними из приоритетов государства. Прогнозирование рождаемости позволяет рассчитать необходимое количество детских садов, школ, обеспечить людей инфраструктурой, предсказать состояние рынка труда и долгосрочные социальные расходы.

Сотрудники факультета экономических наук НИУ ВШЭ Лилия Родионова и Елена Копнова вместе с аспирантами Никитой Родионовым и Светланой Камелендиновой использовали поисковые запросы в качестве одного из предикторов рождаемости. По мнению авторов, изучение поведения пользователей в интернете, в частности анализ цифровых поисковых запросов, может выступать значимым источником данных и одним из предикторов демографических процессов, включая рождаемость.

Ученые проанализировали ежемесячные данные Росстата о числе родившихся в России с 2011 по 2024 год. Эту статистику сопоставили с динамикой поисковых запросов Google Trends, которая демонстрирует относительное изменение поискового интереса к тематике запросов. Наибольшее число поисков за определенный период времени поисковая система принимает за 100 пунктов и показывает, как менялась популярность запроса относительно этого максимума. Для исследования авторы собрали корпус из 56 слов, которые с помощью методов машинного обучения разделили на четыре смысловых блока: планирование беременности, течение беременности, подготовка к родам и универсальные запросы. Для анализа использовалась модель SARIMA, которая учитывает динамику рождений вне зависимости от сезонности.

На горизонте 1 год стандартная модель показала среднюю ошибку прогноза 4,62%, что в абсолютных числах составило около 4,6 тыс. на 100 тыс. рождений.

Добавление поисковых данных в модель снизило ошибку с 4,62 до 3,2%.

«Наиболее эффективным блоком запросов оказался “Подготовка к родам”. Можно предположить, что такие запросы, как “роддом”, “сумка в роддом”, чаще совершают женщины, которые уже знают о своей беременности и активно готовятся к предстоящим родам. Это делает их четким и надежным предиктором для краткосрочного прогноза», — объясняет доцент факультета экономических наук НИУ ВШЭ Лилия Родионова.

При этом наиболее сильный эффект был заметен после учета временного фактора (лагов) в поисковых запросах. По предположению авторов, пользователи обычно ищут материалы о течении беременности заранее. А поиск по запросам «сумка в роддом» или «дыхание при родах», наоборот, осуществляется незадолго до поездки в больницу. Эти запросы указывают также на близость рождения ребенка. Так, блок «планирование беременности» находит отражение в модели через 7,4 месяца, а блок «подготовка к родам» — уже через 6.

При увеличении срока прогнозирования лучше всего себя показала модель с использованием всех блоков запросов и временных интервалов. При горизонте 2 года ошибка снизилась до 2,7%, а 3 года — до 2,6%.

«Модель тестировалась на данных за период до декабря 2024 года, который включал в себя и пандемию COVID-19, и начало геополитической нестабильности. Высокая точность прогнозов на контрольном периоде, который включал кризисные годы, свидетельствует о высоком потенциале модели», — говорит Лилия Родионова.

Другие пресс-релизы