Слишком хорошо ищут

Этим летом произошло сразу несколько громких утечек личных данных интернет-пользователей через поисковые системы. Поисковики и владельцы сайтов обвиняют в этом друг друга. А специалисты по безопасности советуют просто пореже публиковать в интернете данные
М.Стулов

В середине июля 2011 г. выяснилось, что «Яндекс» проиндексировал и показал в результатах поиска около 3000 sms-сообщений, отправленных абонентам «Мегафона» со специального сайта этого оператора. Первоначально это обнаружил один из пользователей Facebook, за считанные минуты информация распространилась по всему рунету.

Хотя sms-сообщения были анонимными и исчезли из поиска в течение нескольких часов, скандал разразился большой. Тем более что почти сразу дотошные пользователи обнаружили в «Яндексе», Google и Bing еще и подробные данные о заказах покупателей более 80 российских интернет-магазинов. Затем – закрытые документы госорганов, личные данные пользователей систем продажи железнодорожных билетов и много чего еще.

Найти персональные данные в поисковиках оказалось не сложно – для этого использовался язык поисковых запросов, подробно описанный на сайтах поисковиков. Например, чтобы обнаружить статусы заказов на сайтах интернет-магазинов, достаточно было ввести в поисковую строку запрос типа «inurl:ukey=order_status IP покупателя», а sms-сообщения абонентов «Мегафона» нашлись по запросу «url:www.sendsms.megafon.ru*+|+url:sendsms.megafon.ru*».

Кто виноват?

Обычно причина таких утечек – халатность людей, отвечающих за работу сайта компании-жертвы, говорит аналитик разработчика систем информбезопасности SearchInform Роман Идов. Поисковая система – это робот, который работает по заданному алгоритму: он не отличает конфиденциальную информацию от общедоступной, а просто индексирует все, что находится в открытом доступе, объясняет он.

Мнение аналитика совпадает с позицией поисковиков. После первой же истории с утечкой sms представитель «Яндекса» обвинил в проблеме администраторов сайта «Мегафона», не защитивших данные абонентов специальным файлом robots.txt. В этом файле обычно указываются ссылки на страницы, которые запрещено индексировать поисковым системам. По тем же причинам поисковикам стали доступны и данные посетителей онлайн-магазинов, утверждали представители «Яндекса», Google и Microsoft (владеет поисковиком Bing). «Яндекс» даже выпустил специальную инструкцию для веб-мастеров, как лучше защитить сайт от поискового робота. А Google вдобавок рекомендовала пользователям и владельцам сайтов не спешить размещать в сети конфиденциальную информацию. Если же утечка все-таки произошла и на каком-то сайте появились личные данные человека, Google предлагает сообщать ей об этом напрямую через специальную форму на сайте.

Июльскими утечками данных через поисковики заинтересовались и госструктуры. Правоохранительные органы пообещали провести проверки, а Роскомнадзор попросил поисковики найти возможность блокировать запросы, в ответ на которые раскрываются персональные данные людей. «Проработать такую возможность» пообещала одна Microsoft.

Борьба со ссылками

Microsoft и в самом деле решила проблему утечки персональных данных, утверждает ее представитель Александра Паришева: в результатах поиска Bing были заблокированы те страницы сайтов, на которых эти данные появились. Это было сделано по шаблону, показанному в поисковых результатах, уточняет она. В этом убедился корреспондент «Ведомостей»: по популярным запросам в результатах поиска Bing появляются лишь статьи на тему утечки данных.

«Яндекс» и Google по тем же запросам выдают гораздо больше информации, в том числе и ссылки на заказы пользователей в магазинах, содержащие их персональные данные. Но даже невооруженным взглядом видно, что таких ссылок стало намного меньше, чем в разгар скандала. Возможно, владельцы многих интернет-магазинов приняли защитные меры.

«Яндекс» получил от владельцев многочисленных сайтов просьбы удалить из результатов поиска личные данные с этих сайтов, рассказывает представитель поисковика Очир Манджиков. После этого он ускорил процесс синхронизации индекса с реальным содержанием интернета. Если владелец страницы добавил ее адрес через специальную форму в сервисе «Яндекс.Вебмастер», автоматический процесс удаления этого адреса из поиска занимает существенно меньше времени, чем раньше, – вплоть до нескольких минут.

Защита от поисковика

У многих магазинов, клиенты которых оказались засвечены в поисковиках, было нечто общее: на их сайтах был установлен код сервиса статистики «Яндекс.Метрика», заметили сотрудники компании Shop-Script, разрабатывающей ПО для интернет-магазинов. Установлен этот код был и на сайте «Мегафона» для отправки эсэмэсок. Обычно поисковики индексируют страницы по ссылкам, расположенным на сайтах. «Яндекс» же, по данным Shop-Script, проиндексировал в том числе те страницы, на которые можно было перейти только по прямым ссылкам из электронной почты.

Shop-Script предложил интернет-магазинам ввести авторизацию пользователей по фамилии. А «Яндекс» вовсе запретил роботам индексировать страницы, которые стали известны «Яндекс.Метрике» в обход традиционной схемы ссылок на сайтах. Но это не значит, что поисковик никогда не узнает о той или иной странице, заверяет Манджиков: информация может попасть в открытый доступ многими способами, а четких и абсолютно точных критериев автоматического определения ее содержания и разграничения данных на открытые и закрытые нет.