«Мегафон» помог «Яндексу» найти всё

Итак, 18 июля стало общеизвестно, что поиск «Яндекса» выдает номер получателя и текст порядка 3000 sms, отправленных пользователями интернета на номера абонентов «Мегафона» с его сайта примерно с 7 по 13 июля. Как выяснилось, «Яндекс» проиндексировал страницы с адресом типа sendsms.megafon.ru/send/status/9F67CB016754DF2D/, на которых отображался номер телефона, текст сообщения и статус – доставлено / не доставлено. Причем текст sms-сообщения был виден только в результатах поиска «Яндекса» – при переходе на страницу «Мегафона» страница оказывалась пустой.

За последние несколько дней слоган «Яндекс – найдется все» превратился в своего рода disclaimer, отказ от ответственности. К слову говоря, ответственность за инцидент с sms оператор с поисковиком достаточно бодро перевешивают друг на друга, хотя косвенные признаки свидетельствуют, что этот epic fail - на совести обоих участников. Попробуем разобраться.

В тот же день «Яндекс» выдал собственное объяснение проблемы, которое оказалось сколь простым, столь и неполным. Мол, на сайте «Мегафона» отсутствовал файл robots.txt, который должен запрещать роботам индексировать ту или иную часть сайта. А поскольку робот «Яндекса» не увидел этого файла, то он решил, что эти страницы открыты для индексирования.

Тут надо отметить, что обращать или не обращать внимание на файл robots.txt, решает исключительно программист, создавший робота. Просто когда-то большинство поисковых систем согласились следовать этим инструкциям. Но этот файл не закрывает страницу для робота, а всего лишь сообщает ему, что ее индексировать не надо. То есть степень защиты личных данных с помощью этого файла примерно равна степени защиты таблички «Вход запрещен» на двери. Реальная защита обеспечивается с помощью той самой плохо подбираемой комбинации из 16 знаков в адресной строке. При отправке sms c сайта, пользователь перенаправляется на страницу с этим адресом. Эта комбинация известна только браузеру пользователя и базе данных с отправленными sms на сайте «Мегафона». Поэтому фраза из пресс-релиза «Яндекса», что «Яндекс индексирует только открытую часть интернета — те страницы, которые доступны при переходе по ссылкам», в данном случае является лукавством, так как ссылок на эти страницы с других публичных страниц не существует.

Как же «Яндекс» получил эти адреса? Существует два варианта – либо эти адреса отправил ему браузер пользователя, либо сама страничка. У «Яндекса», кроме поиска, есть еще другие программы, такие как «Яндекс.Бар» и «Яндекс.Метрика».

«Яндекс.Бар» устанавливается как бесплатное дополнение к браузеру пользователя и имеет массу сервисов. Например, сервис «Отзывы о странице» - заходя на страницу в интернете ты можешь узнать, как о ней отзывались в блогах и на форумах другие пользователи. В пользовательском соглашении (которое никто обычно не читает) говорится, что этот сервис, если его не отключить, передает «Яндексу» анонимную информацию «о просматриваемой странице и загружаемых файлах». По умолчанию он, конечно же, включен.

«Яндекс.Метрика» устанавливается в виде куска программы на страницах сайта и позволяет вести развернутую статистику его посещений. На сайте «Мегафона» для отправки sms «Яндекс.Метрика» стояла. Надо сказать, что «Метрика», как и поисковый сервис, пользуется роботом. И чтобы разрешить ей обсчитывать страницы, закрытые для индексации поисковику, нужно вписать в файл robots.txt соответствующее исключение. То есть наша надпись на двери будет выглядеть так «Вход запрещен всем, кроме Васи». В пользовательском соглашении «Метрики», к слову, тоже написано, что ее код «собирает анонимные данные о посещениях сайта и передает их Яндексу для получения обобщенной статистической информации, доступной для дальнейшего использования как Пользователю, так и Яндексу». Передается ли она поисковому роботу, не указано, но пользователи пишут, что установка «Метрики» ускоряет индексацию страниц поисковым роботом. Кстати, «Метрика» также бесплатна.

Таким образом, информацию об адресах страничек с текстами sms «Яндекс» теоретически мог получить как от той, так и от другой программы, причем вполне легально. Как, кстати, и Google – у того есть аналогичные сервисы Google Bar и Google Analitics (тоже установлен на сайте «Мегафона»). Поэтому неудивительно, что в поиске Google страницы с такими адресами тоже есть (правда текста sms нет даже в кэше Google).

Конечно, получив адрес, робот должен был первым делом поинтересоваться у robots.txt, можно ли эту страницу индексировать. Но была ли установлена эта проверка при получении адреса столь необычным путем, неизвестно. Как неизвестно, был ли установлен на сайте «Мегафона» файл robots.txt в нужном формате. В информации о нынешнем файле написано, что последний раз он изменялся (или был создан) 18 июля в 13.55, то есть через несколько часов после начала скандала. Возможно, до того момента с этим файлом в самом деле могла быть какая-то проблема. Но интересно, что Google выдает ссылки на страницы с подобными адресами, датированные не только июлем, но также июнем и маем 2011 г. То есть раньше, чем их начал индексировать «Яндекс». К слову, веб-мастера на форумах упоминают ситуации, когда поисковые системы все же по каким-то причинам индексируют страницы, запрещенные для индексации в robots.txt.

Таким образом, очевидно, что система защиты «Мегафона» не сработала, столкнувшись с изменившимися обстоятельствами. Очевидно также, что «Яндекс», изощряя механизмы и способы поиска, зашел слишком глубоко за черту, за которой начинается личная жизнь. Наверное, сейчас уже не так важно, как именно личная переписка попала в базу данных «Яндекса». Но симтоматично, что координаты бесплатного сыра вновь совпали с координатами мышеловки. Уж сколько раз твердили миру...