«Яндекс» запустил новый поиск

Алгоритм «Королев» находит веб-страницы не по заголовкам, а по смыслу текста
«Яндекс» - крупнейшая интернет-компания в России/ М. Стулов/ Ведомости

Поиск «Яндекса» теперь работает по новому алгоритму «Королев», объявила компания. Этот алгоритм работает на основе нейронных сетей. Компания назвала алгоритм в честь советского конструктора Сергея Королева.

Поисковые системы, объясняет «Яндекс» в своем блоге, по-прежнему опираются на слова, то есть ищут максимально точное соответствие слов в запросе пользователя и в тексте на той или иной веб-странице. Но человек знает, что один и тот же смысл можно выразить разными словами. Веб-страница может не содержать всех слов из поискового запроса, но лучше всего на него отвечать, пишет «Яндекс»: «Однако объяснить это машине довольно сложно».

Первый шаг к поиску по смыслу компания сделала год назад запустив алгоритм «Палех», указано в блоге. Как и «Королев», этот алгоритм использует нейронные сети. С помощью таких сетей «Палех» переводил заголовки веб-страниц из слов из группы чисел и проделывал то же самое со словами в поисковых запросах. Во многомерном цифровом пространстве такие группы чисел выстраиваются в скопления – семантические векторы. Семантические векторы формируются в процессе обучения поисковика – он видит, какие результаты выдачи устраивают пользователя и какие – нет. Так, запрос «фильм про человека который выращивал картошку на другой планете» оказывался в таком пространстве ближе к веб-странице про фильм «Марсианин», чем к странице с календарем посадки картошки.

Но если «Палех» с помощью нейронных сетей искал связи только между словами в поисковых запросах и в заголовках веб-страниц, то «Королев» сравнивает векторы запросов и содержимого веб-страниц целиком. Нагрузка на поиск сильно выросла. Если через «Палех» на финальном этапе анализа запроса проходило всего 150 документов, пишет «Яндекс», то в «Королеве» - это уже 200 000 документов. Новый алгоритм не только сравнивает текст веб-страницы с поисковым запросом, но и обращает внимание на другие запросы, по которым люди приходят на эту страницу, указывает компания: «Так можно установить дополнительные смысловые связи».

Главный конкурент «Яндекса» также активно использует нейронные сети для развития поиска. Как писал в конце прошлого года Wired, специалисты Google работают над тем, чтобы искусственный интеллект (AI) лучше распознавал смысл запросов. К примеру, понимал, что в поисковом запросе «how long is totem» (можно перевести как «сколько длится тотем») речь, скорее всего, идет о шоу «Тотем» от «Цирк лю Солей». Для обучения поиска Google понадобились не только нейронные сети, но многочисленные профессора и доктора по лингвистике, указывает Wired. Прошлой весной поиск в Google возглавил Джон Джаннандреа, который до этого занимался в этой компании развитием AI.

«Яндекс» - крупнейшая интернет-компания в России. Его поиск традиционно доминировал в рунете, хотя последние годы Google постепенно отъедает долю этого рынка у «Яндекса». Так, по статистике LiveInternet, в июле 2017 г. «Яндекс» получил 51% поисковых запросов в рунете,Google – 44%. В январе их доли составляли 55,4% и 38,6% соответственно. Доля на поисковом рынке – принципиальный вопрос для обеих компаний. Большую часть выручки они зарабатывают на рекламе в результатах поиска. И чем больше аудитория поискового сервиса, тем больше рекламы компания может продать.