"Магадан" окончательно поселился по адресу www.yandex.ru. В новую поисковую программу добавлено множество улучшений, например:
- немного умнее определяется, что такое слово -- например, "C++" и "Европа+" теперь ищутся как единое целое (по ним не находятся слова "C" и "Европа")
- в поиске, кроме слов из текста страницы, участвуют перевод и транслитерация частей URL. Благодаря этому поиск понимает, что "mail" -- это "почта", а "bmw" -- это "бмв",
- увеличена обучающая выборка для статистического морфологического анализатора, что повысило точность распознавания фамилий и географических названий.
В новой программе улучшена скорость поиска по запросам, по которым находится большое число документов. Для этого мы применили технику под названием "прюнинг". Время поиска сократилось за счет появления еще одной стадии поиска -- на ней отсекаются заведомо нерелевантные документы.
Как это происходит? В формулу ранжирования, которая определяет релевантность страниц, входит множество факторов, как зависящих от запроса, так и статических по отношению к нему (они характеризут страницу или сайт, а не пару "страница-запрос"). На стадии прюнинга на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу. Если вероятность низкая, документ дальше не анализируется.
По таким запросам как [новости] и [жж] время поиска было сокращено в десятки раз. При этом ускорение поиска было достигнуто без всякого ухудшения его качества.
yandex.ru