Матрикснет

 

Сегодня Рунет – один из наиболее активно развивающихся сегментов всемирной паутины. Взрывной рост количества страниц в сети требует от поисковых систем разработки все новых алгоритмов ранжирования, способных поддерживать качественную выдачу, несмотря на многократно увеличивающиеся объемы информации. Надо признать, что не все отечественные разработки справляются с этой задачей. Достаточно вспомнить судьбу некогда популярных поисковиков  Ramblerи Aport, в короткие сроки утративших доверие пользователей из-за неадекватной выдачи и большого количества спама.

 

Можно сказать, что среди отечественных поисковых систем на текущий момент только Яндекс благополучно преодолел этот информационный кризис благодаря разработке новой успешной технологии. Основной  акцент в ней был сделан на резком увеличении количества обрабатываемых факторов, что обеспечило качество выдачи на прежнем, докризисном уровне. С ноября 2009 г. в действие был введен алгоритм «Снежинск», который полностью изменил систему ранжирования Яндекса. Теперь вместо прежней формулы расчета релевантности документов используется система машинного обучения Матрикснет, способная анализировать тысячи факторов. Однако в дополнение к машинному ранжированию коэффициенты важности этих факторов присваиваются только с учетом оценки асессорами. Как показывает практика, подобный подход полностью оправдал себя, сделав выдачу более релевантной.

 

Алгоритм действия Матрикснет

 

Прежде всего каждая веб-страница описывается как можно большим количеством признаков. Задача ранжирования этих признаков по степени важности доверена машинному алгоритму, поскольку человеческий «здравый смысл» не всегда может адекватно оценить истинное положение вещей. Машинный алгоритм обрабатывает определенную выборку документов, уже распределенных живыми людьми (асессорами) по степени соответствия поисковому запросу. Машина же находит общие признаки у наиболее релевантных страниц и на их основе выстраивает систему правил. Автоматический машинный анализ позволяет отранжировать миллионы страниц за очень короткие сроки, что намного превосходит человеческие возможности.

 

Группа сотрудников Яндекса смогла оптимизировать для задач поискового ранжирования алгоритм машинного обучения TreeNet. Стоит заметить, что на сегодняшний день в архитектуре любых поисковых систем используются методики двух основных «школ» машинного обучения: Boosting (метод TreeNet) и SVM (support vector machines). Метод SVM позволяет очень быстро проводить обсчет, но жестко ограничена по количеству признаков в пределах нескольких сотен. Это создает значительные неудобства, когда количество необходимых признаков исчисляется тысячами. Метод TreeNet в свою очередь может вести обсчет по тысячам различным критериям, но требует очень много машинного времени. Что также неприемлемо для современных алгоритмов. Сотрудникам Яндекса удалось добиться значительного ускорения обработки за счет ряда усовершенствований: использование матричного принципа, приема в работу каждого примера, кластеризации, устойчивых правил. Приемы, используемые Матрикснетом, позволяют быстро анализировать документы по тысячам критериев. Ранжирование осуществляется по очень сложной формуле объемом в 280 мегабайт.  

 

Для обработки поискового запроса Яндекс использует поиск по типу пирамиды: сначала из общего числа выбирается некоторое ограниченное количество документов, соответствующее базовым критериям – «кворум». На этой стадии отсев происходит по уровню содержания простейших ключевых слов. Однако полученная выборка все равно остается чрезмерно объемной и требует дальнейшего уточнения. Поэтому ее сокращают до размера, который формула Матрикснета способна обработать за установленное время для одного запроса. Для этого проводится отбор по статическим параметрам: траст, стандартный вес и тому подобное. Полученные результаты уже передаются на ранжирование целостной формулой. Стоит отметить, что на практике выдача по наиболее распространенным запросам не обсчитывается каждый раз, поскольку она кэшируется серверами среднего уровня.

 

Полученное в результате предварительного анализа ограниченное количество документов передается на вход Матринекса с целью окончательного ранжирования. После прохождения полного алгоритма на выходе получается матрица документов с присвоенными им «числовыми значениями релевантности», то есть каждый документ проходит по тысячам деревьям алгоритма. Достижением команды Яндекса здесь является математическая балансировка, позволяющая.значительно ускорить вычисления.

 

Переход от теории к практике или как оптимизировать сайт под Матрикснет.

 

Пожалуй, можно с уверенностью сказать, что какой-либо единой определенной методики, гарантированно приводящей к успеху здесь не существует. Поэтому можно вести речь только об основных практических рекомендациях. И первой из них будет уже всем знакомое и привычное пожелание делать качественные сайты с уникальным дизайном, наполненные оригинальным контентом. Однако помимо высокого качества сайта, которое предполагается само собой, стоит обратить внимание на следующие моменты:

- ориентироваться на характеристики сайтов- лидеров ТОП10 по заданным запросам;

 

В качестве итога можно сделать вывод, что в современных условиях опираться только на теорию оптимизации сайтов уже невозможно. Необходимо самостоятельно искать сочетания критериев, которые позволяют сделать страницу релевантной с точки зрения алгоритма поисковой системы и вывести ее в ТОП10.