Вся правда о роботах Яндекса

Некоторые считают, что роботы поисковых систем передвигаются по сети, как пауки по паутине. На самом деле поисковой робот (он же crawler) не «передвигается», а скачивает страницы сайтов и заносит информацию о них в базу данных поисковой системы. Индексация скрывает в себе немало нюансов, поэтому и роботов существует несколько. Предлагаю обсудить прямо сейчас некоторых роботов, которые трудятся для любимой мною отечественной системы Яндекс.

Основной робот, отвечающий за индексацию

Чтобы принимать участие в поиске, сайт должен быть проиндексирован. Соответственно, чтобы сайт в полной мере попал в базу системы, его страницы должен проиндексировать основной робот. В логах он представляется как Yandex/1.01.001 (compatible; Win16; I). Чтобы добавить новый сайт на индексацию, достаточно воспользоваться формой add url в Яндекс вебмастер . При этом в первую очередь сайт будет посещен не основным индексатором, а специальным ботом, которые представляется в логах примерно следующим образом: Yandex/1.03.003 (compatible; Win16; D)

Быстробот

Если в индексе только часть страницы, например, заголовок, либо попали две аналогичные страницы – значит, работал быстробот. Быстрый робот, как и основной, отвечает за индексацию страниц.

Краулер, отвечающий за зеркала

Пресловутый робот-зеркальщик, отвечающий за индексацию зеркал сайта. Именно этот робот определяет, какое зеркало является главным, и именно оно будет участвовать в поиске. Управлять зеркальщиком можно через файл robots.txt, прописав директиву: Host: главноезеркало.ру или ввв.главноезеркало.ру. Данный способ не является панацеей, поэтому, для пущей уверенности можно настроить перенаправление на главный сайт, однако это уже тема для отдельной статьи. Зеркальщик представляется влогах как: Yandex/1.01.001 (compatible; Win16; H).

Робот, индексирующий иконки сайта

Я результатах поиска системы Яндекс отображаются уникальные иконки сайтов(favicon). За индексацию этих элементов отвечает специальный краулер, его можно вычислить в логах сервера примерно по такой строчке: Yandex/1.02.000 (compatible; Win16; F)

Индексация картинок

На любом сайте есть определенные изображения, за индексацию которых отвечает в Яндексе отдельный краулер. Этого бота можно вычислить в логах по строке: Yandex/1.01.001 (compatible; Win16; P) .

Это далеко не полный список. Управление индексацией сайта может осуществляться при помощи правильного составления файла robots.txt. Как правильно составить данный файл, я расскажу в следующих статьях.

15ИюлВся правда о роботах Яндекса