Некоторые считают, что роботы поисковых систем передвигаются по сети, как пауки по паутине. На самом деле поисковой робот (он же crawler) не «передвигается», а скачивает страницы сайтов и заносит информацию о них в базу данных поисковой системы. Индексация скрывает в себе немало нюансов, поэтому и роботов существует несколько. Предлагаю обсудить прямо сейчас некоторых роботов, которые трудятся для любимой мною отечественной системы Яндекс.
Основной робот, отвечающий за индексацию
Чтобы принимать участие в поиске, сайт должен быть проиндексирован. Соответственно, чтобы сайт в полной мере попал в базу системы, его страницы должен проиндексировать основной робот. В логах он представляется как
Быстробот
Если в индексе только часть страницы, например, заголовок, либо попали две аналогичные страницы – значит, работал быстробот. Быстрый робот, как и основной, отвечает за индексацию страниц.
Краулер, отвечающий за зеркала
Пресловутый робот-зеркальщик, отвечающий за индексацию зеркал сайта. Именно этот робот определяет, какое зеркало является главным, и именно оно будет участвовать в поиске. Управлять зеркальщиком можно через файл robots.txt, прописав директиву: Host: главноезеркало.ру или ввв.главноезеркало.ру. Данный способ не является панацеей, поэтому, для пущей уверенности можно настроить перенаправление на главный сайт, однако это уже тема для отдельной статьи. Зеркальщик представляется влогах как:
Робот, индексирующий иконки сайта
Я результатах поиска системы Яндекс отображаются уникальные иконки сайтов(favicon). За индексацию этих элементов отвечает специальный краулер, его можно вычислить в логах сервера примерно по такой строчке:
Индексация картинок
На любом сайте есть определенные изображения, за индексацию которых отвечает в Яндексе отдельный краулер. Этого бота можно вычислить в логах по строке:
Это далеко не полный список. Управление индексацией сайта может осуществляться при помощи правильного составления файла robots.txt. Как правильно составить данный файл, я расскажу в следующих статьях.