Файл robots.txt

Fima Korolev

Файл robots.txt

 

Правильный файл robots.txt

 

Файл robots.txt – представляет собой текстовый документ, который лежит в «корне» сайта и указывает поисковым роботам, что им можно индексировать, а что нет. Так же в нем прописывается главное зеркало сайта, рекомендуемый временной интервал между индексированием страниц сайта и т.д.

Поисковой робот, он же краулер (от англ. crawler) — это специальная программа, которая являющаяся одной из основных частей поисковых алгоритмов. Главной задачей краулера является обход страниц
интернета, их скачивание и занесение в базу данных поисковика. По простому поисковый робот представляет обычный браузер, который просматривает страницы, информацию из них переносит сервер своей
поисковой системы, и идет дальше по внутренним ссылкам на другие страницы сайта. Глубина просмотра сайта у краулера обычно ограничена.

Если вы используете WordPress, то пример файла robots.txt будет выглядеть так:

User-Agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/

«User-Agent: *» — означает, что все поисковые боты (от Google, Yandex, Yahoo, MSN и т.д.) должны использовать эти инструкции для обхода вашего сайта. Если ваш сайт является сложным вам нужно будет
устанавливать разные инструкции для разных пауков. Вы можете прописывать инструкции и под каждого робота в отдельности (актуально для робота Яндекса с их директорией «HOSTS:…», где вместо точек имя главного зеркала сайта). Для разных поисковых ботов существуют свои имена:

  • robots.txt для Гугла — User-agent: Googlebot
  • robots.txt для Рамблера — User-agent: StackRambler
  • robots.txt для Яндекса — User-agent: Yandex
  • robots.txt для Yahoo — User-agent: Slurp или Yahoo! Slurp
  • robots.txt для MSN — User-agent: MSNBot

 

«Disallow: / WP-» — означает, что поисковые системы не будут сканировать файлы WordPress, т.е. исключить все файлы и папки, начинающиеся с «WP-» из индексации.
Если вы не используете WordPress или Joomla и не хотите, чтобы инднксировались некоторые папки и файлы них, просто укажите их в строке Disallow, например:

User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
Disallow: / любой другой папки, которые следует исключить /

После того как вы создали файл robots.txt, его нужно просто загрузить в корневой каталог вашего сайта !


2 комментария »

  1. Сергей:

    Правильно составленный роботс — залог успеха. Yahoo лучше ограничить по скорости.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Что-то типа КАПЧИ :) *