Файл robots.txt

Fima Korolev

Файл robots.txt

 

Правильный файл robots.txt

 

Файл robots.txt – представляет собой текстовый документ, который лежит в “корне” сайта и указывает поисковым роботам, что им можно индексировать, а что нет. Так же в нем прописывается главное зеркало сайта, рекомендуемый временной интервал между индексированием страниц сайта и т.д.

Поисковой робот, он же краулер (от англ. crawler) – это специальная программа, которая являющаяся одной из основных частей поисковых алгоритмов. Главной задачей краулера является обход страниц
интернета, их скачивание и занесение в базу данных поисковика. По простому поисковый робот представляет обычный браузер, который просматривает страницы, информацию из них переносит сервер своей
поисковой системы, и идет дальше по внутренним ссылкам на другие страницы сайта. Глубина просмотра сайта у краулера обычно ограничена.

Если вы используете WordPress, то пример файла robots.txt будет выглядеть так:

User-Agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/

“User-Agent: *” – означает, что все поисковые боты (от Google, Yandex, Yahoo, MSN и т.д.) должны использовать эти инструкции для обхода вашего сайта. Если ваш сайт является сложным вам нужно будет
устанавливать разные инструкции для разных пауков. Вы можете прописывать инструкции и под каждого робота в отдельности (актуально для робота Яндекса с их директорией “HOSTS:…”, где вместо точек имя главного зеркала сайта). Для разных поисковых ботов существуют свои имена:

  • robots.txt для Гугла – User-agent: Googlebot
  • robots.txt для Рамблера – User-agent: StackRambler
  • robots.txt для Яндекса – User-agent: Yandex
  • robots.txt для Yahoo – User-agent: Slurp или Yahoo! Slurp
  • robots.txt для MSN – User-agent: MSNBot

 

“Disallow: / WP-” – означает, что поисковые системы не будут сканировать файлы WordPress, т.е. исключить все файлы и папки, начинающиеся с “WP-” из индексации.
Если вы не используете WordPress или Joomla и не хотите, чтобы инднксировались некоторые папки и файлы них, просто укажите их в строке Disallow, например:

Рекомендую к прочтению:  Сравнение сервисов Wizard.Sape и SeoPult

User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
Disallow: / любой другой папки, которые следует исключить /

После того как вы создали файл robots.txt, его нужно просто загрузить в корневой каталог вашего сайта !


-->

2 комментариев »

  1. Сергей:

    Правильно составленный роботс – залог успеха. Yahoo лучше ограничить по скорости.

Оставить комментарий

Ваш email не будет опубликован. Обязательные поля отмечены *

Что-то типа КАПЧИ :) *

Вы можете использовать это HTMLтеги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">