Как убрать дубли страниц на сайте через robots.txt

Fima Korolev

Как убрать дубли страниц на сайте через robots.txt

Всем привет! Сегодня хочу поговорить про дубликаты страниц на сайте. Дубликаты страниц – это абсолютно одинаковые по содержимому контенту страницы на сайте, но имеющие разные URL. Поисковики индексируют эти страницы, как две разные. так как адреса у них отличаются. А, как вам известно, это будет являться не уникальным контентом, который в свою очередь приведет к понижению доверия поисковика и понижению позиций сайта. Рассмотрим один, из многочисленных способов удаления дубликатов страниц из поиска.

Как убрать дубли страниц на сайте через robots.txt

Для того чтобы убрать дубли страниц с помощью robots.txt первое, что требуется – настроить данный файл. Он лежит в корневой директории вашего сайта. Если же такой файл не находится, то его требуется создать. Именно с него поисковики считывают информацию о том, как индексировать сайт.

В Robots содержится нужная для поисковых ботов информация, а именно перечень страниц, которые можно посещать, какие нельзя, какой основной домен сайта, где находится карта сайта и так далее.

Как создать robots?

Создать такой файл – просто. Достаточно сделать .txt документ с названием «robots» и загрузить его в корень сайта. В файле нужно прописать такие данные, как: User-agent, Allow, Disallow, Host. Пример:

Ну это необходимые вещи. А можно ещё путь к xml карте сайта прописать…

User-agent содержит информацию о поисковиках, для которых указывались правила. Allow указывает список тех адресов, которые разрешены для индексации. Disallow – обозначает перечень запрещенных для индексации адресов. Host поведает поисковой системе, какой домен у сайта является основным, с www или без, например.

Рекомендую к прочтению:  Сайт не оптимизирован для мобильных устройств

Да, это считается? как два разных домена. При регистрации домена одновременно фиксируется и его зеркало. С технической стороны это выглядит, как два разных домена, но с одинаковым содержанием, поэтому нужно указать какой из них главный, а какой зеркальный. Таким образом, поисковая система, посетив зеркало\robots.txt и расшифрует, что это и есть дополнительный домен.

Удаление дублей с помощью robots.txt

Ну вот, robots.txt сделали. Следующим шагом стает непосредственное удаление дублей с сайта. Конкретные действия можно сказать, зная хотя бы, какой у вас движок, да и этого мало, если честно, надо знать адрес сайта.

А как же тогда? Да всё просто. Вы подумайте, какие страницы на сайте в у вас дублируются, где дублируются части контента. Часто бывает, что это всякие теги, архивы по дате, архивы по авторам и так далее. Подумав и обнаружив подобные страницы, закройте их от индексации в файле robots, прописав Disallow: /stranica.

Если есть какие непонятки – спрашивайте в комментариях. Порешаем.

TEXT.RU - 100.00%


-->

Нет комментариев »

Еще нет комментариев.

Оставить комментарий

Ваш email не будет опубликован. Обязательные поля отмечены *

Что-то типа КАПЧИ :) *

Вы можете использовать это HTMLтеги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">