15.07.2020
Как убрать дубли страниц на сайте через robots.txt

Как убрать дубли страниц на сайте через robots.txt

Последнее обновление

Всем привет! Сегодня хочу поговорить про дубликаты страниц на сайте. Дубликаты страниц — это абсолютно одинаковые по содержимому контенту страницы на сайте, но имеющие разные URL. Поисковики индексируют эти страницы, как две разные. так как адреса у них отличаются. А, как вам известно, это будет являться не уникальным контентом, который в свою очередь приведет к понижению доверия поисковика и понижению позиций сайта. Рассмотрим один, из многочисленных способов удаления дубликатов страниц из поиска.

Как убрать дубли страниц на сайте через robots.txt

Для того чтобы убрать дубли страниц с помощью robots.txt первое, что требуется – настроить данный файл. Он лежит в корневой директории вашего сайта. Если же такой файл не находится, то его требуется создать. Именно с него поисковики считывают информацию о том, как индексировать сайт.

В Robots содержится нужная для поисковых ботов информация, а именно перечень страниц, которые можно посещать, какие нельзя, какой основной домен сайта, где находится карта сайта и так далее.

Как создать robots?

Создать такой файл – просто. Достаточно сделать .txt документ с названием «robots» и загрузить его в корень сайта. В файле нужно прописать такие данные, как: User-agent, Allow, Disallow, Host. Пример:

User-agent: *
Allow: /
Disallow: /tag
Host: seo-infa.ru

Ну это необходимые вещи. А можно ещё путь к xml карте сайта прописать…

User-agent содержит информацию о поисковиках, для которых указывались правила. Allow указывает список тех адресов, которые разрешены для индексации. Disallow – обозначает перечень запрещенных для индексации адресов. Host поведает поисковой системе, какой домен у сайта является основным, с www или без, например.

Да, это считается? как два разных домена. При регистрации домена одновременно фиксируется и его зеркало. С технической стороны это выглядит, как два разных домена, но с одинаковым содержанием, поэтому нужно указать какой из них главный, а какой зеркальный. Таким образом, поисковая система, посетив зеркало\robots.txt и расшифрует, что это и есть дополнительный домен.

Удаление дублей с помощью robots.txt

Ну вот, robots.txt сделали. Следующим шагом стает непосредственное удаление дублей с сайта. Конкретные действия можно сказать, зная хотя бы, какой у вас движок, да и этого мало, если честно, надо знать адрес сайта.

А как же тогда? Да всё просто. Вы подумайте, какие страницы на сайте в у вас дублируются, где дублируются части контента. Часто бывает, что это всякие теги, архивы по дате, архивы по авторам и так далее. Подумав и обнаружив подобные страницы, закройте их от индексации в файле robots, прописав Disallow: /stranica.

Если есть какие непонятки – спрашивайте в комментариях. Порешаем.

TEXT.RU - 100.00%

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *