Настройка файла индексации robots.txt

Список существующих ботов/роботов

http://www.robotstxt.org/db.html

 

Проверка синтаксиса и структуры файла robots.txt

Yandex

https://webmaster.yandex.ua/robots.xml

Google

Webmaster tool->Сканирование->Инструмент проверки файла robots.txt

https://support.google.com/webmasters/answer/6062598?hl=ru

 

Директивы файла robots.txt

— означает, что правила, приведенные ниже, будут действовать для всех поисковиков.

 — разрешено индексировать.

— запрещено индексировать.

 — обязательно нужно указать основное зеркало. Ваш сайт открывается по двум адресам: с www и без www. Эта строчка может быть расположена в любой части файла поисковых систем один и тот же сайт с www и без www совсем абсолютно разные сайты. Но, поняв, что содержимое этих сайтов одинаковое, поисковики “склеивают” их. Поэтому важно прописать главное зеркало сайта в robots.txt.

 — ссылка на XML-карту сайта. Если файлов с XML-картами несколько, пропишите путь к каждому из них.

Регулярные выражения: звездочка

 — означает произвольную последовательность символов.

Примеры использования директив файла robots.txt

 

Запрет индексации сайтов для всех ботов

 

Разрешить доступ только одному боту Google

 

Запретить доступ всем ботам к определенным частям сайта

 

Запретить доступ всем ботам к определенным файлам

 

Allow: имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

 

 

Расширенный стандарт, включающий дополнительные директивы(поддерживается не всеми поисковыми роботами)

Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.

Установка разной задержки индексирования в зависимости от бота

Пример файла robots.txt для сайтов с WordPress

Для сайта Wwordpress БЕЗ человеко-понятных url (ЧПУ)

 

 

Для сайта WordPress С человеко-понятными url (ЧПУ)

 

 

Источник:

https://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml

https://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%80%D1%82_%D0%B8%D1%81%D0%BA%D0%BB%D1%8E%D1%87%D0%B5%D0%BD%D0%B8%D0%B9_%D0%B4%D0%BB%D1%8F_%D1%80%D0%BE%D0%B1%D0%BE%D1%82%D0%BE%D0%B2

https://support.hostpro.ua/index.php?/Knowledgebase/Article/View/285/31/prichiny-nagruzki-na-server-so-storony-poiskovyh-sistemhttp://www.webhostingbuzz.com/wiki/robots-txt/

http://pro-wordpress.ru/chast-2-raskrutka-bloga/pravilnyj-robots-txt-dlya-wordpress.php

http://wpnew.ru/raskrutka-bloga/seo_optimizaciya/fajl-robots-txt-pravilnyj-primer-na-wordpress-dlya-yandeksa.html

 

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.

Яндекс.Метрика