Список существующих ботов/роботов
http://www.robotstxt.org/db.html
Проверка синтаксиса и структуры файла robots.txt
Yandex
https://webmaster.yandex.ua/robots.xml
Webmaster tool->Сканирование->Инструмент проверки файла robots.txt
https://support.google.com/webmasters/answer/6062598?hl=ru
Директивы файла robots.txt
1 |
User-agent: * |
— означает, что правила, приведенные ниже, будут действовать для всех поисковиков.
1 |
Allow: |
— разрешено индексировать.
1 |
Disallow: |
— запрещено индексировать.
1 |
Host: mysite.com |
— обязательно нужно указать основное зеркало. Ваш сайт открывается по двум адресам: с www и без www. Эта строчка может быть расположена в любой части файла поисковых систем один и тот же сайт с www и без www совсем абсолютно разные сайты. Но, поняв, что содержимое этих сайтов одинаковое, поисковики “склеивают” их. Поэтому важно прописать главное зеркало сайта в robots.txt.
1 |
Sitemap: |
— ссылка на XML-карту сайта. Если файлов с XML-картами несколько, пропишите путь к каждому из них.
Регулярные выражения: звездочка
1 |
* |
— означает произвольную последовательность символов.
Примеры использования директив файла robots.txt
Запрет индексации сайтов для всех ботов
1 2 3 |
User-agent: * Disallow: / |
Разрешить доступ только одному боту Google
1 2 3 4 5 6 7 |
User-agent: Google Disallow: User-agent: * Disallow: / |
Запретить доступ всем ботам к определенным частям сайта
1 2 3 4 5 6 7 |
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /personal/ |
Запретить доступ всем ботам к определенным файлам
1 2 3 4 5 6 7 |
User-agent: * Disallow: /~user/junk.html Disallow: /~user/playlist.html Disallow: /~user/photos.html |
Allow: имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.
1 2 3 |
Allow: /album1/photo.html Disallow: /album1/ |
Расширенный стандарт, включающий дополнительные директивы(поддерживается не всеми поисковыми роботами)
1 2 3 4 5 6 7 |
User-agent: * Disallow: /downloads/ Request-rate:1/5 # загружать не более одной страницы за пять секунд Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу. |
Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды. |
1 2 3 |
User-agent: * Crawl-delay: 10 |
Установка разной задержки индексирования в зависимости от бота
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
User-agent: Googlebot Disallow:Crawl-delay: 3 User-agent: Yandex Disallow:Crawl-delay: 5 User-agent: bingbot Disallow:Crawl-delay: 7 User-agent: * Disallow:Crawl-delay: 10 |
Пример файла robots.txt для сайтов с WordPress
Для сайта Wwordpress БЕЗ человеко-понятных url (ЧПУ)
1 |
# cat robots.txt |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackbackDisallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /tagHost: mysite.com Sitemap: http:// mysite.com /sitemap.xml #если карта сайта формируется плагином Wordpress Google XML Sitemaps #Sitemap: http:// mysite.com /index.php?xml_sitemap=params= |
Для сайта WordPress С человеко-понятными url (ЧПУ)
1 |
# cat robots.txt |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tagHost: mysite.com Sitemap: http:// mysite.com /sitemap.xml #если карта сайта формируется плагином Wordpress Google XML Sitemaps #Sitemap: http:// mysite.com /index.php?xml_sitemap=params= |
Источник:
https://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml
http://pro-wordpress.ru/chast-2-raskrutka-bloga/pravilnyj-robots-txt-dlya-wordpress.php