Настройка файла индексации robots.txt

Июнь 14th, 2015

Evgeniy Kamenev

Список существующих ботов/роботов

http://www.robotstxt.org/db.html

Проверка синтаксиса и структуры файла robots.txt

Yandex

https://webmaster.yandex.ua/robots.xml

Google

Webmaster tool->Сканирование->Инструмент проверки файла robots.txt

https://support.google.com/webmasters/answer/6062598?hl=ru

Директивы файла robots.txt

User-agent: *

1	User-agent: *

— означает, что правила, приведенные ниже, будут действовать для всех поисковиков.

Allow:

Allow:

— разрешено индексировать.

Disallow:

Disallow:

— запрещено индексировать.

Host: mysite.com

1	Host: mysite.com

— обязательно нужно указать основное зеркало. Ваш сайт открывается по двум адресам: с www и без www. Эта строчка может быть расположена в любой части файла поисковых систем один и тот же сайт с www и без www совсем абсолютно разные сайты. Но, поняв, что содержимое этих сайтов одинаковое, поисковики “склеивают” их. Поэтому важно прописать главное зеркало сайта в robots.txt.

Sitemap:

Sitemap:

— ссылка на XML-карту сайта. Если файлов с XML-картами несколько, пропишите путь к каждому из них.

Регулярные выражения: звездочка

*

— означает произвольную последовательность символов.

Примеры использования директив файла robots.txt

Запрет индексации сайтов для всех ботов

User-agent: *

Disallow: /

User-agent: *

Disallow: /

Разрешить доступ только одному боту Google

User-agent: Google

Disallow:

User-agent: *

Disallow: /

User-agent: Google

Disallow:

User-agent: *

Disallow: /

Запретить доступ всем ботам к определенным частям сайта

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /personal/

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /personal/

Запретить доступ всем ботам к определенным файлам

User-agent: *

Disallow: /~user/junk.html

Disallow: /~user/playlist.html

Disallow: /~user/photos.html

User-agent: *

Disallow: /~user/junk.html

Disallow: /~user/playlist.html

Disallow: /~user/photos.html

Allow: имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

Allow: /album1/photo.html

Disallow: /album1/

Allow: /album1/photo.html

Disallow: /album1/

Расширенный стандарт, включающий дополнительные директивы(поддерживается не всеми поисковыми роботами)

User-agent: *

Disallow: /downloads/

Request-rate:1/5            # загружать не более одной страницы за пять секунд

Visit-time: 0600-0845                       # загружать страницы только в промежуток с 6 утра    до 8:45 по Гринвичу.

User-agent: *

Disallow: /downloads/

Request-rate:1/5 # загружать не более одной страницы за пять секунд

Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.

User-agent: *

Crawl-delay: 10

User-agent: *

Crawl-delay: 10

Установка разной задержки индексирования в зависимости от бота

User-agent: Googlebot

Disallow:Crawl-delay: 3


User-agent: Yandex

Disallow:Crawl-delay: 5


User-agent: bingbot

Disallow:Crawl-delay: 7


User-agent: *

Disallow:Crawl-delay: 10

User-agent: Googlebot

Disallow:Crawl-delay: 3

User-agent: Yandex

Disallow:Crawl-delay: 5

User-agent: bingbot

Disallow:Crawl-delay: 7

User-agent: *

Disallow:Crawl-delay: 10

Пример файла robots.txt для сайтов с WordPress

Для сайта Wwordpress БЕЗ человеко-понятных url (ЧПУ)

# cat robots.txt

1	# cat robots.txt

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackbackDisallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tagHost: mysite.com
Sitemap: http:// mysite.com /sitemap.xml
#если карта сайта формируется плагином Wordpress Google XML Sitemaps
#Sitemap: http:// mysite.com /index.php?xml_sitemap=params=

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackbackDisallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /tagHost: mysite.com

Sitemap: http:// mysite.com /sitemap.xml

#если карта сайта формируется плагином Wordpress Google XML Sitemaps

#Sitemap: http:// mysite.com /index.php?xml_sitemap=params=

Для сайта WordPress С человеко-понятными url (ЧПУ)

# cat robots.txt

1	# cat robots.txt

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tagHost: mysite.com

Sitemap: http:// mysite.com /sitemap.xml

#если карта сайта формируется плагином Wordpress Google XML Sitemaps

#Sitemap: http:// mysite.com /index.php?xml_sitemap=params=

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /tagHost: mysite.com

Sitemap: http:// mysite.com /sitemap.xml

#если карта сайта формируется плагином Wordpress Google XML Sitemaps

#Sitemap: http:// mysite.com /index.php?xml_sitemap=params=

Источник:

https://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml

https://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%80%D1%82_%D0%B8%D1%81%D0%BA%D0%BB%D1%8E%D1%87%D0%B5%D0%BD%D0%B8%D0%B9_%D0%B4%D0%BB%D1%8F_%D1%80%D0%BE%D0%B1%D0%BE%D1%82%D0%BE%D0%B2

https://support.hostpro.ua/index.php?/Knowledgebase/Article/View/285/31/prichiny-nagruzki-na-server-so-storony-poiskovyh-sistemhttp://www.webhostingbuzz.com/wiki/robots-txt/

http://pro-wordpress.ru/chast-2-raskrutka-bloga/pravilnyj-robots-txt-dlya-wordpress.php

http://wpnew.ru/raskrutka-bloga/seo_optimizaciya/fajl-robots-txt-pravilnyj-primer-na-wordpress-dlya-yandeksa.html

Опубликовано в рубрике Web

Метки: bot, robots, robots.txt

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.

Настройка файла индексации robots.txt

Страницы

Свежие записи

Архивы

Рубрики

Админ-панель