Если вы хоть раз создавали свой собственный сайт, то наверняка сталкивались с ситуацией, когда необходимо закрыть от поиска яндекса (гугла, рамблера, бинга…) некоторые странички сайта или целые разделы. Специально для этого случая поисковые роботы руководствуются файлом robots.txt, который должен лежать у вас в корневом каталоге сайта.

Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.

Использование директив Disallow и Allow

Чтобы запретить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву ‘Disallow‘. Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву ‘Allow‘.

User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц 
# начинающихся с '/cgi-bin'

Директива Sitemap

Если вы используете описание структуры вашего сайта в формате sitemaps.xml, и хотите, чтобы робот узнал о ней, укажите путь к sitemaps.xml в качестве параметра директивы ‘Sitemap’ (если файлов несколько, укажите все).

User-agent: Yandex
Allow: /
Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml

Робот запомнит пути к sitemaps.xml, обработает файлы и будет использовать результаты при последующем формировании сессий закачки.

Запрет индексации отдельных типов файлов

Если вы используете CMS (движок сайта), то практически наверняка вы используете специальный модуль SEF URL (Search Engine Friendly URL— дружественные к поисковым системам url-адреса страниц). Это подразумевает автоматическую замену адресов вида:

www.website.ru/index.php?option=com_content&format=feed&type=atom&view=f…

на более дружественные к поисковой системе адреса типа www.website.ru./atom.html

При этом будет очень полезным запретить индексацию страничек типа «index.php?…» в принципе.

Сделать это можно следующим образом:

User-agent: *
Allow: /$
Allow: /*.php$
Allow: /*.jpg$
Allow: /*.gif$
Allow: /*.xml$
Disallow: /index.php?*

Таким образом мы разрешаем индексацию всего, а в самом конце запрещаем индексацию адресов «index.php?…»