Записи с меткой Запрет индексации отдельных типов файлов
Как запретить индексацию страницы или раздела на сайте с помощью файла robots.txt?
0Если вы хоть раз создавали свой собственный сайт, то наверняка сталкивались с ситуацией, когда необходимо закрыть от поиска яндекса (гугла, рамблера, бинга…) некоторые странички сайта или целые разделы. Специально для этого случая поисковые роботы руководствуются файлом robots.txt, который должен лежать у вас в корневом каталоге сайта.
Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.
Использование директив Disallow и Allow
Чтобы запретить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву ‘Disallow‘. Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву ‘Allow‘.
User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц
# начинающихся с '/cgi-bin'
Директива Sitemap
Если вы используете описание структуры вашего сайта в формате sitemaps.xml, и хотите, чтобы робот узнал о ней, укажите путь к sitemaps.xml в качестве параметра директивы ‘Sitemap’ (если файлов несколько, укажите все).
User-agent: Yandex
Allow: /
Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml
Робот запомнит пути к sitemaps.xml, обработает файлы и будет использовать результаты при последующем формировании сессий закачки.
Запрет индексации отдельных типов файлов
Если вы используете CMS (движок сайта), то практически наверняка вы используете специальный модуль SEF URL (Search Engine Friendly URL— дружественные к поисковым системам url-адреса страниц). Это подразумевает автоматическую замену адресов вида:
www.website.ru/index.php?option=com_content&format=feed&type=atom&view=f…
на более дружественные к поисковой системе адреса типа www.website.ru./atom.html
При этом будет очень полезным запретить индексацию страничек типа «index.php?…» в принципе.
Сделать это можно следующим образом:
User-agent: *
Allow: /$
Allow: /*.php$
Allow: /*.jpg$
Allow: /*.gif$
Allow: /*.xml$
Disallow: /index.php?*
Таким образом мы разрешаем индексацию всего, а в самом конце запрещаем индексацию адресов «index.php?…»