Создание robots.txt

Вопросы, которые мы разберем в данной статье:
Что это такое файл robots txt? Как создать правильный robots.txt? Какие правила использовать? Что именно прописывать в файл robots txt? Как правильно запретить индексацию определенного каталога, раздела сайта?
Что это robots.txt — это простой текстовый файл, создается в текстовых редакторах (например notepad), который строго должен находиться в корневой директории вашего сайта, т. е. в корневой папке сервера. Пример: http://www.ваш сайт.ru/robots.txt, и если его расположить в другом месте, то поисковые роботы его не найдут.
Некоторые обязательные правила:
- имя файла должно быть только в нижнем регистре!
- ROBOTS.TXT, Robots.txt — это неправильные файлы
- robots.txt – это правильный пример написания файла
- большие robots.txt (более 256 Кб) считаются полностью разрешающими
- пустой файл robots.txt или его отсутствие означает разрешение на индексирование всего сайта
User-agent
- значение поля является имя робота, к которому применяются правила доступа
- если строк с User-agent несколько, то для всех роботов применяются одинаковые правила, которые содержаться в текущей записи
- если значение поля равно «*», то правила применяются к любому роботу, для которого нет отдельной записи
- в файле robots.txt может быть только одна запись с User-agent: *
Disallow
- это значение прописывает полный или частичный путь к файлу, посещение которого запрещено для робота
- в файле должно быть хотя бы одно поле Disallow
- пустое значение (Disallow: ) интерпретируется как разрешение на посещение любой страницы
- регулярные выражения и символы подстановки запрещены
- значение символа "#" будет интерпретироваться как комментарий
Надо знать:
- Некоторые поисковые машины используют дополнительные поля…
- Яндекс например, использует поле Host для определения основного зеркала сайта
- другие разрешают использование регулярных выражений, Google например поддерживает в поле Disallow символы «*» (любая последовательность символов) и «$ - доллар» (окончание строки ссылки), к примеру, что бы запретить PDF файлы , то прописываем следующее:
User-agent: Googlebot
Disallow: *.pdf$
Надо помнить, что файл robots.txt и его правила исключения используют только «культурные» роботы, а наряду с ними существует целая армия ботов, которые игнорируют правила исключений или вообще проходят мимо файла robots.txt на сайте.
Более подробно описывалось в предыдущей статье - Что такое robots.txt? Правильный robots.txt
Для чего нужно закрывать страницы от индексации?
К примеру возьмем создадим чистый файл, в котором не будем ничего прописывать, поисковые роботы примут, то что сайт полностью разрешен для индексации. Проходит время и боты побегали по вашему сайту… и вы удивлены когда увидите, что в выдаче по поисковым запросам будет выдаваться какая либо закрытая информация или личные данные пользователей, а это очень плохо для безопасности вашего сайта, так и для пользователей.
И для того, чтобы не привлекать особого внимание к файлам, которые вы хотели бы скрыть или имеющие стандартные названия, которых говорят о многом, можно создать специальную папку и хранить.
Полезно прочитать:
статья "Метатег Robots для Joomla"



[Bot]
[Google AdSense]
[Yandex]