Благодарность Автору

Yandex
Спасибо за поддержку!

Тулбар сайта Работай Сам

Установить Тулбар сайта Работай Сам

Наш баннер
88x31 Код
Professional Foto-Studio- Фотогалерея. Афиша фотовыставок. Советы по фото!
88x31 Код
Работай Сам
компоненты, модули, плагины, seo, уроки Joomla

Don't index this page
Don't index this page
Наши партнеры

Линия помощи Дети Онлайн 

Дружественный Рунет 

Интернет без насилия

admin
Оценка пользователей: / 3
ПлохоОтлично 

 

Создание robots.txt

Создание robots.txt

Вопросы, которые мы разберем в данной статье:

Что это такое файл robots txt? Как создать правильный robots.txt? Какие правила использовать? Что именно прописывать в файл robots txt? Как правильно запретить индексацию определенного каталога, раздела сайта?

Что это robots.txt — это простой текстовый файл, создается в текстовых редакторах (например notepad), который строго должен находиться в корневой директории вашего сайта, т. е. в корневой папке сервера. Пример: http://www.ваш сайт.ru/robots.txt, и если его расположить в другом месте, то поисковые роботы его не найдут.

Некоторые обязательные правила:

  • имя файла должно быть только в нижнем регистре!
  • ROBOTS.TXT, Robots.txt — это неправильные файлы
  • robots.txt – это правильный пример написания файла
  • большие robots.txt (более 256 Кб) считаются полностью разрешающими
  • пустой файл robots.txt или его отсутствие означает разрешение на индексирование всего сайта

User-agent

  • значение поля является имя робота, к которому применяются правила доступа
  • если строк с User-agent несколько, то для всех роботов применяются одинаковые правила, которые содержаться в текущей записи
  • если значение поля равно «*», то правила применяются к любому роботу, для которого нет отдельной записи
  • в файле robots.txt может быть только одна запись с User-agent: *

Disallow

  • это значение прописывает полный или частичный путь к файлу, посещение которого запрещено для робота
  • в файле должно быть хотя бы одно поле Disallow
  • пустое значение (Disallow: ) интерпретируется как разрешение на посещение любой страницы
  • регулярные выражения и символы подстановки запрещены
  • значение символа "#" будет интерпретироваться как комментарий

Надо знать:

  • Некоторые поисковые машины используют дополнительные поля…
  • Яндекс например, использует поле Host для определения основного зеркала сайта
  • другие разрешают использование регулярных выражений, Google например поддерживает в поле Disallow символы «*» (любая последовательность символов) и «$ - доллар» (окончание строки ссылки), к примеру, что бы запретить PDF файлы , то прописываем следующее:

User-agent: Googlebot
Disallow: *.pdf$

Надо помнить, что файл robots.txt и его правила исключения используют только «культурные» роботы, а наряду с ними существует целая армия ботов, которые игнорируют правила исключений или вообще проходят мимо файла robots.txt на сайте.

Более подробно описывалось в предыдущей статье - Что такое robots.txt? Правильный robots.txt

Для чего нужно закрывать страницы от индексации?
К примеру возьмем создадим чистый файл, в котором не будем ничего прописывать, поисковые роботы примут, то что сайт полностью разрешен для индексации. Проходит время и боты побегали по вашему сайту… и вы удивлены когда увидите, что в выдаче по поисковым запросам будет выдаваться какая либо закрытая информация или личные данные пользователей, а это очень плохо для безопасности вашего сайта, так и для пользователей.
И для того, чтобы не привлекать особого внимание к файлам, которые вы хотели бы скрыть или имеющие стандартные названия, которых говорят о многом, можно создать специальную папку и хранить.

Полезно прочитать:

статья "Метатег Robots для Joomla"

 

Добавить комментарий


Защитный код
Обновить

Авторизация
Сейчас на сайте
  • [Bot] [Bot]
  • [Google] [Google]
Сейчас на сайте:
  • пользователей нет
  • гостей нет
  • 2 роботов
Новые пользователи:
  • Metr-Dexter

  • adkar

  • boow

Рекламма Google

Designed by - web-design studio One Monk