Файл robots.txt

Если вы когда-нибудь интересовались статистикой заходов на свой сайт, то обязательно должны были заметить, что периодически его посещают различные поисковые системы. Естественно, действуют это никак не люди, однако специальные программы, которые зачастую называют "роботами". "Роботы" просматривают сайт также индексируют веб-ресурс, дабы затем его разрешено было найти с помощью того поисковика, чей "робот" занимался индексацией.

Все "роботы" пред индексацией ресурса ищут в корневом каталоге вашего сайта файл с именем robots.txt. этот файл содержит информацию о том, какие файлы "роботы" могут индексировать, однако какие нет. Это полезно в тех случаях, в какое время вам нежелательна индексация некоторых страниц, например, содержащих "закрытую" информацию.

Файл robots.txt вынужден владеть формат текстового файла для Unix. Некоторые редакторы умеют преобразовывать обычные Windows-файлы, иной раз это может сделать FCT-клиент. Файл состоит из записей, каждая из которых содержит пара поля: строку с названием клиентского приложения (user-agent), также одну либо несколько строк, начинающихся с директивы Disallow:
<Поле> ":" <значение>

Строка User-agent содержит название "робота". Например:
User-agent: googlebot

Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*":
User-agent: *

Названия роботов разрешено найти в журналах доступа к Вашему веб-серверу.

Другая доля команды состоит из строк Disallow. Данные строки - директивы для данного "робота". Они сообщают "роботу" какие файлы и/или каталоги роботу запрещено индексировать. Например:
Disallow: email.htm

Директива может иметь также название каталога:
Disallow: /cgi-bin/

В директивах Disallow могут похоже использоваться также символы подстановки. Стандарт диктует, что директива /bob запретит "паукам" индексировать также /bob.html, также /bob/index.html.

Если директива Disallow станет пустой, это значит, что робот может индексировать все файлы. Как минимум, одна директива Disallow должна присутствовать для каждого поля User-agent, дабы robots.txt считался верным. Полностью порожний robots.txt означает то бла бла самое, как ежели бы его никак не было общий.