Как составить robots.txt для оптимизации сайта в поисковой системе

Как создать robots.txt для сайта. Drogin.ru

Для тех кто заботится о своём сайте и тщательно следит за своим контентом обязательно должен знать о файле robots.txt. Практически все новички до одного, да и матёрые веб-мастера, порой допускают серьёзную ошибку: просто напросто забывают про существование такого важного для продвижения сайта файла.

Так что это за файл и для чего он?

Robots.txt — это файл, имеющий текстовый формат. Его основная роль заключается в том, что он ограничивает доступ роботу поисковых систем в подразделы нашего сайта, которые мы предпочли скрыть от индексации.

Для чего это нужно и зачем что-то скрывать?

  1. Есть различные мета-данные, которые лучше скрывать, дабы избежать их индексации и дальнейшей возможной выдаче в поисковую систему. Поскольку зачастую в эти мета-теги заключены различные теги (к примеру, в облаке тегов), рубрики, записи, популярные записи (если такой блок имеется — там будет дублирование записей из только что перечисленной категории), свежие записи (опять же — если есть такая: и опять же возможное дублирование) и прочие, которые могут быть у вас на сайте (чаще всего это касается сайдбара). Это также касается страницы комментариев, ленты rss комментариев, записи авторов блога. И это ни есть хорошо с любой из сторон:
    • В относительно неплохом случае: поисковик просто напросто может начать игнорировать ваш ресурс из-за многочисленного дублирования или даже воспринять это как спам
    • В обычном варианте исхода: вы просто потеряете уникальность ваших страниц, что существенно отразится на выдаче и посещаемости сайта
    • В самом плохом исходе есть шанс вовсе попасть под фильтр поисковой системы! Выбраться из под фильтра не так легко и часто требует очень продолжительного времени. Для тех кто не знает — попадание под фильтр какой-либо поисковой системы снижает выдачу вашего сайта примерно на 90% в ней. Согласитесь, это совсем не то что мы хотим 
  2. Страницы административного характера тоже подлежат запрету индексации. Это в целях безопасности вашего же сайта.Всё очень просто — в CMS (системах управления сайтом) всегда есть файлы, связанные с администрированием в которых хранятся такие важные данные, как пароли, учетные записи и прочая информация, не подлежащая раскрытию. А тем более публикации этой информации в поисковую систему.
  3. Возможно есть страницы, которые в индекс не нужно выпускать. Нет причин зря этого делать.
  4. Файлы плагинов, тем нашего сайта, кэш CMS — это всё же тоже ни к чему в выдаче.
  5. Даже если всё вышесказанное не важно для вас — пренебрегание этим может очень сильно затянуть индексацию.

Как составить robots.txt для WordPress

Как составить roobts.txt для WordPress. Drogin.ru

Для составления нашего файла нам будут необходимо немалое количество строк. Разумеется имеется в виду качественное составление robots.txt.

Не стоит пугаться — я всё расскажу и поясню. Для примера я предоставлю свой файл robots.txt:

Давайте разберемся с директивами:

  1. User-agent: это некий «пропускной» для робота. Если его значение «*» — то любом роботу вход открыт. Если указать «Yandex» — файл открыт только яндекс-боту. Аналогично и для других поисковых систем. Целесообразней использовать «*» — так как тогда этот файл будет применим ко всем поисковикам. НО. Есть миф, что Яндекс активнее использует файл, если в нём есть ещё и своя отдельная «инструкция». Скажу честно — я в это не верю. Хотя потому что в документации Яндекса указаны 2 варианта.
  2. Disallow: с помощью этой директивы можно роботу запретить файлы или целые каталоги для индексации. Он просто будет их пропускать.
  3. Allow: напротив, разрешает файл или директивы к индексации.
  4. Host: помогает указать основное зеркало сайта (если они есть. Часто встречаются адрес с www и без него — у меня как раз такой случай). Чтобы отменить автоматическое определение — можно дать указание роботу использовать конкретное зеркало вашего сайта.
  5. Sitemap: Необходим для указания карты сайта, если она есть — указывается путь до неё. Мы вернемся к этому в следующей статье — она требует много времени и отдельного внимания.
  6. Crawl-delay: Как вы заметили, я её не использую — но стоит знать о её существовании. Задаёт поисковому роботу минимальный промежуток времени между окончанием загрузки одной страницы и началом загрузки следующей. Измеряется в секундах (допустимы дробные значения вида «0.5»). По уверению Яндекса — позволяет ускорить обход сайта, но ничего не гарантирует.

А теперь по файлу — что же мы запретили, разрешили и для чего задали дополнительные директивы. Рассмотрим построчно:

2-4: Закрываем от индексации роботом наши административные файлы.

5-7: Запрещаем роботу индексировать файлы темы, кэш WordPress, плагинов.

8-18: Запрещаем роботу индексировать комментарии, записи авторов, rss комментарии.

19: На месте моего адреса сайта указываем свой

20: Указываем свой путь до карты сайта

22: admin-ajax.php в robots.txt добавляется автоматически, при использовании плагинов (так как они работают через AJAX).

 

Где находится файл robots.txt

Файл для робота обычно располагается в главной директории нашего сайта. Разумеется найти его можете на своём сервере. Если его у вас там не было — делайте скорей и заливайте.

Как проверить robots.txt

Проверить можно в любой удобной вам поисковой системе. Мы рассмотрим с вами Яндекс:

  1. Переходим в Яндекс.вебмастер. Если у вас не было до этого аккаунта — регистрируйте; это очень полезный инструмент, который мы рассмотрим позже.
  2. Выбираем свой сайт
    Яндекс.Вебмастер - как проверит robots.txt. Drogin.ru
  3. Выбираем Настройка индексирования>анализ robots.txt
    Как проверить robots.txt для оптимизации сайта. Drogin.ru
  4. Если впервые загрузили файл — нажмите «Загрузить robots.txt с сайта». После этого нажимаем «проверить».
    Проверка robots.txt для оптимизации сайта. Drogin.ru

Если ошибок нет — всё сделано верно.

Аналогично можно проверить файл с помощью GoogleWebmaster.

Поздравляю! Наш файл robots.txt готов — и это ещё один важный шаг к оптимизации сайта. Советую, конечно, присматривать за ситуацией с сайтом в целом и вовремя исправлять возможные ошибки и недоработки.

С помощью robots.txt можно контролировать выдачу и влиять на роботу, для получения необходимого нам результата. Желаю удачи в начинаниях!

 


3+
Подписаться на новости

Отправить ответ

Оставьте первый комментарий!

  Subscribe  
Уведомить о