Для тех кто заботится о своём сайте и тщательно следит за своим контентом обязательно должен знать о файле robots.txt. Практически все новички до одного, да и матёрые веб-мастера, порой допускают серьёзную ошибку: просто напросто забывают про существование такого важного для продвижения сайта файла.
Так что это за файл и для чего он?
Robots.txt — это файл, имеющий текстовый формат. Его основная роль заключается в том, что он ограничивает доступ роботу поисковых систем в подразделы нашего сайта, которые мы предпочли скрыть от индексации.
Для чего это нужно и зачем что-то скрывать?
- Есть различные мета-данные, которые лучше скрывать, дабы избежать их индексации и дальнейшей возможной выдаче в поисковую систему. Поскольку зачастую в эти мета-теги заключены различные теги (к примеру, в облаке тегов), рубрики, записи, популярные записи (если такой блок имеется — там будет дублирование записей из только что перечисленной категории), свежие записи (опять же — если есть такая: и опять же возможное дублирование) и прочие, которые могут быть у вас на сайте (чаще всего это касается сайдбара). Это также касается страницы комментариев, ленты rss комментариев, записи авторов блога. И это ни есть хорошо с любой из сторон:
- В относительно неплохом случае: поисковик просто напросто может начать игнорировать ваш ресурс из-за многочисленного дублирования или даже воспринять это как спам
- В обычном варианте исхода: вы просто потеряете уникальность ваших страниц, что существенно отразится на выдаче и посещаемости сайта
- В самом плохом исходе есть шанс вовсе попасть под фильтр поисковой системы! Выбраться из под фильтра не так легко и часто требует очень продолжительного времени. Для тех кто не знает — попадание под фильтр какой-либо поисковой системы снижает выдачу вашего сайта примерно на 90% в ней. Согласитесь, это совсем не то что мы хотим
- Страницы административного характера тоже подлежат запрету индексации. Это в целях безопасности вашего же сайта.Всё очень просто — в CMS (системах управления сайтом) всегда есть файлы, связанные с администрированием в которых хранятся такие важные данные, как пароли, учетные записи и прочая информация, не подлежащая раскрытию. А тем более публикации этой информации в поисковую систему.
- Возможно есть страницы, которые в индекс не нужно выпускать. Нет причин зря этого делать.
- Файлы плагинов, тем нашего сайта, кэш CMS — это всё же тоже ни к чему в выдаче.
- Даже если всё вышесказанное не важно для вас — пренебрегание этим может очень сильно затянуть индексацию.
Как составить robots.txt для WordPress
Для составления нашего файла нам будут необходимо немалое количество строк. Разумеется имеется в виду качественное составление robots.txt.
Не стоит пугаться — я всё расскажу и поясню. Для примера я предоставлю свой файл robots.txt:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: /category/ Disallow: /author/ Disallow: /page/ Disallow: /tag/ Disallow: /feed/ Disallow: */feed Disallow: */trackback Disallow: */comments Host: drogin.ru Sitemap: https://drogin.ru/sitemap_index.xml Allow: /wp-admin/admin-ajax.php |
Давайте разберемся с директивами:
- User-agent: это некий «пропускной» для робота. Если его значение «*» — то любом роботу вход открыт. Если указать «Yandex» — файл открыт только яндекс-боту. Аналогично и для других поисковых систем. Целесообразней использовать «*» — так как тогда этот файл будет применим ко всем поисковикам. НО. Есть миф, что Яндекс активнее использует файл, если в нём есть ещё и своя отдельная «инструкция». Скажу честно — я в это не верю. Хотя потому что в документации Яндекса указаны 2 варианта.
- Disallow: с помощью этой директивы можно роботу запретить файлы или целые каталоги для индексации. Он просто будет их пропускать.
- Allow: напротив, разрешает файл или директивы к индексации.
- Host: помогает указать основное зеркало сайта (если они есть. Часто встречаются адрес с www и без него — у меня как раз такой случай). Чтобы отменить автоматическое определение — можно дать указание роботу использовать конкретное зеркало вашего сайта.
- Sitemap: Необходим для указания карты сайта, если она есть — указывается путь до неё. Мы вернемся к этому в следующей статье — она требует много времени и отдельного внимания.
- Crawl-delay: Как вы заметили, я её не использую — но стоит знать о её существовании. Задаёт поисковому роботу минимальный промежуток времени между окончанием загрузки одной страницы и началом загрузки следующей. Измеряется в секундах (допустимы дробные значения вида «0.5»). По уверению Яндекса — позволяет ускорить обход сайта, но ничего не гарантирует.
А теперь по файлу — что же мы запретили, разрешили и для чего задали дополнительные директивы. Рассмотрим построчно:
2-4: Закрываем от индексации роботом наши административные файлы.
5-7: Запрещаем роботу индексировать файлы темы, кэш WordPress, плагинов.
8-18: Запрещаем роботу индексировать комментарии, записи авторов, rss комментарии.
19: На месте моего адреса сайта указываем свой
20: Указываем свой путь до карты сайта
22: admin-ajax.php в robots.txt добавляется автоматически, при использовании плагинов (так как они работают через AJAX).
Где находится файл robots.txt
Файл для робота обычно располагается в главной директории нашего сайта. Разумеется найти его можете на своём сервере. Если его у вас там не было — делайте скорей и заливайте.
Как проверить robots.txt
Проверить можно в любой удобной вам поисковой системе. Мы рассмотрим с вами Яндекс:
- Переходим в Яндекс.вебмастер. Если у вас не было до этого аккаунта — регистрируйте; это очень полезный инструмент, который мы рассмотрим позже.
- Выбираем свой сайт
- Выбираем Настройка индексирования>анализ robots.txt
- Если впервые загрузили файл — нажмите «Загрузить robots.txt с сайта». После этого нажимаем «проверить».
Если ошибок нет — всё сделано верно.
Аналогично можно проверить файл с помощью GoogleWebmaster.
Поздравляю! Наш файл robots.txt готов — и это ещё один важный шаг к оптимизации сайта. Советую, конечно, присматривать за ситуацией с сайтом в целом и вовремя исправлять возможные ошибки и недоработки.
С помощью robots.txt можно контролировать выдачу и влиять на роботу, для получения необходимого нам результата. Желаю удачи в начинаниях!