Robots.txt — это полезный инструмент, с помощью которого вы можете указать поисковым роботам, как им сканировать ваш сайт.

Он не всесилен (по словам Google), но он может помочь предотвратить перегрузку вашего сайта или сервера запросами поискового робота.

Если на вашем сайте есть этот файл, вы должны быть уверены, что он прописан правильно.

Это особенно важно, если вы используете динамические URL-адреса или другие методы, которые теоретически генерируют бесконечное количество страниц.

В этой серии статей мы рассмотрим некоторые из наиболее распространенных проблем с файлом robots.txt, их влияние на ваш сайт, а также способы устранения этих проблем.

Но сначала давайте вспомним, что такое robots.txt.

Что такое Robots.txt?

Robots.txt – это простой текстовый файл, который помещается в корневой каталог вашего веб-сайта.

Он должен находиться именно в корневой папке; если вы поместите его в подкаталог, поисковые системы просто его проигнорируют.

Несмотря на свою важность, robots.txt часто представляет собой относительно простой документ, и базовый файл robots.txt можно создать за считанные секунды с помощью текстового редактора, например Блокнота.

Существуют и другие способы достижения тех же целей, для которых обычно используется файл robots.txt. Например, отдельные страницы могут включать метатег robots в самом коде страницы.

Вы также можете использовать HTTP-заголовок X-Robots-Tag, чтобы влиять на то, как (и будет ли) отображаться контент в результатах поиска.

Что может robots.txt?

Robots.txt может делать разные вещи, в зависимости от ваших целей:

Веб-страницы могут быть заблокированы от сканирования.

Они могут по-прежнему отображаться в результатах поиска, но не будут иметь текстового описания. Содержимое страницы, кроме HTML, также не будет сканироваться.

Медиафайлы могут быть заблокированы от появления в результатах поиска Google.

То есть изображения, видео и аудио файлы.

Общедоступный файл по-прежнему будет «существовать» в Интернете, и его можно будет посмотреть, но этот контент не будет отображаться в результатах поиска Google.

Файлы ресурсов, такие как несущественные внешние скрипты, могут быть заблокированы.

Но это означает, что если Google просканирует страницу, для загрузки которой требуется этот ресурс, робот Googlebot «увидит» версию страницы так, как если бы этот ресурс не существовал, что может повлиять на индексацию.

Вы не можете использовать robots.txt, чтобы полностью заблокировать отображение веб-страницы в результатах поиска Google.

Для этого вы должны использовать альтернативный метод, такой как добавление метатега noindex в начало страницы.

Насколько опасны ошибки robots.txt?

Ошибка в robots.txt может иметь непредвиденные последствия, но часто это не конец света.

Исправив файл robots.txt, вы сможете восстановиться после любых ошибок быстро и (как правило) в полном объеме.

В руководстве Google для веб-разработчиков говорится следующее:

«Веб-сканеры очень гибкие и, как правило, не реагируют на незначительные ошибки в файле robots.txt. Худшее, что может случиться – некорректные [или] неподдерживаемые директивы будут проигнорированы.

Если вы знаете о проблемах в файле robots.txt, их обычно легко исправить».

А вот какие ошибки встречаются чаще всего – читайте в следующей статье.

Если ваш веб-сайт ведет себя странно в результатах поиска, первое место, где стоит поискать ошибки – ваш файл robots.txt.

Давайте рассмотрим каждую из возможных ошибок.

1 Robots.txt не в корневом каталоге

Поисковые роботы могут обнаружить файл только в том случае, если он находится в корневой папке.

Вот почему между .com (или другим доменом) вашего веб-сайта и именем файла robots.txt в URL-адресе вашего файла robots.txt должна быть только косая черта:

https://example.com/robots.txt

Если там есть подпапка, ваш файл robots.txt, вероятно, не виден поисковым роботам, и ваш сайт ведет себя так, как будто этого файла вообще нет.

Чтобы решить эту проблему, переместите файл robots.txt в корневой каталог. Для этого вам потребуется root-доступ к вашему серверу.

Некоторые системы управления контентом по умолчанию загружают файлы в подкаталог media (или что-то подобное).

2. Некорректное использование подстановочных знаков

Robots.txt поддерживает два подстановочных знака:

  • Звездочка * , которая представляет любые экземпляры допустимого символа.
  • Знак доллара $ , обозначающий конец URL-адреса, позволяет применять правила только к последней части URL-адреса, например к расширению типа файла.

Разумно использовать эти знаки как можно реже, потому что нечаянно можно заблокировать больше, чем нужно.

Также относительно легко заблокировать доступ роботов ко всему вашему сайту с помощью неудачно расположенной звездочки.

Чтобы устранить проблему с подстановочными знаками, вам нужно найти неправильный и переместить или удалить его, чтобы файл robots.txt работал должным образом.

3. Noindex в robots.txt

Это чаще встречается на веб-сайтах, которым уже несколько лет.

Google перестал соблюдать правила noindex в файлах robots.txt с 1 сентября 2019 года.

Если ваш файл robots.txt был создан до этой даты или содержит инструкции noindex, вы, скорее всего, увидите эти страницы проиндексированными в результатах поиска Google.

Один из вариантов решения этой проблемы – метатег robots, который вы можете добавить в заголовок любой веб-страницы, которую вы хотите закрыть от индексации Google.

4. Заблокированные скрипты и таблицы стилей

Может показаться логичным заблокировать доступ сканера к внешним файлам JavaScript и каскадным таблицам стилей (CSS).

Однако помните, что роботу Googlebot нужен доступ к файлам CSS и JS, чтобы правильно «видеть» ваши HTML- и PHP-страницы.

Если ваши страницы странно отображаются в результатах Google или кажется, что Google не видит их правильно, проверьте, не блокируете ли вы доступ поискового робота к необходимым внешним файлам.

Простое решение — удалить строку из файла robots.txt, которая блокирует доступ.

5. Нет URL-адреса карты сайта

Эта ошибка напрямую касается SEO.

Вы можете включить URL-адрес вашей карты сайта в файл robots.txt.

Это не совсем ошибка, так как отсутствие карты сайта не должно негативно влиять на основную функциональность и внешний вид вашего веб-сайта в результатах поиска, но все же стоит добавить URL-адрес вашей карты сайта в robots.txt.

6. Доступ к сайтам разработки

Блокировать сканеры на вашем работающем веб-сайте нельзя, но не надо разрешать им сканировать и индексировать страницы, которые все еще находятся в стадии разработки.

Рекомендуется добавить инструкцию о запрете в файл robots.txt веб-сайта, находящегося в стадии разработки, чтобы широкая публика не увидела его, пока он не будет завершен.

Точно так же очень важно удалить инструкцию о запрете при запуске готового веб-сайта.

Забыть удалить эту строку из robots.txt — одна из самых распространенных ошибок среди веб-разработчиков.

Если кажется, что ваш недавно запущенный веб-сайт совсем не виден в поиске, поищите универсальное правило запрета пользовательского агента в файле robots.txt:

User-Agent: *

Disallow: /

Как исправить ошибки в robots.txt

Если ошибка в файле robots.txt оказывает нежелательное влияние на вид вашего веб-сайта в результатах поиска, самый первый ваш шаг – исправление файла robots.txt и проверка, что новые правила дают желаемый эффект.

Если вы уверены, что файл robots.txt работает правильно, вы можете попытаться повторно просканировать свой сайт как можно скорее.

В этом могут помочь такие платформы, как Google Search Console и Яндекс.Вебмастер.

Отправьте обновленную карту сайта и запросите повторное сканирование любых страниц, которые были нечаянно удалены из списка.

К сожалению, невозможно предсказать, сколько времени потребуется, чтобы отсутствующие страницы вновь появились в поисковом индексе Google.

Все, что вы можете сделать, это просто подождать.

Когда речь идет об ошибках robots.txt, лучше предотвратить их, чем потом исправлять.

В крупном интернет-магазине случайный подстановочный знак, который удаляет весь ваш веб-сайт из поиска, может немедленно повлиять на ваш доход.

Редактирование файла robots.txt нужно доверять только опытным разработчикам.