Подробно о Robots.txt


Оглавление (нажмите, чтобы открыть):

Robots.txt. Подробное руководство

Почти каждый проект, который приходит к нам на аудит либо продвижение, имеет некорректный файл robots.txt, а часто он вовсе отсутствует. Так происходит, потому что при создании файла все руководствуются своей фантазией, а не правилами. Давайте разберем, как правильно составить этот файл, чтобы поисковые роботы эффективно с ним работали.

Зачем нужна настройка robots.txt?

Robots.txt — это файл, размещенный в корневом каталоге сайта, который сообщает роботам поисковых систем, к каким разделам и страницам сайта они могут получить доступ, а к каким нет.

Настройка robots.txt — важная часть SEO-работ по повышению позиций сайта в выдаче поисковых систем, правильно настроенный robots также увеличивает производительность сайта. Отсутствие Robots.txt не остановит поисковые системы сканировать и индексировать сайт, но если этого файла у вас нет, у вас могут появиться две проблемы:

Поисковый робот будет считывать весь сайт, что «подорвет» краулинговый бюджет. Краулинговый бюджет — это число страниц, которые поисковый робот способен обойти за определенный промежуток времени.

Без файла robots, поисковик получит доступ к черновым и скрытым страницам, к сотням страниц, используемых для администрирования CMS. Он их проиндексирует, а когда дело дойдет до нужных страниц, на которых представлен непосредственный контент для посетителей, «закончится» краулинговый бюджет.

В индекс может попасть страница входа на сайт, другие ресурсы администратора, поэтому злоумышленник сможет легко их отследить и провести ddos атаку или взломать сайт.

Как поисковые роботы видят сайт с robots.txt и без него:

Синтаксис robots.txt

Прежде чем начать разбирать синтаксис и настраивать robots.txt, посмотрим на то, как должен выглядеть «идеальный файл»:

Но не стоит сразу же его применять. Для каждого сайта чаще всего необходимы свои настройки, так как у всех у нас разная структура сайта, разные CMS. Разберем каждую директиву по порядку.

User-agent

User-agent — определяет поискового робота, который обязан следовать описанным в файле инструкциям. Если необходимо обратиться сразу ко всем, то используется значок *. Также можно обратиться к определенному поисковому роботу. Например, Яндекс и Google:

Disallow

С помощью этой директивы, робот понимает какие файлы и папки индексировать запрещено. Если вы хотите, чтобы весь ваш сайт был открыт для индексации оставьте значение Disallow пустым. Чтобы скрыть весь контент на сайте после Disallow поставьте “/”.

Мы можем запретить доступ к определенной папке, файлу или расширению файла. В нашем примере, мы обращаемся ко всем поисковым роботам, закрываем доступ к папке bitrix, search и расширению pdf.

Allow

Allow принудительно открывает для индексирования страницы и разделы сайта. На примере выше мы обращаемся к поисковому роботу Google, закрываем доступ к папке bitrix, search и расширению pdf. Но в папке bitrix мы принудительно открываем 3 папки для индексирования: components, js, tools.

Host — зеркало сайта

Зеркало сайта — это дубликат основного сайта. Зеркала используются для самых разных целей: смена адреса, безопасность, снижение нагрузки на сервер и т. д.

Host — одно из самых важных правил. Если прописано данное правило, то робот поймет, какое из зеркал сайта стоит учитывать для индексации. Данная директива необходима для роботов Яндекса и Mail.ru. Другие роботы это правило будут игнорировать. Host прописывается только один раз!

Для протоколов «https://» и «https://», синтаксис в файле robots.txt будет разный.

Sitemap — карта сайта

Карта сайта — это форма навигации по сайту, которая используется для информирования поисковых систем о новых страницах. С помощью директивы sitemap, мы «насильно» показываем роботу, где расположена карта.

Символы в robots.txt

Символы, применяемые в файле: «/, *, $, #».

  • Слэш «/», скрывает от обнаружения различные страницы сайта.
  • Звездочка «*» применяется для обозначения любой последовательности символов в файле.
  • Знак доллара «$» сдерживает действия знака звездочки. С помощью него, можно запретить содержимое папки, но адрес который содержит папка, разрешить.
  • Решетка «#» применяется для комментирования. Робот не учитывает эти записи при сканировании сайта.

Проверка работоспособности после настройки robots.txt

После того как вы разместили Robots.txt на своем сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Google.

  1. Перейдите по ссылке.
  2. Выберите: Настройка индексирования — Анализ robots.txt.
  1. Перейдите по ссылке.
  2. Выберите: Сканирование — Инструмент проверки файла robots.txt.

Таким образом вы сможете проверить свой robots.txt на ошибки и внести необходимые настройки, если потребуется.

В заключение приведу 6 главных рекомендаций по работе с файлом Robots.txt:

  1. Содержимое файла необходимо писать прописными буквами.
  2. В директиве Disallow нужно указывать только один файл или директорию.
  3. Строка «User-agent» не должна быть пустой.
  4. User-agent всегда должна идти перед Disallow.
  5. Не стоит забывать прописывать слэш, если нужно запретить индексацию директории.
  6. Перед загрузкой файла на сервер, обязательно нужно проверить его на наличие синтаксических и орфографических ошибок.

Robots.txt

Robots.txt – специальный файл, который используется для регулирования процесса индексации сайта поисковыми системами. Место его размещения – корневой каталог. Различные разделы этого файла содержат директивы, которые открывают или закрывают доступ индексирующим ботам к разделам и страницам сайта. При этом поисковые роботы различных систем используют отдельные алгоритмы обработки этого файла, которые могут отличаться друг от друга. Никакие настройки robots.txt не влияют на обработку ссылок на страницы сайта с других сайтов.

Функции robots.txt

Основная функция этого файла – размещение указаний для индексирующих роботов. Главные директивы robots.txt – Allow (разрешает индексацию определенного файла или раздела) и Disallow (соответственно, запрещает индексацию), а также User-agent (определяет, к каким именно роботам относятся разрешительные и запрещающие директивы).

Нужно помнить, что инструкции robots.txt носят рекомендательный характер. Значит, они могут быть в различных случаях проигнорированы роботами.

Файл следующего содержания запрещает индексацию сайта для всех роботов:

Чтобы запретить индексацию для основного робота поисковой системы Yandex только директории /private/, применяется robots.txt такого содержания:

Как создать и где разместить robots.txt

Файл должен иметь расширение txt. После создания его нужно закачать в корневой каталог сайта с использованием любого FTP-клиента и проверить доступность файла по адресу site.com/robots.txt. При обращении по этому адресу он должен отображаться браузером в полном объеме.

Требования к файлу robots.txt

Веб-мастер всегда должен помнить, что отсутствие в корневом каталоге сайта файла robots.txt или его неправильная настройка потенциально угрожают посещаемости сайта и доступности в поиске.

По стандартам, в файле robots.txt запрещено использование кириллических символов. Поэтому для работы с кириллическими доменами нужно применять Punycode. При этом кодировка адресов страниц должна соответствовать кодировке применяемой структуры сайта.

Другие директивы файла

Эта директива используется роботами всех поисковых систем. Она дает возможность указать зеркало сайта, которое будет главным к индексированию. Это позволит избежать попадания в индекс страниц разных зеркал одного сайта, появления дублей в выдаче ПС.

Если для группы сайтов главное зеркало именно https://onesite.com, то:

Если в файле robots.txt есть несколько значений директивы Host, то индексирующий робот использует только первую из них, остальные будут проигнорированы.

Sitemap

Для быстрой и правильной индексации сайтов используется специальный файл Sitemap или группа таких файлов. Сама директива является межсекционной – она будет учитываться роботом при размещении в любом месте robots.txt. Но обычно ее принято размещать в конце.

При обработке этой директивы робот запомнит и переработает данные. Именно эта информация ложится в основу формирования следующих сессий загрузки страниц сайта для его индексации.

Clean-param

Это дополнительная директива для ботов поисковой системы Yandex. Современные сайты имеют сложную структуру названий. Часто системы управления контентом формируют в названиях страниц динамические параметры. Через них может передаваться дополнительная информация о реферерах, сессиях пользователей и так далее.

Стандартный синтаксис этой директивы описывается следующим образом:

Clean-param: s0[&s1&s2&..&sn] [path]

В первом поле мы видим параметры, которые нужно не учитывать. Они разделяются символом &. А второе поле содержит префикс пути страниц, которые подпадают под действие этого правила.

Допустим, на некотором форуме движок сайта при обращении пользователя к страницам генерирует длинные ссылки типа https://forum.com/index.php? >

Clean-param: id /forum.com/index.php

Crawl-delay

Эта директива предназначается для тех случаев, когда индексирующие роботы создают на сервер сайта слишком высокую нагрузку. В ней указывается минимальное время между концом загрузки страницы сайта и обращением робота к следующей. Период времени задается в секундах. Робот поисковой системы «Яндекс» успешно считывает и дробные значения, например 0.3 секунды.

Crawl-delay: 4.1 # таймаут 4.1 секунды для роботов

На настоящее время эта директива не учитывается роботами поисковой системы Google.

$ и другие спецсимволы

Нужно помнить, что при внесении любых директив по умолчанию в конце приписывается спецсимвол *. В результате получается, что действие указания распространяется на все разделы или страницы сайта, начинающиеся с определенной комбинации символов.

Чтобы отметить действие по умолчанию, применяется специальный символ $.

Disallow: /pictures$ # запрещает ‘/pictures’,

# но не запрещает ‘/pictures.html’

Стандарт использования файла robots.txt рекомендует, чтобы после каждой группы директив User-agent вставлялся пустой перевод строки. При этом специальный символ # применяется для размещения в файле комментариев. Роботы не будут учитывать содержание в строке, которое размещено за символом # до знака пустого перевода.

Как запретить индексацию сайта или его разделов


Запретить индексацию каких-то страниц, разделов или всего сайта через директиву Disallow можно следующим образом.

Правильная настройка robots.txt: подробное руководство

Постараемся в этой статье ответить на вопрос о том, что такое правильный robots.txt и как провести настройку этого файла. В общих чертах, его назначение в том, чтобы оптимизировать процесс краулинга.

Поисковые системы регулярно считывают содержимое каждого сайта для того, чтобы индексировать актуальные страницы и материалы. Robots.txt указывает краулерам, какие разделы сайта нужно просматривать, а какие — нет. С его помощью повышается эффективность процесса — поисковая система обрабатывает сайт быстрее и запоминает релевантную информацию. Не стоит путать это с ускорением загрузки сайта. Впоследствии, когда пользователи будут делать запросы, они увидят ваш сайт в выдаче, в частности, благодаря правильной настройке Robots.txt.

Чтобы анализировать конверсии при изменениях в robots.txt, рекомендуем установить аналитику:

Эффективный маркетинг с Calltouch

  • Анализируйте воронку продаж от показов рекламы до ROI от 990 рублей в месяц
  • Отслеживайте звонки с сайте с точностью определения источника рекламы выше 96%
  • Повышайте конверсию сайта на 30% с помощью умного обратного звонка
  • Оптимизируйте свой маркетинг с помощью подробных отчетов: дашборды, графики, диаграммы
  • Добавьте интеграцию c CRM и другими сервисами: более 50 готовых решений
  • Контролируйте расходы на маркетинг до копейки

Для чего используется Robots.txt

Данный файл говорит краулерам и роботам, какие страницы сайта они должны просматривать, а к каким доступ запрещён. Это важно в связи с тем, что случайно могут быть проанализированы страницы с нерелевантным контентом. В некоторых случаях есть риск запустить бесконечный цикл считывания — например, с календарём, который генерирует новый URL для каждой даты.

Как говорится в спецификации robots.txt для Google , правильный robots.txt должен являться текстовым файлом в кодировке ASCII или UTF-8. Строки или иначе — директивы — должны отделяться типами прерывания CR, CR/LF или LF.

Обращайте внимание на размер файла, так как у каждой поисковой системы свой лимит. Google читает robots.txt не более 500 Кб, а Яндекс посчитает всё содержимое открытым, если файл весит больше 32 Кб.

Где должен располагаться Robots.txt

Файл располагается в корневом каталоге сайта, например, https://www.calltouch.ru/robots.txt .

Внимание: файл строго привязан к адресу домена вплоть до протокола. То есть, для http и https требуется предусмотреть 2 разных robots.txt, даже если затем адреса совпадают. Также один и тот же файл не применим для субдоменов.

Когда используются правила robots.txt

На самом деле веб-сайтам не стоит полагаться на robots.txt в целях контроля краулинга. В первую очередь стоит позаботиться об архитектуре сайта и о том, чтобы сделать его более доступным для поисковых роботов, очистив от всего лишнего. Тем не менее, если на сайте работают плохо оптимизированные разделы, которые лучше скрыть от глаз пользователей, и эти проблемы не устранимы в обозримой перспективе, robots.txt будет правильным решением.

Google рекомендует использовать данный файл только в целях оптимизации работы поискового робота. Иногда чтение плохо индексируемых разделов затягивается.

Вот некоторые примеры страниц и разделов, индексация которых нежелательна:

  • Страницы категорий с нестандартной сортировкой могут повлечь создание дублей основной страницы;
  • Пользовательский контент, не подлежащий модерации;
  • Страницы с конфиденциальной информацией;
  • Внутренние поисковые страницы, которых может насчитываться бесконечное множество.

Когда не стоит прибегать к robots.txt

При грамотном использовании данный файл несёт пользу, но есть ситуации, в которых его применение в целях блокировки краулинга только мешает.

Блокировка Javascript/CSS

Поисковым системам необходим доступ ко всем ресурсам, чтобы корректно рендерить страницы — это необходимая часть ранжирования. Если же, к примеру, Javascript, оказывающий подчас определяющее влияние на функционал страницы и пользовательский опыт отключен, это может привести к плохим результатам вплоть до понижения в выдаче.

Например, если ваша страница содержит редиректы с помощью Javascript, а тот, в свою очередь, закрыт от индексации, робот распознает в таком перенаправлении клоакинг — подмену страницы.

Блокировка по URL

Robots.txt можно использовать для блокировки URL со специфическими параметрами, но это далеко не всегда верное решение. Правильная настройка robots,txt предполагает использование Google Search Console — такой способ будет приемлем с точки зрения поисковых систем.

Можно разместить информацию в самом URL — /items#filter=date, так как краулеры не считывают это. Если URL-параметр должен быть использован обязательно, ссылка может содержать rel=nofollow во избежание индексации.

Блокировка URL с обратными ссылками

Если обратные ссылки запрещены robots.txt, поисковый робот не сможет перейти по ссылкам с других сайтов на ваш ресурс. Из-за этого ваш сайт не получит баллов ранжирования и опустится в выдаче.

Установка правил против краулеров соцсетей

Даже если вы не хотите, чтобы поисковые системы читали ваши страницы, возможно, доступ роботов соцсетей не помешает. Ведь они формируют сниппеты в случае репоста ваших страниц в соцсети. Например, Facebook будет пытаться зайти на каждую страницу, которую постят в нём, чтобы отображать релевантный сниппет.

Блокировка доступа к сайтам в процессе разработки

Использование robots.txt для блокировки всего сайта в процессе разработки хорошо работает. В то же время, Google рекомендует убирать из индексации страницы, но давать возможность роботу их читать. В целом же, следует делать такие сайты недоступными для посещения вообще.

Когда нечего блокировать

Некоторые сайты с весьма чистой архитектурой не испытывают потребности в блокировке каких-либо разделов. В такой ситуации вообще можно не создавать robots.txt, а возвращать страницу 404.

Синтаксис robots.txt

Как настроить robots.txt? Примерно так может выглядеть блок robots.txt, ориентированный на Google.

Комментарии

Комментарии — это строки, которые полностью игнорируются поисковыми системами. Они начинаются со знака # . Они нужны для заметок о том, какие действия выполняют строки файла. Рекомендуется документировать каждую директиву в robots.txt, чтобы она могла быть удалена за ненадобностью или отредактирована.

Указания User-agent

Это блок, который даёт указания поисковым системам и роботам, используя директиву User-agent . Например, если вы хотите установить правила отдельно для Яндекса и Google. Тем не менее, он не применим для Facebook и рекламный сетей — на них можно повлиять только через специальный токен с применением особых правил.

Каждый робот предусматривает собственный user-agent токен.

Краулеры сперва учитывают наиболее точные директивы, разделённые дефисом, а затем переходят к объемлющим. Так, Googlebot News сначала выполнит указания для User-agent «googlebot-news», а потом уже «googlebot» и впоследствии «*».

Наиболее распространённые роботы в российском сегменте — это:

  • Googlebot
  • Mediapartners-Google
  • Yandex
  • Facebook

Конечно, этот список далеко не исчерпывающий. Чтобы ознакомиться с полным перечнем используемых поисковиками и другими системами роботов, лучше прочитайте их документацию.

Наименования роботов в robots.txt нечувствительны к регистру. «Googlebot» и «googlebot» вполне взаимозаменяемы.

Шаблоны адресов

Вместо того, чтобы прописывать большой перечень конечных URL для блокировки, достаточно указать только шаблоны адресов.

Для эффективного использования такой функции понадобится два знака:

  • * — данный символ группировки обозначает любое количество символов. Его лучше располагать в начале или внутри адреса, но не в конце. Можно использовать сразу несколько групповых символов — например, «Disallow: */notebooks?*filter=». Правила с полными адресами не должны начинаться с данного символа.
  • $ — знак доллара означает конец адреса. Так, «Disallow: */item$» будет соответствовать URL, заканчивающемуся на «/item», но не «/item?filter» или подобным.

Обратите внимание, что эти правила уже чувствительны к регистру. Если вы запрещаете адреса с параметром «search», роботы всё ещё будут просматривать адреса, содержащие «Search».

Директивы работают только с телом адреса и не включают протокол или сам домен. Слэш в начале адреса означает, что данная директория располагается сразу после основного каталога. Например, «Disallow: /start» будет соответствовать « www.site.ru/start ».

Пока вы не добавите * или / в начало директивы, она не будет ничему соответствовать. «Disallow: start» не будет иметь смысла — роботы её не поймут.

Чтобы наглядно продемонстрировать правило, приведём таблицу примеров:

Sitemap.xml

Директива Sitemap в robots.txt говорит поисковикам, где найти карту сайта в формате XML. Это поможет им лучше ориентироваться в структуре страниц.

Для Sitemap вы должны указать полный путь, как это сделано у нас: «Sitemap: https://www.calltouch.ru/sitemap.xml ». Также следует отметить, что Sitemap не всегда располагается на том же домене, что и весь сайт.

Поисковые роботы прочитают указанные в robots.txt карты сайтов, но они не появятся в том же Google Search Console, пока вы не дадите на это разрешение.

Блоки в robots.txt

Директива Disallow в robots.txt может использоваться по-разному для многих агентов. Покажем, каким образом могут быть представлены разные комбинации блоков.

Важно помнить, что robots.txt — это всего-навсего набор рекомендаций. Вредоносные краулеры проигнорируют этот файл, прочитав то, что захотят, поэтому бессмысленно использовать robots.txt в качестве меры защиты.

Несколько блоков User-Agent


Вы можете назначить правило сразу нескольким роботам, указав их в начале. Например, следующая директива Disallow будет работать как для Яндекса, так и для Google:

Пустые строки между блоками

Поисковые системы игнорируют пустые строки между директивами. Даже если одна директива будет отделена таким образом от предыдущей, робот всё равно её прочитает:

В следующем примере сразу два робота будут руководствоваться одним правилом:

Комбинация отдельных блоков

Разные блоки, в которых указан один и тот же агент, будут учитываться. Таким образом, Google не станет читать оба раздела, указанных в файле:

Директива Allow

Эта директива даёт доступ к указанному разделу. Вообще она действует по умолчанию, но может применяться для отмены ранее поставленного правила Disallow для вложенного раздела. Если вы запретили доступ к «/notebooks», а затем указали директиву «Allow: /notebooks/gamers», то директория /notebooks/gamers окажется читаема для краулеров, даже с учётом того, что вышестоящая запрещена к просмотру.

Приоритеты в robots.txt

Если указано несколько правил Allow и Disallow, роботы обращают внимание на те, у которых больше длина в знаках. Рассмотрим пример пути «/home/search/shirts»:

В этом случае весь путём разрешён к чтению, так как директива Allow содержит 9 знаков, а Disallow — максимум 7. Если вам нужно обойти это правило, то для увеличения длины строки можно добавлять * .

Если длина Allow и Disallow совпадает, то приоритет отдаётся Disallow.

Директивы robots.txt

Директивы robots.txt помогают снизить затраты ресурсов на краулинг. Вы упредительно добавляете правила в robots.txt вместо того, чтобы ждать, пока поисковые системы считают все страницы, а затем предпринимать меры. Такой подход гораздо быстрее и проще.

Следующие директивы работают аналогично Allow и Disallow, используя символы * и / .

Noindex

Директива Noindex полезна для повышения точности индексирования. Disallow никак не избавляет от необходимости индексации указанную страницу, в то время как Noindex позволяет убрать страницу из индекса.

Но тот же Google официально не поддерживает директиву Noindex — ситуация может измениться со дня на день. В подобной неопределённости лучше использовать данный инструмент для решения краткосрочных задач, как дополнительную меру, но не основное решение.

Файл robots.txt-полное руководство

Автор: Эдуард Бунаков · 26 ноября 2020

Файл robots.txt является одним из основных способов сообщить поисковой системе к каким частям веб-сайта у нее есть доступ. Все ведущие поисковые системы поддерживают основные функциональные возможности, указанные в этом файле, а некоторые из них реагируют на дополнительный набор правил, который также может оказаться полезным.

Это руководство охватывает все особенности использования файла robots.txt в рамках вашего веб-сайта, но хотя все кажется простым, любые ошибки в нем могут серьезно навредить сайту, так что обязательно прочитайте всю статью и убедитесь в том, что все понятно перед тем как погрузиться в написание robots.txt.

Что представляет собой файл robots.txt?

Файл robots.txt – текстовый файл, который просматривается веб-пауками и следует строго определенному синтаксису. Этих пауков еще называют роботами. Имя файла и его синтаксис должны быть строго определенны уже просто потому, что он должен быть доступен для считывания компьютерам. Это означает, что права на ошибку попросту нет – все как в двоичной системе исчисления – результат либо 1, либо 0.

Файл robots.txt, ещё называемый стандартом исключений для роботов, представляет собой результат консенсуса между разработчиками первых поисковых роботов. Он не является официально принятым ни одной из организаций по стандартизации, но все основные поисковые системы его придерживаются.

Какие функции выполняет файл robots.txt?

Поисковые системы проводят индексацию страниц в Интернете, используя веб-краулеры, которые перемещаются по ссылкам с сайта A на сайт B, с сайта B на сайт C и т.д. Перед тем как поисковый паук перейдет на любую страницу, ранее не посещаемого им домена, он откроет файл домена robots.txt, благодаря которому поисковая система определит какие URL-адреса на сайте разрешено индексировать.

Поисковые системы кэшируют содержимое файла robots.txt, но как правило обновляют сведения до нескольких раз в день, поэтому изменения вступают в силу довольно быстро.

Где следует размещать файл robots.txt?

Файл robots.txt всегда следует размещать в корневом каталоге вашего домена. Таким образом, если адрес вашего домена www.example.com, файл должен располагаться по адресу https://www.example.com/robots.txt. Но помните! В случае, если ваш домен отвечает на запрос без www., нужно убедиться в том, что по выдаваемому адресу находится тот же самый файл robots.txt! То же самое относится к http и https. Если поисковая система захочет перейти по URL-адресу https://example.com/test, она получит доступ к https://example.com/robots.txt. Если она захочет перейти по тому же адресу, но посредством https, она также получит доступ к файлу robots.txt вашего https сайта, которым является https://example.com/robots.txt.

Кроме того, очень важно, чтобы в названии вашего файла robots.txt не было ошибок. Имя чувствительно к регистру, поэтому вводите его правильно, в противном случае файл не будет выполнять свои функции.

Плюсы и минусы использования файла robots.txt

«+» краулинговый бюджет

Поисковый паук посещает веб-сайт с «разрешением» на сканирование определенного количества страниц, и в SEO это известно, как краулинговый бюджет. Это означает, что при блокировании вами разделов сайта от паука поисковой системы, вы позволите использовать ваш краулинговый бюджет среди других разделов. На первых порах может быть весьма полезно оперативно заблокировать поисковые системы от сканирования некоторых разделов, особенно для сайтов, на которых необходимо провести большую SEO чистку.

Блокировка параметров запроса

Краулинговый бюджет исключительно важен в ситуации, когда ваш сайт, для осуществления фильтрации и сортировки, использует множество параметров строчных запросов. Допустим у вас есть 10 разных параметров запроса, у каждого из них есть свои значения, которые можно как угодно комбинировать. Это приводит к сотням, если не тысячам, возможных URL-адресов. Блокировка всех параметров запроса от сканирования поможет вам сделать так, чтобы поисковая система осуществляла сканирование лишь основных URL-адресов на сайте и не попала в огромную ловушку, созданную вами в случае отказа от блокировки этих параметров.
Эта строка блокирует все URL-адреса вашего сайта, содержащие строчный запрос:
Disallow: /*?*

«-» страница остается в результатах поиска

Несмотря на то, что вы можете воспользоваться файлом robots.txt, чтобы сообщить пауку о запрещенных для сканирования страницах вашего сайта, вы не можете использовать этот файл, чтобы запретить поисковой системе отображать определенные URL-адреса в результатах поиска – иначе говоря, блокировка не будет препятствовать индексации. Если поисковая система найдет достаточно ссылок на этот URL-адрес, она включит его в результаты поиска, просто не будет знать, что находится на странице.

Если хотите заблокировать отображение страницы в результатах поиска наверняка, вам нужно использовать мета-тег robots со значением параметра content=“noindex”. Это значит, что для поиска тега с noindex, поисковой системе нужно иметь возможность доступа к соответствующей странице, поэтому не вздумайте заблокировать ее с помощью robots.txt.

«-» нельзя воспользоваться ценностью ссылки

Если поисковая система не способна просканировать страницу, она не может указывать на ценность конкретной ссылки другим ссылкам на этой странице, а если способна просканировать (не индексировать) – тогда может. Когда страница заблокирована файлом robots.txt, ссылка теряет любую ценность.

Синтаксис файлов robots.txt

Файл robots.txt для WordPress

У нас есть целая статья, посвященная тому, как настроить файл robots.txt для WordPress наилучшим образом. Не забывайте о том, что этот файл можно редактировать.

Файл robots.txt состоит из одного или более наборов инструкций, каждый из которых начинается со строки user-agent. “User-agent” является именем определенного паука, которому адресованы эти наборы. Также можно ограничиться одним набор инструкций для всех поисковых систем, используя метод wild-card для user-agent или определенные наборы инструкций для определенных поисковых систем. Паук поисковой системы всегда будет выбирать набор инструкций, с наибольшим соответствием его названию. Эти наборы выглядят следующим образом (мы расскажем об этом ниже):

User-agent: bingbot
Disallow: /not-for-bing/

Директивы вроде Allow и Disallow не чувствительны к регистру, так что вам решать строчными или прописными буквами их записывать. Со значениями дела обстоят наоборот, /photo/ и /Photo/ будут восприниматься по-разному. Нам нравится начинать директивы с заглавной буквы, поскольку это упрощает чтение файла (для человека).

Директива User-agent

Каждый набор инструкций (директив) начинается с user-agent, который определяет конкретного паука. Поле агента пользователя сопоставляется с аналогичным полем (как правило больших размеров) конкретного паука. Так, к примеру, у популярнейшего паука от Google, user-agent имеет следующее значение:

Mozilla/5.0 (compatible; Googlebot/2.1;
+https://www.google.com/bot.html)

Таким образом, если вы хотите определять действия такого паука, относительно простой строчки User-agent: Googlebot будет достаточно.

У большинства поисковых систем паук не один. У них определен свой паук для: индексации, рекламных приложений, графики, видео и т.д.

Поисковые системы всегда будут руководствоваться наиболее конкретными наборами инструкций, которые смогут найти. Скажем у вас есть 3: один для *, второй для Googlebot и третий для Googlebot-News. Если бот наткнется на ту, пользовательский агент которой Googlebot-Video, он станет придерживаться ограничений, установленных Googlebot. Бот с пользовательским агентом Googlebot-News будет руководствоваться более специфическими директивами Googlebot-News.

Самые популярные пользовательские агенты для поисковых роботов

Вот список пользовательских агентов, которые можно указать в файле robots.txt, для достижения «гармонии» с наиболее распространенными поисковыми системами:

Поисковая система Область применения Пользовательский агент (user-agent)
Bing General bingbot
Bing General msnbot
Bing Images & Video msnbot-media
Bing Ads adidxbot
Google General Googlebot
Google Images Googlebot-Image
Google Mobile Googlebot-Mobile
Google News Googlebot-News
Google Video Googlebot-Video
Google AdSense Mediapartners-Google
Google AdWords AdsBot-Google
Yahoo! General slurp
Yandex General yandex

Директива Disallow

Второй строкой в любом наборе инструкций является Disallow. У вас может быть более одной подобной строки, с помощью которых вы определите к каким разделам сайта конкретные пауки не могут получить доступ. Пустая строка Disallow означает отсутствие запретов с вашей стороны, проще говоря у паука остается возможность доступа к любым разделам вашего сайта.

В приведенном ниже примере всем поисковым системам, которые “прислушиваются” к файлу robots.txt, запрещается сканирование вашего сайта.

А в этом примере, в котором всего-то на один символ меньше, любой поисковой системе дозволено провести его полное сканирование.

В очередном примере, указанном ниже, поисковой системе Google запрещено сканировать на вашем сайте директорию Photo и все что в ней находится.

User-agent: googlebot
Disallow: /Photo

Это означает, что все подкаталоги в директории /Photo избегут сканирования. Но поскольку строки в коде чувствительны к регистру, поисковой системе Google не будет запрещен доступ к директории /photo.

Как применять метод wildcard (регулярные выражениями)

Стандарт файла robots.txt «официально» не поддерживает регулярные выражения (wild-card метод), однако все основные поисковые системы их отлично понимают, что дает вам возможность ограничивать доступ к группам файлов, воспользовавшись следующими строками:

Disallow: /*.php
Disallow: /copyrighted-images/*.jpg

В приведенном выше примере, символ * можно представить в виде любого соответствующего имени файла. Обратите внимание на то, что оставшаяся часть строки все еще чувствительна к регистру, таким образом вторая строка в примере не запретит сканирование файла с названием /copyrighted-images/example.JPG.

Некоторые поисковые системы, вроде Google, допускают использование более сложных регулярных выражений, но имейте ввиду, что есть и такие, которые могут не понять такой логики. Наибольшая польза, которую можно из всего этого извлечь заключается в функции символа $, указывающего на окончание URL-адреса. В следующем примере все наглядно показано:

Запись означает, что адрес /index.php индексировать запрещено, а адрес /index.php?p=1 разрешено. Конечно же пользу от этого можно извлечь лишь в очень специфических обстоятельствах, а еще это довольно опасно: легко можно открыть доступ к вещам, открывать доступ, к которым на самом деле не хотелось.

Нестандартные директивы robots.txt

Наряду с директивами Disallow и User-agent существует ряд других доступных для использования. Они не поддерживаются всеми краулерами, поэтому вам следует учитывать имеющиеся ограничения.

Директива Allow

Говорить о ней начали уже давно, несмотря на отсутствие оригинальной «спецификации». Похоже, что большинство поисковых систем ее понимают, что позволяет писать простые и очень читабельные инструкции вроде этих:

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Единственным способом добиться такого результата без использования директивы allow является индивидуальное применение директивы disallow к каждому файлу, размещенному в каталоге wp-admin.


Директива host

Поддерживаемая Yandex (и не поддерживаемая Google, чтобы там не писали в некоторых статьях), эта директива позволяет определить какой из адресов example.com или www.example.com будет отображать поисковая система. Желаемого результата можно добиться, просто вписав следующую строку:

Но поскольку ее поддерживает лишь Yandex, мы бы не советовали на нее полагаться, тем более что данная директива, к тому же не позволяет выбрать схему (http или https). Более правильным решением, подходящим для всех поисковых систем, является 301 редирект имен всех хостов, которые вы не хотите индексировать на желаемый в плане индексации адрес. Мы перенаправляем наш www. сайт на сайт без www.

Директива crawl-delay

Поисковики Yahoo!, Bing и Yandex, что касается индексации, порой могут быть откровенно «голодными», но к счастью все они откликаются на директиву crawl-delay, которая несколько их сдерживает. И хотя алгоритмы прочтения директивы для этих поисковых систем отличаются, конечный результат в целом один и тот же.

Строка, указанная ниже даст поисковым системам Yahoo! и Bing указание ожидать 10 секунд после каждого действия направленного на индексацию страницы, Yandex же будет получать доступ к странице раз в 10 секунд. Это семантические различия, но все же любопытные. Вот пример строки crawl-delay:

Пользуясь директивой crawl-delay соблюдайте осторожность. Устанавливая ее значение на 10 секунд, вы позволите этим поисковым системам индексировать лишь 8640 страниц в день. Это может показаться достаточным для небольшого сайта, но для больших это не так уж и много. С другой стороны, практически полное отсутствие трафика от этих поисковиков, хорошо скажется на пропускной способности сайта.

Файл Robots.txt — что это такое и зачем он нужен?

Сегодня мы подробно рассмотрим файл robots txt – что это такое, зачем он нужен и как с ним работать. Понятие термина robots txt описывается на множестве сайтов и блогов. Однако везде статьи данной тематики существенно отличаются друг от друга. А потому пользователи путаются в них, как рыба в сетях.

Файл Robots txt – что за страшный зверь?

Robots.txt представляет собой файл. Это стандартный текстовый документ, сохраненный с применением кодировки UTF-8. Он создается специально для работы с такими протоколами, как:

Файл несет в себе важную функцию – он нужен для того, чтобы показывать поисковому роботу, что конкретно подлежит сканированию, а что закрыто от сканирования.

Обратите внимание! Крайне важно, чтобы файл сохранялся в кодировке UTF-8. Если это условие будет не выполнено, поисковые роботы неправильно интерпретируют команды, заложенные в документе.

Все правила, требования, рекомендации, которые указаны в robots.txt актуальны лишь для конкретного хоста, а также протокола и номера порта, где непосредственно и находится описываемый нами файл.

Кстати, сам robots.txt находится в корневом каталоге и представляет собой стандартный текстовый документ. Его адрес следующий https://admin.com /robots.txt., где admin.com – имя вашего сайта.

В прочих файлах ставится специальная пометка Byte Order Mark или ее еще называют аббревиатурой ВОМ. Данная пометка представляет собой юникод-символ – он требуется для того, чтобы установить четкую последовательность считываемой информации в байтах. Кодовый символ – U+FEFF.

А вот в начале нашего robots.txt пометка последовательной считываемости пренебрегается.

Важно! Следите за «весом» файла robots.txt. Так, поисковая система Google требует, что его размер не превышал 500 килобайт.

Отметим непосредственно технические характеристики robots.txt. В частности, упоминания заслуживает тот факт, что файл являет описание, представляемой в BNF-форме. И применяются правила RFC 822.

Что именно и как обрабатывает файл?

Считывая указанные в файле команды, роботы поисковых систем получают от следующие команды к исполнению (одну из нижеперечисленных):

  • сканирование только отдельных страниц – это называется частичный доступ;
  • сканирование всего сайта в целом – полный доступ;
  • запрет на сканирование.

Проводя обработку сайта, роботы получают определенные ответы, которые могут быть следующими:

  • 2хх – сканирование сайта было выполнено успешно;
  • 3хх – робот переходит по переадресации, пока ему не удалось получить другой ответ. В большинстве случаев для этого необходимо пять попыток, дабы найти ответ, который будет отличаться от 3хх. Если за пять попыток ответ не получен, будет зафиксирована ошибка 404;
  • 4хх – робот уверен, что следует провести сканирование всего сайта;
  • 5хх – такой ответ расценивается, как временная ошибка сервера, а проведение сканирования запрещается. Поисковый робот будет «стучаться» к файлу так долго, пока им не будет получен ответ. При этом робот от Google проводит оценку корректности или некорректности ответов. В данном случае следует говорить о том, что если вместо традиционной ошибки 404 получен ответ 5хх, то в данной ситуации робот обработает страницу с ответом 404.

Обратите внимание! На момент написания статья так еще и не было понятно, как именно проводится обработка файла robots.txt, который в момент обращения к нему поисковых роботов недоступен из-за того, что у сервера возникают проблемы с доступом к интернету.

Дерективы файла Robots txt – для каких целей они необходимы?

К примеру, есть ситуации, когда необходимо ограничить посещение роботами:

  • страниц, на которых располагает личная информация владельца;
  • страниц, на которых размещены те или иные формы для передачи информации;
  • зеркал сайта;
  • страниц, на которых помещаются результаты поиска и т.д.

Обратите внимание! Даже если вы ограничите посещение страницы поисковыми роботами, она может в конечном итоге появится в результатах поисковой выдачи, но только в том случае, если на нее имеется ссылка либо на вашем сайте, либо на каком-то другом ресурсе.

На схеме ниже представлено, как поисковые роботы видят отдельные страницы сайта при наличии robots.txt и при его отсутствии.

Если не использовать дерективы файла robots txt, то все данные, информация, которые не предназначены для людей, в конечном итоге будет оказываться в результатах поисковой выдачи, от чего будете страдать не только вы, как владелец сайта, но и сам сайт!

Как создать файл robots txt: подробная инструкция

Для создания такого файла можете использовать фактически любой редактор текста, например:

В этом «документе» описывается инструкция User-agent, а также указывается правило Disallow, но есть и прочие, не такие важные, но необходимые правила/инструкции для поисковых роботов.

User-agent: кому можно, а кому нет

Наиболее важная часть «документа» — User-agent. В ней указывается, каким именно поисковым роботам следует «посмотреть» инструкцию, описанную в самом файле.

В настоящее время существует 302 робота. Чтобы в документе не прописывать каждого отдельного робота персонально, необходимо указать в файле запись:

Такая пометка указывает на то, что правила в файле ориентированы на всех поисковых роботов.

У поисковой системы Google основной поисковый робот Googlebot. Чтобы правила были рассчитаны только на него, необходимо в файле прописать:

При наличии такой записи в файле прочие поисковые роботы будут оценивать материалы сайта по своим основным директивам, предусматривающим обработку пустого robots.txt.

У Яндекс основной поисковый робот Yandex и для него запись в файле будет выглядеть следующим образом:

При наличии такой записи в файле прочие поисковые роботы будут оценивать материалы сайта по своим основным директивам, предусматривающим обработку пустого robots.txt.

Прочие специальные поисковые роботы

  • Googlebot-News — используется для сканирования новостных записей;
  • Mediapartners-Google — специально разработан для сервиса Google AdSense;
  • AdsBot-Google — оценивает общее качество конкретной целевой страницы;
  • YandexImages — проводит индексацию картинок Яндекс;
  • Googlebot-Image — для сканирования изображений;
  • YandexMetrika — робот сервиса Яндекс Метрика;
  • YandexMedia — робот, индексирующий мультимедиа;
  • YaDirectFetcher — робот Яндекс Директ;
  • Googlebot-Video — для индексирования видео;
  • Googlebot-Mobile — создан специально для мобильной версии сайтов;
  • YandexDirectDyn — робот генерации динамических баннеров;
  • YandexBlogs — робот поиск по блогам, он проводит сканирование не только постов, но даже комментарие;
  • YandexDirect — разработан для того, чтобы анализировать наполнение партнерский сайтов Рекламной сети. Это позволяет определить тематику каждого сайта и более эффективно подбирать релевантную рекламу;
  • YandexPagechecker — валидатор микроразметки.

Перечислять прочих роботов не будем, но их, повторимся, всего насчитывается более 300-т. Каждый из них ориентирован на те или иные параметры.

Что такое Disallow?

Disallow – указывает на то, что именно не подлежит сканировании на сайте. Чтобы весь сайт был открыт для сканирования поисковыми роботами, необходимо вставить запись:

А если вы хотите, чтобы весь сайт был закрыт для сканирования поисковыми роботами, в файле введите следующую «команду»:

Такая «запись» в файле будет актуальна в том случае, если сайт еще не полностью готов, вы планируете вносить в него изменения, но чтобы в нынешнем своем состоянии он не отображался в поисковой выдаче.

Обратите внимание! Однако эту команду следует снять, как только сайт будет окончательно сформирован. Хотя некоторые веб-мастера забывают об этом.

И еще несколько примеров, как прописать ту или иную команду в файле robots.txt.

Чтобы роботы не просматривали конкретную папку на сайте:

Чтобы закрыть от сканирования определенный URL:

Чтобы закрыть от сканирования определенный файл:

Disallow: /image/имя файла и его расширение

Чтобы закрыть от сканирования все файлы конкретного разрешения:

Disallow: /*.имя расширение и значок $ (без пробела)

Allow — команда для направления роботов


Allow – эта команда дает разрешение на сканирования определенных данных:

В качестве примера рассмотрим ситуацию, когда важно, чтобы роботы могли просмотреть лишь те страницы, которые начинаются с /catalog, а все остальное содержимое сайта подлежит закрытию. Команда в файле robots.txt будет выглядеть следующим образом:

Обратите внимание! «Правила» Allow и Disallow отсортировываются в зависимости от длины префикса URL, в частности сортировка идет от наиболее маленького к наибольшему. Их применение осуществляется строго последовательно. Однако, если для одной страницы сайта будут актуальными сразу несколько правил, поисковый робот выберет последнее из них в отсортированном списке команд.

Host + в файл robots txt или как выбрать зеркало для вашего сайта

Внесение команды host + в файл robots txt является одной из нескольких обязательных задач, которые нужно сделать в первую очередь. Она предусмотрена для того, чтобы поисковый робот понимал, какое зеркало сайта подлежит индексации, а какое – не следует учитывать при проведении сканирования страниц сайта.

Кстати! Зеркалом сайта называют копию ресурса (точную или весьма близкую к основному сайту), доступ к которой возможен по нескольким адресам.

Такая команда позволит роботу избежать путаницы в случае обнаружения зеркала, а также понять, что является главным зеркалом ресурса – оно указывается в файле robots.txt.

При этом адрес сайта указывается без «https://», однако, если ваш ресурс работает на HTTPS, в таком случае соответствующая приставка должна быть обязательно указана.

Данное правило прописывается следующим образом:

User-agent: * (имя поискового робота)

Если же сайт работает по протоколу HTTPS, команда будет прописана следующим образом:

User-agent: * (имя поискового робота)

Host: https:// имя сайта

Sitemap – что это такое и как работать с ней?

Sitemap необходима для того, чтобы передать поисковым роботам информацию о том, что все URL-адреса сайта, открытые для сканирования и индексации, расположены по адресу https://site.ua/sitemap.xml.

Во время каждого посещения и сканирования сайта, поисковый робот будет изучать, какие именно изменения были внесены в данный файл, тем самым обновляя информацию о сайте в своей базе данных.

Вот как правильно прописать эти «команды» в файле robots.txt:

Crawl-delay — если сервер слабый

Crawl-delay необходимый параметр для тех сайтов, которые находятся на слабых серверах. С его помощью у вас есть возможность устанавливать конкретный период, через который будут загружаться страницы вашего ресурса.

Ведь слабые серверы провоцируют образование задержек во время обращения к ним поисковых роботов. Такие задержки фиксируются в секундах.

Вот пример, как прописывается данная команда:

Clean-param — если имеет дублирование контента

Clean-param – предназначен для того, чтобы «сражаться» с get-параметрами. Это необходимо для того, чтобы исключить вероятное дублирование контента, который в итоге будет доступен поисковым роботам по различным динамическим адресам. Подобные адреса появляются в том случае, если на ресурсе имеются разные сортировки или т.п.

К примеру, конкретная страница может быть доступна по следующим адресам:

В подобной ситуации в файле robots.txt будет присутствовать следующая команда:

Clean-param: ref /foto/ tele.ua

В данном случае параметр ref показывает, из какого именно места идет ссылка, а потому она прописывается непосредственно в самом начале, а только после этого прописывается оставшаяся часть адреса.

Какие символы используются в robots.txt

Чтобы не ошибиться при написании файла, следует знать все символы, которые используются, а также понимать их значение.

Вот основные символы:

/ — он необходим, чтобы закрыть что-то от сканирования поисковыми роботами. Например, если поставить /catalog/ — в начале и в конце отдельной директории сайта, то эта папка будет полностью закрыта от сканирования. Если же команда будет выглядеть, как /catalog, то на сайте окажутся закрытыми все ссылки на сайте, начало которых прописано, как /catalog.

* — указывается на любую последовательность символов в файле и устанавливается в конце каждого правила.

Такая запись говорить, что все роботам запрещено сканирование и индексирование файлов с расширением .gif, которые помещены в папку сайта catalog.

«$» — используется для того, чтобы ввести ограничения на действия знака *. К примеру, вам нужно наложить запрет на все, что находится в папке catalog, но также нельзя запрещать URL, в которых присутствует /catalog, необходимо сделать следующую запись:

— «#» — такой значок предназначен для комментариев, заметок, которые веб-мастер формирует для себя или прочих веб-мастеров, которые также будут работать с сайтом. Такой значок запрещает сканирование этих комментариев.

Выглядеть запись будет следующим образом (к примеру):

Идеальный файл robots.txt: какой он?

Вот пример фактически идеального файла robots.txt, который подойдет если не для всех, то для многих сайтов.

Host: https://имя сайта

Sitemap: https://имя сайта/sitemap.xml.

Давайте проанализируем, что представляет собой данный файл robots.txt. Итак, он позволяет индексировать все страницы сайта и весь контент, который там размещен. Также в нем указываются хост и карта сайта, благодаря чему поисковики будут видеть все адреса, открытые для индексирования.

Кроме того, отдельно указываются рекомендации для поисковых роботов Google.

Однако не стоит просто скопировать этот файл для своего сайта. Во-первых, для каждого ресурса следует предусмотреть отдельные правила и рекомендации. Они напрямую зависят от платформы, на которой вы создали сайт. Поэтому помните все правила заполнения файла.

Как проверить файл robots.txt

Чтобы убедиться, что файл создан правильно, для его проверки воспользуйтесь сервисами инструментов веб-мастеров от Яндекс и Google .

Сделать это весьма просто – достаточно просто указать исходный код вашего файла, поместив его в специальную форму, а также указать сайт, который вы собираетесь проверить.

Как не стоит заполнять файл robots.txt: простые рекомендации

Нередко веб-мастера допускают ошибки – зачастую, досадные. Чаще всего причина таких ошибок кроется в банальной невнимательности. Мы представим вам несколько примеров таких ошибок, а также укажем, как должно быть правильно.

Ошибки в инструкциях

В одной инструкции указано несколько папок

Disallow: /catalog/ /papka/ /photo/

Подобные инструкции приведут к тому, что поисковые роботы просто запутаются, что именно подлежит индексации, а что нет. То ли первая папка, то ли последняя. Поэтому нужно каждое правильно прописывать отдельно.

Прочие ошибки

  1. Ошибки в названии файла. Название – только robots.txt, но не Robots.txt, не ROBOTS.TXT и никак по-другому!
  2. Правило User-agent обязательно должно быть заполненным – нужно указывать, либо какой конкретно робот должен учитывать его, либо вообще все.
  3. Наличие лишних знаков.
  4. Присутствует в файле страниц, которые не должны индексироваться.

Что мы узнали о файле robots txt

Файл Robots txt – играет важную роль для каждого отдельного сайта. В частности, он необходим, чтобы устанавливать определенные правила для поисковых роботов, а также продвигать свой сайт, компанию.

Кроме того, данный файл открывает широкое поле для экспериментов, но проводить их следует только в том случае, если вы досконально разобрались, как именно прописывать инструкции!

Подробнее о файле Robots txt и о создании сайтов в целом, вы можете узнать придя на мой бесплатный 4-х дневный тренинг по созданию сайтов с нуля, где я дам пошаговую инструкцию. Я помогу вам воплотить в жизнь свою мечту. Единственное, о чем хотел бы вас предупредить – будьте готовы к тому, что вам придется много работать. Успех просто так никому не дается!

Важный файл robots.txt: как правильно его составить

Поисковые роботы индексируют всё, что находят. Даже админпанель с личной информацией. Robots.txt — это специальный файл для ботов с правилами, по которым они начинают работать с вашим сайтом. В этом файле вы и прописываете всё, что разрешаете или запрещаете им делать.

Важный файл robots.txt

Для чего нужен

Для того, чтобы ваш сайт быстрее индексировался, в поиск не попадали ненужные страницы или приватная информация. «Ненужные страницы» — это дубликаты товарных категорий, личная информация, формы отправки данных, страницы с результатами поиска и т.п. Robots.txt устанавливает строгие правила для поисковиков, если же эти правила не указать, то вся ваша информация окажется в сети и удалить её из архивов интернета будет практически нереально.

Где писать этот файл и где его располагать

Писать можно в любом удобном для вас редакторе — в обычном встроенном блокноте для Windows, NotePad или Word — не суть. Главное, чтобы этот файл был сохранён в текстовом формате, то есть с расширением .txt.

В нашей системе вставить инструкцию для поисковых ботов на сайт очень просто: выберите в левой панели управления сайтом раздел «Реклама/SEO → Управление robots.txt».

Управление robots.txt находится в разделе «Реклама/SEO»

И в открывшееся поле вы просто вставляете готовую инструкцию (с помощью функции «копировать — вставить»).

На нашем сервисе файл robots.txt автоматически генерируется системой. В большинстве случаев он полностью отвечает всем требованиям поисковых роботов и закрывает от индексации те страницы, которые не должны быть на виду. Но вы можете создать свою инструкцию или внести любые изменения в готовый файл. В случае необходимости всегда можно восстановить первоначальный вариант.

Правила синтаксиса robots.txt


Поисковый робот учитывает только определённые выражения и алгоритмы. Поэтому инструкция составляется на понятном ему «языке». Вот основные команды, которые «понимает» робот:

  • User-Agent: Имя бота поисковой системы. Для Яндекса это Yandex, для Google — Google-bot, для Mail.ru — Mail.ru. Весь список названий роботов-поисковиков перечислен на этой странице.
  • Allow — команда «разрешить».
  • Disallow — команда «запретить».
  • Host — имя вашего хостера (на 1C-UMI это robot.umi.ru).

Директива Allow не является обязательной, а вот Disallow нужно указывать. По умолчанию файл robots.txt разрешает всё, поэтому прописывать нужно только запрещающие команды.

Правильный синтаксис написания: команда → двоеточие → пробел → слеш (/) → точное наименование страницы.

Точное наименование страницы — это весь путь, который ведёт на указанную страницу, начиная с главной: мойсайт.рф — мода — женская мода — верхняя одежда — пальто — чёрное пальто в горошек.

  • Вы разрешаете поисковому боту Яндекс индексировать всё, кроме страницы «Контакты»:
    • User-Agent: Yandex
    • Allow:
    • Disallow: /contacts
  • Если вы разрешаете индексировать сайт всем поисковым системам, то после User-Agent нужно поставить знак *:
    • User-Agent: *
  • Если вы ничего не запрещаете к индексации, то после disallow ничего не ставите:
    • Disallow:
  • Если вы запрещаете какому-то определённому боту индексировать свой сайт, то ставите его имя и запрещающую команду disallow вместе со слешем:
    • User-Agent: googlebot-image (робот-поисковик по картинкам в Гугл)
    • Disallow: /

Disallow относится только к тому боту, который указан перед командой. Для каждого робота нужно прописывать команды индивидуально.

Как не запутаться в названиях ботов и командах

Есть удобная функция «комментарий», которую вы можете использовать при составлении robots.txt. Всё, что вы хотите прокомментировать, оставить какое-либо уточнение, отмечайте символом #. Всё, что будет написано после этого знака, роботом не учитывается.

Disallow: /Price/ #Не индексировать каталог с ценами.

Как установить период захода на сайт робота-поисковика

Чтобы уменьшить нагрузку на сервер, нужно использовать директиву (команду для робота-поисковика) Crawl-delay. Она устанавливает период, за который робот-поисковик должен обойти сайт, или время, за которое робот просмотрит все страницы сайта и внесёт их в индекс. Другими словами, эта директива позволяет ускорить обход сайта роботом. Обычно устанавливается на сайт-многостраничник. Если у вас страниц ещё немного, не больше двухсот, то этот параметр можно не указывать.

Прописывается это так:

  • User-Agent: Yandex
  • Disallow: /contacts
  • Craw-delay: 2 #Тайм-аут обхода 2 секунды

Тайм-аут обхода вы можете указать любой. Это не гарантирует, что на ваш сайт робот будет заходить каждые 2 (3, 4, 5…) секунд, вы просто даёте ему приблизительное время обхода. Если ваш сайт уже хорошо ранжируется, то роботы будут заходить на него чаще, если сайт ещё молод, то реже. В справке Яндекс об этом параметре написано подробней.

Ошибки при составлении robots.txt

Рассмотрим самые популярные ошибки, которые совершают пользователи при создании файла.

Ошибки

Правильно

Путаница в инструкциях

Несколько каталогов в одной строке Disallow

Disallow: /moda/ hat/ images

Пустая строка в указании имени поискового робота

Заглавные буквы

Перечисление каждого файла в категории

Disallow: / moda/ krasnoe-palto.html

Disallow: /moda/ sinee-palto.html

Disallow: /moda/ zelenoe-palto.html

Disallow: /moda/ seroe-palto.html

Disallow: /price/ women.html

Disallow: /price/ men.html

Не забывайте про знак слеш (/). Если его не будет, то робот запретит к индексации все файлы и категории с таким же названием. Например, если вы не укажете слеш в директиве: “Disallow: moda”, то из индекса выпадут все страницы, рубрики и категории, где встречается это название.

Правила написания robots.txt

  • Каждую команду надо писать с новой строки.
  • В одной строке — одна директива.
  • В начале строки не должно быть пробела.
  • Команды не берут в кавычки.
  • В конце директивы не ставится точка с запятой, запятая или точка.
  • Disallow: равнозначно Allow: / (всё разрешено).
  • Поисковые роботы чувствительны к регистру букв — прописывайте имена файлов и категорий точно так же, как они указаны на вашем сайте.
  • Если у вас нет robots.txt, это сигнал для поисковиков, что запрещений нет, индексировать можно всё.
  • В robots.txt используется только английский язык. Все другие языки игнорируются.

Как проверить robots.txt на правильность написания

Есть специальные сервисы, которые проверяют, правильно ли составлен разрешающий файл. Проверьте свой robots.txt на сайте Яндекс или в Гугл.

Автоматическое создание robots.txt

Директивы — базовая информация

Если директивы не прописать вовсе, поисковик скачает с вашего сайта всю информацию и проиндексирует. Последствием этих действий станет его медленная загрузка. Очевидно, что такие сайты меньше посещают пользователи и не помещают в вершинах выдачи поисковые системы.

Ниже перечислим разные типы директив, с пояснениями.

User-agent

Если перевести на простой язык, то «User-agent» — это призыв к некоему действию. После этого директива обычно прописывается наименование robots.txt, которому сообщается информация, а далее — уже сама информация. Иными словами, User-agent — самая важная директива для robots.txt.

Вот так выглядят директивы User-agent для разных поисковых машин:

  • User-agent: *; — для всех видов роботов.
  • User-agent: Yandex; — для роботов поисковика Яндекс.
  • User-agent: Googlebot. — для роботов поисковика Google.
  • User-agent: Mail.Ru. — для роботов Mail.ru
  • User-agent: Slurp – для роботов Yahoo!
  • User-agent: MSNBot – для роботов MSN
  • User-agent: StackRambler – для роботов Рамблера.

Disallow

Директива, запрещающая индексировать те или иные странички веб-сайта. Веб-мастера советуют прописывать ее для следующих типов страниц:

  • Корзине и всем сопутствующим оформлению заказа страничкам.
  • Поисковым формам.
  • Административной панели сайта.
  • Ajax, Json — эти скрипты выводят всплывающие формы для заполнения, рекламные баннеры и так далее.

Allow

Это директива, наоборот, открывает страничку сайта для чтения роботом.

Sitemap

Простыми словами — директива, отображающая карту вашего сайта. Сообщая роботу структуру вашего сайта, вы ускоряете его индексацию.

Host

Указывает поисковому роботу на зеркало вашего сайта, куда будут попадать пользователи.


Crawl-delay

Помогает снижать нагрузку на сервер, задавая минимальный временной интервал между обращениями к сервису.

Как не допустить грубейших ошибок в роботсе

Вы знаете, насколько важна индексация — это основа основ в продвижении сайтов. Потому что если ваш сайт не индексируется, то хрен вы какой трафик из поиска получите. Если он индексируется некорректно — то у вас даже при прочих идеальных условиях будет обрубаться часть трафика. Тут все просто — если вы, например, запретили к индексации папку с изображениями, то у вас почти не будет по ним трафа (хотя многие сознательно идут на такой шаг).

Индексация сайта — это процесс, в ходе которого страницы вашего сайта попадают в Яндекс, Гугл или другой поисковик. И после этого пользователь может найти страницу вашего сайта по какому-нибудь запросу.

Управляете вы такой важной штукой, как индексация, именно посредством файла robots.txt. Начну с азов.

Что такое robots.txt

Robots.txt — файл, который говорит поисковой системе, какие разделы и страницы вашего сайта нужно включать в поиск, а какие — нельзя. Ну то есть он говорит не поисковой системе напрямую, а её роботу, который обходит все сайты интернета. Вот что такое роботс. Этот файл всегда создается в универсальном формате .txt, который сможет открыть даже компьютер вашего деда.

Вот видос от Яндекса:

Основное назначение – контроль за доступом к публикуемой информации. При необходимости определенную информацию можно закрыть для роботов. Стандарт robots был принят в начале 1994 года, но спустя десятилетие продолжает жить.

Использование стандарта осуществляется на добровольной основе владельцами сайтов. Файл должен включать в себя специальные инструкции, на основе которых проводится проверка сайта поисковыми роботами.

Самый простой пример robots:

Данный код открывает весь сайт, структура которого должна быть безупречной.

Зачем закрывают какие-то страницы? Не проще ли открыть всё?

Смотрите — у каждого сайта есть свой лимит, который называется краулинговый бюджет. Это максимальное количество страниц одного конкретного сайта, которое может попасть в индекс. То есть, допустим, у какого-нибудь М-Видео краулинговый бюджет может составлять десять миллионов страниц, а у сайта дяди Вани, который вчера решил продавать огурцы через интернет — всего сотню страниц. Если вы откроете для индексации всё, то в индекс, скорее всего, попадет куча мусора, и с большой вероятностью этот мусор займет в индексе место некоторых нужных страниц. Вот чтобы такой хрени не случилось, и нужен запрет индексации.

Где находится Robots

Robots традиционно загружают в корневой каталог сайта.

Для загрузки текстового файла обычно используется FTP доступ. Некоторые CMS, например WordPress или Joomla, позволяют создавать robots из админпанели.

Для чего нужен этот файл

  • запрета на индексацию мусора — страниц и разделов, которые не содержат в себе полезный контент;
  • разрешение индексации нужных страниц и разделов;
  • чтобы давать разные задачи роботам разных поисковиков — то есть, например, Яндексу разрешить индексировать всё, а Рамблеру — ничего;
  • можно также задавать роботам разные категории. Заморочиться например вплоть до того, что Гуглу разрешить индексировать только картинки, а Яху — только карту сайта;
  • чтобы показать через директиву Host Яндексу, какое у сайта главное зеркало;
  • еще некоторые вебмастера запрещают всяким нехорошим парсерам сканировать сайт с помощью этого файла;

То есть большую часть проблем по индексации он решает. Есть конечно помимо роботса еще и такие инструменты, как метатег роботс (не путайте!), заголовок Last-Modified и другие, но это уже для профессионалов и нужны они лишь в особых случаях. Для решения большинства базовых проблем с индексацией хватает манипуляций с роботсом.

Как работают поисковые роботы и как они обрабатывают данный файл

В большинстве случаев, очень упрощенно, они работают так:

  1. Обходят Интернет;
  2. Проверяют, какие документы разрешено индексировать, а какие запрещено;
  3. Включает разрешенные документы в базу;
  4. Затем уже другие механизмы решают, какие страницы достаточно полезны для включения в индекс.

Справка Google свидетельствует: robots – рекомендация. Файл создается для того, чтобы страница не добавлялась в индекс поисковой системы, а не чтобы она не сканировалась поисковыми системами. Гугл позволяет запрещенной странице попасть в индекс, если на нее направляется ссылка внутри ресурса или с внешнего сайта.

По-разному ли Яндекс и Google воспринимают этот файл

Многие прописывают для роботов разных поисковиков разные директивы. Даже если список этих директив ничем не отличается.

Наверное, это для того, чтобы выразить уважение к Господину Поисковику. Как там раньше делали — «великий князь челом бьет… и просит выдать ярлык на княжение». Других соображений по поводу того, зачем разным юзер-агентам прописывают одни и те же директивы, у меня нет, да и вебмастера, так делающие, дать нормальных объяснений своим действиям не могут.

А те, кто может ответить, аргументируют это так: мол, Google не воспринимает директиву Host и поэтому её нужно указывать только для Яндекса, и вот почему, мол, для яндексовского юзер-агента нужны отдельные директивы. Но я скажу так: если какой-то робот не воспринимает какую-то директиву, то он её просто проигнорирует. Так что лично я не вижу смысла указывать одни и те же директивы для разных роботов отдельно. Хотя, отчасти понимаю перестраховщиков.

Чем может грозить неправильно составленный роботс

Некоторые при создании сайта на WordPress ставят галочку, чтобы система закрывала сайт от индексации (и забывают потом убрать её). Тогда Вордпресс автоматом ставит вам такой роботс, чтобы поисковики не включали ваш сайт в индекс, и это — самая страшная ошибка. Те страницы, на которые вы намерены получать трафик, обязательно должны быть открыты для индексации.

Потом, если вы не закрыли ненужные страницы от индексации, в индекс может попасть, как я уже говорил выше, очень много мусора (ненужных страниц), и они могут занять в индексе место нужных страниц.

Вообще, если вкратце, неправильный роботс грозит вам тем, что часть страниц не попадет в поиск и вы лишитесь части посетителей.

Как создать файл robots.txt

В Блокноте или другом редакторе создаем файл с расширением .txt, чтобы он в итоге назывался robots.txt. Заполняем его правильно (дальше расскажу, как) и загружаем в корень сайта. Готово!

Вот тут разработчик сайта Loftblog создает файл с нуля в режиме реального времени и делает настройку роботс:

Примеры создания и проверки файла robots.txt : SEOquick

Robots.txt является инструкцией, созданной веб-мастером, которая указывает поисковикам какие страницы и файлы сайта стоит сканировать, а какие нет.

Если правильно его составить, он может стать полезным инструментом для сеошника.

О том, как правильно это сделать читайте в нашей статье.

СОДЕРЖАНИЕ

Файл robot.txt – необходим для большинства сайтов.

Каждый SEO-оптимизатор должен понимать смысл этого файла, а также уметь прописывать самые востребованные директивы.

Чтобы разобраться в том, что такое robot.txt и как он действует, вспомним, как работают поисковики.

Алгоритмы Google Яндекса и других систем выполняют два основных задания:

  1. обход интернета для поиска новой информации;
  2. индексирование контента, чтобы его могли находить пользователи.

Чтобы посетить все сайты, поисковые системы используют доменные имена, переходят с одного ресурса на другой, изучают миллиарды ссылок.

Такое поведение напоминает паука в паутине: он обходит территорию и смотрит, что нового попало в сеть.

После прибытия на веб-сайт, но перед его индексацией, алгоритм поисковика (робот, бот, сканнер) смотрит файл robots.txt.

Если он существует, бот сначала читает его, а потом, в соответствии с инструкциями, продолжает исследовать сайт.

Robots.txt содержит информацию о том, как поисковая система должна сканировать найденные страницы и что с ними делать.

Если файл не содержит директив, запрещающих действие агента (или его нет совсем), бот продолжит индексировать все данные на сайте.

Первое знакомство с Robots.Txt

Некоторые пользовательские агенты могут игнорировать robots.txt.

В какой кодировке создают Robots.txt?

Robots.txt – это текстовый файл, созданный веб-мастером для инструктирования поисковых роботов.

В нем прописаны рекомендации касательно того, как сканировать страницы на данном сайте.

Говоря простым языком – в этом файле указано, куда не надо заходить поисковому роботу, что индексировать для поиска, а что нет.

По сути, это простой текстовый файл, который создают в корневом каталоге сайта.

Всякий раз, когда поисковые агенты приходят на сайт, они ищут робота в одном конкретном месте: основной каталог (обычно корневой домен).

Если пользовательский агент посещает www.nashsite.com/robots.txt и не находит там его, он предполагает, что на сайте этого файла нет вообще и продолжает сканирование всего, что там расположено.

Файл чувствителен к регистру, он должен иметь название «robots.txt» (а не Robots.txt, robots.TXT или иначе).

Некоторые пользовательские агенты могут игнорировать robots.txt.

Это особенно характерно для пиратских сканеров или парсеров адресов электронной почты.

Это общедоступный файл, его может увидеть любой пользователь, поэтому не используйте его, чтобы скрыть особо важную информацию.

В нижней части файла чаще всего указывают, где лежит карта сайта.

Если у Вас сайт (домен) с поддоменами, то в каждом из них в корне должны быть отдельные robots.txt.

Это означает, что и blog.nashsite.com, и nashsite.com должны иметь свои файлы: blog. nashsite.com/robots.txt и nashsite.com/robots.txt.

Памятка: если robots.txt был создан и существует по адресу: nashsite.com/index/robots.txt, www.nashsite.com/homepage/robots.txt, или в иных, не корневых папках, он не будет принят во внимание.

Robots.txt создают в стандартной кодировке UTF-8.

Это важно, потому что другие кодировки поисковые системы могут воспринимать некорректно.

Все, что записано в нем, работает для интернет-протоколов FTP, HTTP и HTTPS.


А если вдаваться в технические подробности, файл robots.txt – это документ в форме Бекса-Наура, которая востребована в различных языках программирования для описания синтаксиса.

Памятка: размер файла Robots.txt для Google ограничен 500Kb

В файле robots есть инструкции как поисковые системы должны обращаться со страницами сайта.

Зачем это нужно?

Для SEO, если на страницах есть ссылки на сторонние ресурсы, не уникальный контент или информация, которую не нужно индексировать.

Ответы на частые вопросы по ссылкам можно получить из нашего видео:

Также в robots.txt можно прописать отдельные правила для различных поисковиков, далее мы подробно рассмотрим, как это делается.

Подробнее о Robots.Txt

Как проверить наличие файла robots.txt?

Файлы robots.txt контролируют доступ поисковых систем к определенным областям сайта.

Это полезно для оптимизации работы веб-ресурса, но может быть опасно, если Вы случайно запретили Googlebot (поисковику гугл) обходить весь сайт.

Вот распространенные случаи, когда используют robots.

  • Чтобы в результатах выдачи не появлялось повторяющиеся или не уникальные тексты. Вообще, рекомендую использовать на сайтах только качественный контент, и ни в коем случае не копировать тексты с других сайтов, но иногда выкладывают инструкции, нормативные акты и другой материал, который нельзя уникализировать. Если система будет их индексировать, рейтинг сайта понизится. Имеет смысл закрывать такие страницы.
  • При создании зеркальных сайтов необходимо сделать так, чтобы в ранжировании участвовал только один. В противном случае поисковик не будет понижать рейтинг (пессимизировать) дублированный контент.
  • При закрытии сохраненных внутренних страниц сайта, результатов поисковой выдачи или иных материалов, используемых в процессе работы. Например, на сайте есть страничка или блок информации для сотрудников компании, совершенно не обязательно открывать ее поисковику.
  • Чтобы скрыть от индексирования карты и географические данные.
  • Изображения, файлы ПДФ и подобный графический контент.
  • Для указания задержки при обходе – чтобы предотвратить перегрузку серверов, когда сканеры читают и индексируют сразу несколько частей сайта.

Если на сайте нет областей, где Вы хотите управлять доступом, файл robots.txt может и не понадобится, но это редкий случай.

Чаще всего он необходим хотя бы для того, чтобы закрыть админку.

Вообще, robots давно стал «must have» среди прочих приемов и инструментов оптимизации сайтов.

Чтобы проверить его наличие, введите в адресную строку корневой домен, затем добавьте /robots.txt в конец URL-адреса.

Например, файл робот Moz находится по адресу: moz.com/robots.txt. Вводим, и получаем страницу:

Инструкции для «робота»

3 типа инструкций для robots.txt.

Если обнаружили, что файл robots.txt отсутствует, создать его несложно.

Как уже было сказано в начале статьи – это обычный текстовый файл в корневом каталоге сайта.

Его можно сделать через админ-панель или файл-менеджер, с помощью которого программист работает с файлами на сайте.

В том, как и что там прописывать, мы разберемся по ходу статьи.

Поисковые системы получают из этого файла инструкции трех типов:

  • сканировать все, то есть полный доступ (Allow);
  • сканировать нельзя ничего – полный запрет (Disallow);
  • сканировать отдельные элементы нельзя (указано какие) – частичный доступ.

На практике это имеет вот такой вид:

Обратите внимание, страница все равно может попасть в выдачу, если на нее установили ссылку на этом сайте или вне его.

Чтобы лучше в этом разобраться, давайте изучим синтаксис этого файла.

Синтаксис Robots.Txt

Важные моменты: что нужно всегда помнить о robots.

Семь общих терминов, которые часто встречаются на сайтах.

В самой простой форме робот имеет такой вид:

Вместе эти три строки считаются самым простым robots.txt.

Здесь мы запретили боту индексировать URL: https://www.nashsite.com/prim1/ и указали где находится карта сайта.

Обратите внимание: в файле robots набор директив для одного пользовательского агента (поисковика) отделен от набора директив для другого разрывом строки.

В файле с несколькими директивами для поисковых систем каждый запрет или разрешение применяется только к поисковику, указанному в этом конкретном блоке строк.

Это важный момент и о нем нельзя забывать.

Если файл содержит правила, применимые к нескольким пользовательским агентам, система будет отдавать приоритет директивам, которые прописаны конкретно для указанного поисковика.

На иллюстрации выше – для MSNbot, discobot и Slurp прописаны индивидуальные правила, которые будут работать только для этих поисковиков.

Все остальные пользовательские агенты следуют общим директивам в группе user-agent: *.

Синтаксис robots.txt абсолютно не сложен.

Существуют семь общих терминов, которые часто встречаются на сайтах.

  • User-agent: специфический веб-поисковик (бот поисковой системы), которому Вы даете инструкции обхода. Список большинства пользовательских агентов можно найти здесь. Всего в нем 302 системы, из которых наиболее актуальны две – Гугл и Яндекс.
  • Disallow: команда запрета, указывающая агенту, что не нужно заходить на URL. Для каждого URL разрешена только одна строка «disallow».
  • Allow (применимо только для Googlebot): команда сообщает боту, что он может получить доступ к странице или подпапке, даже если ее родительская страница или подпапка были закрыты.
  • Crawl-delay (задержка сканирования): сколько миллисекунд поисковик должен ждать перед загрузкой и обходом содержимого страницы.

Обратите внимание – Googlebot не поддерживает эту команду, но скорость сканирования может быть вручную установлена ​​в Google Search Console.

  • Sitemap: Используется для вызова местоположения любых XML-карт, связанных с этим URL-адресом. Эта команда поддерживается только Google, Ask, Bing и Yahoo.
  • Host: эта директива указывает на основное зеркало сайта, которое стоит учитывать при индексации. Его можно прописать только один раз.
  • Clean-param: это команда используется для борьбы с дублированием контента при динамической адресации.

Регулярные выражения

Как разрешать и запрещать сканировать в robots.txt.

На практике файлы robots.txt могут разрастаться и становиться довольно сложными и громоздкими.

Система дает возможность использовать регулярные выражения, чтобы обеспечить требуемый функционал файла, то есть гибко работать со страницами и подпапками.

  • * является подстановочным символом, обозначает что директива работает для всех поисковых ботов;
  • $ соответствует концу URL-адреса или строки;
  • # применяется для комментариев разработчиков и оптимизаторов.

Вот несколько примеров robots.txt для https://www.nashsite.com

URL-адрес файла robots.txt: www.nashsite.com /robots.txt

Мы только что запретили всем поисковикам сканировать и индексировать сайт целиком.

Как часто требуется такое действие?

Нечасто, но бывают случаи, когда нужно чтобы ресурс не участвовал в поисковой выдаче, а заходы производились по специальным ссылкам или через корпоративную авторизацию.

Так работают внутренние сайты некоторых фирм.

Кроме того, такая директива прописывается, если сайт находится на стадии разработки или модернизации.

Если нужно разрешить поисковику сканировать вообще все, что есть на сайте, тогда нужно написать в robots.txt такие команды:

В запрете (disallow) нет ничего, а значит можно все.

Использование этого синтаксиса в файле robots.txt предоставляет возможность сканерам обходить все страницы на https://www.nashsite.com, включая домашнюю страницу, админку и контакты.

Блокировка определенных поисковых ботов и отдельных папок

Синтаксис для остальных поисковых агентов.

Этот синтаксис указывает только поисковику Google (Googlebot), что не нужно сканировать адрес: www.nashsite.com/example-subfolder/.

Блокировка отдельных страниц для указанных ботов:

Этот синтаксис говорит, что только Bingbot-у (имя поискового агента Bing), не следует заходить на страницу по адресу: www.nashsite.com /example-subfolder/blocked-page.

По сути это все.

Если освоите эти семь команд и три символа и разберетесь в логике применения, сможете написать правильный robots.txt.


Почему не работает и что делать

Неправильно работающий robots.txt – это проблемы.

Ведь на то, чтобы выявить ошибку, а потом разобраться в ней, потребуется время.

Перечитайте файл, убедитесь, что Вы не заблокировали что-то лишнее.

Если через время окажется, что страница все равно висит в выдаче, посмотрите в Google Webmaster, переиндексировал ли сайт поисковик, ну и проверьте, нет ли внешних ссылок на закрытую страницу.

Потому что, если они есть – то скрыть ее из выдачи будет сложнее, потребуются другие методы.

Ну и перед использованием, проверьте этот файл бесплатным тестером от Google.

Своевременный анализ помогает избежать неприятностей и экономит время.

Использование файла robots.txt для SEO

1. Что такое файл robots.txt

Файл robots.txt также известен как протокол или стандарт блокировки роботов – это текстовый файл, который говорит веб-роботам (обычно это поисковые системы), какие страницы можно сканировать. Он также говорит веб-роботам, какие страницы сканировать нельзя.

Например, поисковая система собирается посетить ваш сайт. Прежде чем она зайдет на целевую страницу, она должна ознакомиться с инструкциями в файле robots.txt.

Есть разные типы файлов robots.txt – давайте подробнее рассмотрим некоторых из них. Например, поисковая система находит вот такой файл robots.txt:

Рис. 1. Пример файла robots.txt

Это своего рода базовый скелет файла robots.txt.

  • Звездочка после фразы user-agent означает, что файл robots.txt относится ко всем веб-роботам, посещающим сайт;
  • слеш после слова Disallow (запретить) не разрешает роботу посещать определенные страницы сайта.

Тут же возникает вопрос: почему кто-то хочет запретить веб-роботам посещать сайт?

У вас на сайте, наверняка, много страниц. Даже если вам так не кажется. Вас даже может удивить их количество.

Если поисковая система сканирует сайт, она будет сканировать каждую страницу сайта.

А если страниц много, то у бота уйдет много времени на сканирование, а это может иметь плохие последствия для ранжирования.

Так происходит, потому что у YandexBot и Googlebot (боты поисковых систем Яндекс и Google) есть так называемый «бюджет сканирования».

У него есть две важных составляющих:

  • первая составляющая – это лимит уровня сканирования (краулинговый бюджет – это «количество URL-адресов, которые может и хочет сканировать робот поисковой системы);
  • вторая составляющая – это спрос на сканирование.

Ваша цель – помочь YandexBot и Googlebot использовать свой бюджет на вашем сайте максимально эффективно. Другими словами, система должна сканировать ваши лучшие страницы.

Если создать правильный файл robots.txt, вы тем самым укажете ботам поисковой системы, какие страницы сканировать не надо.

Вот что по этому поводу говорит Google:

«Не стоит слишком перенагружать ваш сервер и впустую тратить бюджет сканирования на малозначительные страницы вашего сайта».

Правильно используя файл robots.txt, вы тем самым просите роботов поисковых систем разумно расходовать свой бюджет. Именно это и делает файл robots.txt полезным для SEO-оптимизации.

2. Как найти файл robots.txt

Все, что вам нужно сделать, это ввести основной URL-адрес сайта в панель поиска своего браузера (например, o-es.ru, seedu.ru и т. д.). В конце добавьте /robots.txt.

После этого может произойти следующее (есть три варианта):

  • Вы найдете файл robots.txt.

Рис. 2. Как найти файл robots.txt

Например, на страничке Disney нет файла robots.txt:

Рис. На страничке Disney нет файла robots.txt

  • Вы попадете на страницу 404.

На сайте Method вместо файла robots.txt появляется страница 404:

Рис. 3. Страница 404 вместо файла robots.txt

Теперь взгляните на свой собственный файл robots.txt.

  • Если Вы увидите пустой файл или страничку 404, это нужно исправить.
  • Если Вы нашли действительный файл, то для него, вероятно, установлены настройки по умолчанию еще со времен создания вашего сайта.

3. Как изменить файл robots.txt

  • Если у вас нет файла robots.txt, вам нужно его создать. Откройте какой-нибудь текстовый редактор, например Notepad (Windows) или TextEdit (Mac). Главное использовать простой текстовый редактор. Программа Microsoft Word может вставлять в текст дополнительный код, поэтому в данном случае не стоит ее использовать.
  • Если у вас есть файл robots.txt, нужно будет его найти в корневом каталоге вашего сайта.
  • Если вы не привыкли работать с исходным кодом, вам может быть сложно отыскать редактируемую версию файла robots.txt.

Как правило, можно найти свой корневой каталог, перейдя на сайт хостинга аккаунта. Нужно войти в систему и перейти в раздел управления файлами или FTP вашего сайта.

Вы увидите что-то такое:

Рис. 4. Раздел управления сайтами

Найдите файл robots.txt и откройте его для редактирования.

4. Как создать файл robots.txt

Новый файл robots.txt можно создать с помощью обычного текстового редактора. (Помните, что главное использовать простой текстовый редактор.)

Если у вас уже есть файл robots.txt, убедитесь в том, что вы удалили текст (но не сам файл).

Во-первых, вам нужно ознакомиться с синтаксисом, используемым в файле robots.txt.

Начните с установки user-agent (пользовательского посредника). Мы установим его таким образом, чтобы он применялся по отношению ко всем веб-роботам.

Это можно сделать, используя звездочку после фразы user-agent. Это будет выглядеть вот так:

Затем нужно ввести слово Disallow: (запретить), но больше ничего не печатайте.

Поскольку после слова «Запретить» больше ничего нет, веб-роботы будут сканировать весь ваш сайт. В данный момент все на вашем сайте является мишенью.

Ваш файл robots.txt будет выглядеть вот так:

Выглядит просто, но эти две строчки уже выполняют очень важную работу.

Можно также оставить ссылку на XML sitemap, но это не обязательно. Если вы считаете, что это стоит сделать, – вот, что нужно напечатать:

Рис. 5. Как оставить ссылку на XML sitemap

Теперь давайте перейдем на новый уровень и превратим этот файл в по-настоящему эффективный инструмент в сфере SEO.

5. Как оптимизировать файл robots.txt

Оптимизация файла robots.txt зависит от контента на вашем сайте. Я расскажу вам о некоторых наиболее распространенных способах его использования.

Чтобы отрегулировать бюджет сканирования, нужно дать поисковой системе сигнал, что не следует сканировать те части вашего сайта, которые закрыты от общего доступа, – это можно сделать с помощью файла robots.txt.

Например, если вы посмотрите на файл robots.txt на этом сайте (neilpatel.com), то увидите, что страница регистрации не сканируется (wp-admin).

Рис. 6. Пример заблокированных страниц на сайте o-es.ru

Поскольку эта страница используется только для входа в систему управления сайтом – ее сканирование будет пустой тратой времени для ботов поисковых систем.

(Если у вас есть WordPress, можно использовать точно такую же строку.)


Вы можете использовать аналогичный указатель (или команду), чтобы не дать ботам сканировать определенные страницы. После слова disallow введите часть URL-адреса, которая находится после доменной зоны (.com, .ru и др.). Поместите ее между двумя слешами.

Если вы хотите запретить боту сканировать вашу страницу https://yoursite.com/page/, можно ввести следующее:

Рис. 7. Как запретить боту сканировать вашу страницу

6. Какие типы страниц стоит исключить из списка индексации:

1. Целенаправленное повторение контента. Обычно повторяющийся контент – это плохо, но есть несколько случаев, когда это приемлемо или даже необходимо.

Например, если у вас есть версия страницы для печати. Тогда по техническим причинам у вас будет повторяющийся контент. В этом случае можно попросить ботов сканировать только одну из этих страниц (обычно это версия для печати).

Это также удобно, если вы тестируете страницы с одинаковым контентом, но с разным дизайном.

2. Страницы благодарности. Страница благодарности – это одна из самых любимых страниц маркетолога, потому что она привлекает лиды.…

Как оказалось, некоторые страницы благодарности доступны через Google. Это означает, что люди могут получить доступ к этим страницам, не проходя через процесс привлечения лидов, а это плохая новость.

Заблокируйте страницу благодарности, и ее смогут видеть только потенциальные клиенты.

Например, ваша страница благодарности находится на сайте https://yoursite.com/thank-you/. В файле robots.txt блокировка этой страницы будет выглядеть так:

Рис. Блокировка файла robots.txtна сайте https://yoursite.com/thank-you/

Нет универсальных правил касательно того, какие страницы блокировать, поэтому ваш файл robots.txt будет уникальным. Используйте здравый смысл.

7. Тестирование в Google Вебмастер

Наконец, пришло время протестировать файл robots.txt, чтобы убедиться, что все было сделано правильно и работает.

Существует бесплатный тестер robots.txt от Google в составе инструментов Webmaster.

Для начала войдите в свою учетную запись на Webmaster.

Рис. 8. Как использовать бесплатный тестер robots.txtот Google

Выберите необходимые свойства (например, веб-сайт) и нажмите кнопку «Сканировать» на левой боковой панели.

Рис. 9. Кнопка «Сканировать» на левой боковой панели

Вы увидите вкладку robots.txt Tester. Щелкните на нее.

Рис. 10. Вкладка robots.txtTester

Если в поле уже есть код, удалите его, заменив его новым файлом robots.txt.

Нажмите «Тестировать» в правой нижней части экрана.

Рис. 11. Функция «Тестировать»

Если текст «Тестировать» меняется на «Разрешено», это означает, что ваш robots.txt действителен.

В интернете можно найти более подробную информацию об этом инструменте.

Наконец, загрузите файл robots.txt в корневой каталог (или сохраните его, если он уже там). Теперь у вас есть мощный файл для улучшения видимости вашего сайта в результатах поиска.

8. Проверка файла robots.txt в Яндекс Вебмастер

9. Вывод

Если роботы поисковых систем разумно расходуют бюджет сканирования контента, они смогут лучше организовывать и отображать ваш контент в результатах поиска, а это означает, что вы будете более заметны.

Правильный robots.txt или как понравиться поисковым системам

Что такое robots.txt и для чего он нужен? Как правильно настроить robots.txt для SEO-оптимизации вашего сайта? Полный разбор структуры, правил и директив, используемых в robots.txt, который заставит поисковые системы полюбить ваш ресурс!

Что такое robots.txt и для чего он нужен

Robots.txt — это обычный текстовый файл с расширением .txt, который содержит директивы и инструкции индексирования сайта, его отдельных страниц или разделов для роботов поисковых систем.

Robots.txt является первым файлом, к которому обращаются поисковые системы, чтобы понять, можно ли индексировать сайт. Данный файл располагается в корневой директории сайта и должен быть доступен в браузере по ссылке вида naked-seo.ru/robots.txt.

Давайте рассмотрим самый простой пример содержимого robots.txt, которое разрешает поисковым системам индексировать все разделы сайта:

Данная инструкция дословно говорит: всем роботам, читающим данную инструкцию (User-agent: *) разрешаю индексировать весь сайт (Allow: /).

Зачем все эти сложности с инструкциями для роботов, и почему нельзя открывать сайт для индексации полностью?

Представьте, что вы поисковый робот, которому нужно просмотреть миллиарды страниц по всем интернету, потом определить для каждой страницы запросы, которым они могут соответствовать и в конце проранжировать эту массу в поисковой выдаче. Согласитесь, задача не из легких. Для работы поисковых алгоритмов используются колоссальные ресурсы, которые, разумеется, ограничены.

Если помимо страниц, которые содержат полезный контент, и которые по задумке владельца сайта должны участвовать в выдаче, роботу придется просматривать еще кучу технических страниц, которые не представляют никакой ценности для пользователей, его ресурсы будут тратиться впустую. Вы только представьте, что только один единственный сайт может генерировать тысячи страниц результатов поиска по сайту, дублирующихся страниц или страниц, не содержащих контента вообще. А если этот объем масштабировать на всю сеть, то получатся гигантские цифры и соответствующие ресурсы, которые необходимо тратить поисковикам.

Наличие огромного количества бесполезного контента на вашем сайте может негативно сказаться на его представлении в поиске. Как бы вы отнеслись к человеку, который дал вам мешок орехов, но внутри оказалась только скорлупа и всего 2-3 орешка? Не трудно представить и позицию поисковиков при аналогии данной ситуации с вашим сайтом.

Кроме того, существует такое понятие, как краулинговый бюджет. Условно, это объем страниц, который может участвовать в поисковой выдаче от одного сайта. Этот объем, естественно, ограничен, но по мере роста проекта и повышения его качества, краулинговый бюджет может увеличиваться, но сейчас не об этом. Главное идея в том, в выдаче должны участвовать только страницы, которые содержат полезный контент, а весь технический «мусор» не должен засорять выдачу поисковым спамом .

Как создать файл robots.txt на своем сайте?

Для того, чтобы создать файл robots.txt, вам нужно открыть любой текстовый редактор, например, Блокнот, MS Word, SublimeText, NotePad++ и т.п. Прописать необходимые инструкции для вашего сайта и сохранить файл в формате .txt.

Далее данный файл необходимо загрузить в корневую директорию вашего сайта. Корневая директория, это папка, как правило, с названием вашего сайта в которой находятся файлы вашей CMS и индексный файл index.html. Загрузить файл robotx.txt на сервер можно с помощью панели управления сервером (напр. ISPmanager, Cpannel), с помощью FTP-клиента (напр. FileZilla, TotalCommander), через консоль, либо через административную панель сайта, если CMS позволяет это сделать.

Некоторые системы управления сайтами имеют встроенный функционал, который позволяет создать robots.txt из админки сайта, либо с помощью дополнительных плагинов или модулей. Каким способом создавать robots.txt — нет абсолютно никакой разницы. Проверить корректность и доступность вашего файла robots вы можете с помощью сервиса в Яндекс.Вебмастере .

Правильная настройка robots.txt для сайта

Правильная настройка файла robots.txt помогает улучшить представление сайта в результатах поиска, пресекает попадание в поиск спама и частной информации. Однако стоит помнить, что robots.txt является общедоступным файлом, поэтому не следует хранить в нем пароли и другую конфиденциальную информацию, которая может использоваться как уязвимость против вашего ресурса.

Файл robots.txt является обязательной инструкцией для большинства поисковых систем. Но этот файл может игнорироваться другими роботами, которые также посещают ваш сайт в самых разных целях. Это могут быть программы различных сервисов, парсеры, роботы злоумышленников и другие. Поэтому robots.txt является не защитным механизмом, а именно SEO-инструментом, который помогает оптимизировать представление вашего сайта в поисковых системах.

Чтобы правильно настроить файл для поисковых роботов, необходимо разобраться в его синтаксисе, структуре, директивах и правилах .

Правильная структура robots.txt

Давайте рассмотрим сокращенный шаблон структуры robots.txt типичного сайта:

Как вы видите, файл robots.txt состоит из блоков с инструкциями. Начинается он с директивы User-agent, которая указывает для какого именно робота будут прописаны нижеследующие инструкции.

Примеры директив User-agent для разных поисковых роботов:

Как правило, в большинстве файлов robots.txt используются 3 вышеперечисленных директивы User-agent, однако, существуют отдельные директивы, например, для роботов индексирующих изображения на сайте (YandexImages и Googlebot-Image), в которых можно прописать отдельные инструкции. Например:

После каждой директивы User-agent идут непосредственные команды для каждого поискового робота. В большинстве случаев используются команды Disallow и Allow. Команда Disallow запрещает роботам индексирование определенных страниц, команда Allow, наоборот, разрешает.

Также в структуре присутствуют 2 обязательных директорий: Host и Sitemap. Директива Host указывает на главное зеркало сайта (УСТАРЕЛО — https://yandex.ru/blog/platon/pereezd-sayta-posle-otkaza-ot-direktivy-host), директива Sitemap указывает на xml карту сайта. Более подробно мы рассмотрим каждую директорию и возможности их применения далее. А сейчас остановимся на синтаксисе и правилах составления robots.txt .

Синтаксис и правила настройки robots.txt

Существуют определенные синтаксические и логические правила, которые влияют на корректность работы вашего robots.txt. Давайте рассмотрим их:

  1. По-умолчанию robots.txt разрешает индексировать все. Данное правило работает при отсутствии robots.txt на сервере, при пустом содержимом файла, при слишком большом файле размером более 32 кб, при недоступности файла (напр. код ответа 404);
  2. Название файла «robots.txt». Не допускается использование заглавных букв. Имя файла пишется на латинице;
  3. Каждая директива в файле начинается с новой строки. Не указывайте более одной инструкции в строке;
  4. Пробел как знак в robots.txt не имеет значения. Нет никакой разницы в количестве пробелов и их месте в файле, однако, составляйте robots.txt таким образом, чтобы вам самим было легко в нем ориентироваться;
  5. Инструкция не имеет закрывающих символов. В конце директивы не нужно ставить точку или точку с запятой;
  6. Допускается комментирование в файле. Это необходимо для удобства оптимизатора, чтоб тот мог оставлять информацию, объясняющую для чего он открыл/закрыл от индексации определенные страницы. Комментарий начинается со знака #;
  7. Пустой перенос строки используется только в конце директивы User-agent. В соответствие со стандартом пустой перенос строки может трактоваться как окончание инструкций по конкретному User-agent. Также использование нового User-aget без переноса строки может игнорироваться;
  8. В строке с директивой указывается только 1 параметр. Все последующие параметры прописываются с новой строки с указанием директивы.
  9. Названия директив пишутся на с заглавной буквы на латинице. Например, правильно «Dissalow», а не «DISALLOW»;
  10. Символ / используется при написании статических страниц. Например, «Disallow: /wp-admin» запрещает индексацию административной панели WordPress по данному адресу.
  11. Последовательность директив. Порядок следования директив в User-aget не влияет на их использование поисковым роботом. При конфликте инструкций Disallow и Allow предпочтение отдается директиве Allow.

Не стоит также вписывать в robots.txt запреты для каждой отдельно взятой страницы. Такая практика допустима, но это, скорее, исключения из правил. Подбирайте общие инструкции, которые будут захватывать сразу все типовые url вашего сайта. Идеальный robots.txt — это краткий по написанию, но обширный по смыслу файл.

Один и тот же robots.txt можно составить по-разному с помощью разных директив. Какие именно директивы использовать, можете решить самостоятельно. Главное не запутаться, и прописывать правила индексирования максимально емко, как минимум, для своего же удобства .

Использование спецсимволов * и $ в robots.txt

При использовании директив Allow и Disallow в их параметрах можно использовать специальные символы * и $. Спецсимвол * означает любую последовательность символов в параметре. Например:

По-умолчанию на конце каждого параметра используется спецсимвол *. В свою очередь спецсимвол $ позволяет уточнить параметры индексирования. Например:

На этом все. Не так страшен черт, как его малюют. Теперь более подробно рассмотрим основные и не затронутые директивы robots.txt .

Запрет индексации в файле robots.txt — Disallow

Disallow — наиболее часто используемая директива в robots.txt. В ней необходимо указывать:

  • страницы с приватными данными, которых не должно быть в индексе;
  • страницы пагинации;
  • страницы с результатами поиска по сайту;
  • дублирующиеся страницы;
  • всевозможные логи;
  • технические страницы;
  • сервисные страницы с параметрами.

Разрешить индексацию robots.txt — Allow

Allow — это директива разрешающая поисковому роботу обход страниц. Она является противоположностью директиве Disallow. В ней, как и в Disallow возможно использование спецсимволов * и $.

Давайте рассмотрим пример использования директивы Allow:

Данные инструкции разрешают обход раздела /blog, при этом весь остальной сайт остается недоступен для индексирования.

Пустой «Disallow: » = «Allow: /». Обе директивы разрешают полный обход сайта
Пустой «Allow: » = «Disallow: /». Обе директивы полностью запрещают обход сайта.
Эта информация дана для справки. Широкого практического применения она не получает .

Главное зеркало сайта в robots.txt — Host

С марта 2020 года Яндекс отказался от директивы Host. Ее функции полностью перешли на раздел «Переезд сайта в Вебмастере» и 301-редирект.

Директива Host указывала поисковому роботу Яндекса на главное зеркало сайта. Если ваш сайт был доступен по нескольким разным адресам, например, с www и без www, вам необходимо было настроить 301 редирект на главный адрес и указать его в директиве Host.

Данная директива была полезна при установке SSL-сертификата и переезде сайта с http на https. В директиве Host адрес сайта при наличии SSL-сертификата указывался с https.

Директива Host указывалась в User-agent: Yandex только 1 раз. Например для нашего сайта это выглядело вот так:

В данном примере указано, что главным зеркалом сайта Naked SEO является ни www.naked-seo.ru, ни https://naked-seo.ru, а https://naked-seo.ru.

Для указания главного зеркала сайта в Google используются инструменты вебмастера в Google Search Console .

Карта сайта в robots.txt — Sitemap.xml

Директива Sitemap указывает поисковым роботам путь на xml карту сайта. Этот файл невероятно важен для поисковых систем, так как при обходе сайта они, в первую очередь, обращаются к нему. В данном файле представлена структура сайта со всем внутренними ссылками, датами создания страниц, приоритетами индексирования.

Пример robots.txt с указанием адреса карты сайта на нашем сайте:

Наличии xml карты сайта улучшает представление вашего сайта в поисковой выдаче. Карта сайта является стандартом, который должен быть внедрен на каждом сайте. Частота обновления и актуальность поддержания sitemap.xml может серьезно ускорить индексирование страниц, особенно у молодого сайта .

Директива Clean-param в robots.txt

Директива Clean-param позволяет запретить поисковым роботом обход страниц с динамическими параметрами, контент которых не отличается от основной страницы. Например, многие интернет-магазины используют параметры в url-адресах, которые передают данные по источникам сессий, а также персональные идентификаторы пользователей.

Чтобы поисковые роботы не обходили данные страницы, и лишний раз не нагружали ваш сервер, используйте директиву Clean-param, которая позволит оставить в выдаче только исходный документ.

Давайте рассмотрим использование данной директивы на примере. Предположим, что наш сайт собирает данные по пользователям на страницах:

Данные директивы помогут поисковому роботу Яндекса свести все динамические параметры в единую страницу:

Если на сайте доступна такая страница, то именно она будет индексироваться и участвовать в выдаче .

Директива Crawl-delay в robots.txt

Данная директива ограничивает количество посещений одного робота в интервал времени, другими словами создает тайм-аут сессии. Использование директивы Crawl-delay является хорошей практикой, если поисковые роботы слишком часто заходят на ваш сайт и создают ненужную нагрузку на сервер.

Пример использования директивы:

В данном примере, мы просим поисковые системы посещать сайт не чаще чем 1 раз в 2 секунды. Некоторые поисковые роботы (напр. робот Яндекса) поддерживают дробные значения данной директивы. Для Яндекса максимально допустимое значение данной директивы составляет 2 секунды. Использование данной директивы может помочь понять причины нестабильной работы сервера. Если после добавления Crawl-delay в robots.txt проблемы с сервером не исчезли, то, как минимум, отсекается один вариант причины данной проблемы .

Комментарии в robots.txt

Комментарии в файле robots.txt пишутся после знака # и игнорируются поисковыми системами. Как правило, комментарии используются для обозначения причин открытия или закрытия для индексации определенных страниц, чтобы в будущем оптимизатору были понятны причины тех или иных правок в файле.

В данной статье вы уже встречались с комментирование, которое поясняло использование директив. Вот еще один пример:

Как проверить robots.txt?

После того как вы загрузили файл robots.txt на свой сервер, обязательно проверьте его доступность, корректность и наличие ошибок в нем.

Как проверить robots.txt на сайте?

Если вы все сделали правильно, и загрузили данный файл в корень вашего сервера, то он станет доступен по ссылке вида site.ru/robots.txt. Данный файл, как мы уже говорили, является публичным. Поэтому вы можете посмотреть и проанализировать robots.txt абсолютно у любого сайта.

Как проверить robots.txt на наличие ошибок

Вы можете проверить robots.txt на наличие ошибок:

Сервисы покажут все ошибки данного файла, предупредят об серьезных ограничениях в ваших директивах и предложат проверить доступность ваших страниц после настройки robots.txt .

Robots.txt в Яндекс и Google

У большинства оптимизаторов, которые первый раз сталкиваются с файлом robots.txt возникает вполне закономерный вопрос: «Почему нельзя указать User-agent: * и не прописывать для каждого робота одинаковые правила?». Конечно, так сделать можно, но возникает неопределенность. Во-первых, только Яндекс поддерживает директиву Host, которая указывает на главное зеркало сайта. Использование данной директивы для всех роботов бессмысленно (УСТАРЕЛО — https://yandex.ru/blog/platon/pereezd-sayta-posle-otkaza-ot-direktivy-host). Во-вторых, существует субъективное мнение, что поисковые системы Яндекс и Google приветствуют указание именно их робота в User-agent, а не использование директивы общего плана.

Кроме того, допустимый размер файла в 32 кб позволяет практически каждому сайту уместить необходимые для индексирования директивы в отдельных User-agent для разных поисковых систем. Нет смысла экспериментировать со своим сайтом, если можно прописать для каждого поискового робота персональные директивы, уложившись в ограниченный лимит. К слову, редко, но все же случаются такие ситуации, когда оптимизаторы хотят закрыть определенные страницы для одной поисковой системы, при этом оставить их доступными для другой. В этом случае без директивы User-agent просто не обойтись .

Заключение: советы Вебмастерам

Совет #1

Если ваш сайт не индексируется поисковыми системами, или его страницы начали массово пропадать из поисковой выдачи, первым делом необходимо проверить файл robots.txt на предмет запрета индексации сайта. При необходимости снимите запрет на полезные страницы, которые должны участвовать в выдаче.

Если файл robots.txt не запрещает индексирование сайта, проверьте содержимое мета-тегов в head вашего сайта, адресованных поисковым роботам. Обратите внимание на наличие на вашем сайте следующих тегов:

Наличие данных тегов может негативно повлиять на представление вашего сайта в поисковых системах.

Совет #2

Хотя бы 1 раз в 2-3 недели заглядывайте в Яндекс Вебмастер в разделы «Индексирование — Статистика обхода» и «Индексирование — Страницы в поиске». Отслеживайте страницы, которые обходит поисковый робот на вашем сайте.

Если робот обходит технические страницы, или страницы, которые отвечают редиректом, их следуют запретить директивой Disallow в robots.txt. Таким образом вы сузите объем страниц, который необходимо обойти поисковому роботу и повысите эффективность индексации своего сайта.

Аналогична ситуация с разделом «Страницы в поиске». С его помощью вы можете не только отследить документы, которые больше не участвуют в поиске, но и проверить свой сайт на предмет наличия поискового спама. Если в данном разделе вы также найдете технические страниц, либо сервисные страницы с параметрами, которые не должны принимать участие в ранжировании, добавьте запрет на их обход в robots.txt.

Заключение

Файл robots.txt является одним из важнейших инструментов SEO-оптимизации. Через него можно напрямую влиять на индексирование абсолютно любых страниц и разделов сайта. Грамотно составленный robots.txt поможет вам сэкономить место в ограниченном краулинговом бюджете, избавит поисковые роботы от переобхода сотен ненужных технических страниц, избавит выдачу от поискового спама, а ваш сервер от излишней нагрузки. Создавайте robots.txt с умом!

Если у вас возникли вопросы по данной статье — задайте их в комментариях.
Не забывайте подписываться на блог и получать актуальную информацию из мира интернет-маркетинга.

Мастер Йода рекомендует:  Стоимость регистрации доменов будет указываться в рублях
Добавить комментарий