Полное руководство по Robots и метатегу Noindex.txt


Оглавление (нажмите, чтобы открыть):

Мета-тег Robots

МЕТА-тег “Robots” позволяет указывать Роботам, можно ли индексировать данную страницу и можно ли использовать ссылки, приведенные на странице. Этот тег указывается на каждой конкретной странице, доступ к которой требуется ограничить.

В этом простом примере:

META NAME= «ROBOTS» CONTENT= «NOINDEX, NOFOLLOW»

робот не должен ни индексировать документ, ни анализировать стоящие на нем ссылки.

МЕТА-тег “Robots” – это простой инструмент для указания роботам, может ли страница быть проиндексирована и можно ли следовать по ссылкам со страницы.

Он отличается от Стандарта исключения для роботов тем, что вам не нужно тратить много усилий или получать доступ у Администратора cервера.

Куда писать META-тег “Robots”

Как и любой META-тег он должен быть помещен в область HEAD HTML страницы:

name= “robots” content= “noindex,nofollow”>
name= “description” content= “Эта страница ….”>

Что писать в META-теге “Robots”

META-тег “Robots” содержит указания, разделенные запятыми. В настоящее время определены существующие указания [NO]INDEX и [NO]FOLLOW. Директивы INDEX указывают, может ли робот индексировать страницу. Директива FOLLOW указывает роботу, может ли он следовать по ссылкам со страницы. Значения по умолчанию – INDEX и FOLLOW. Значения ALL и NONE обозначают активность всех директив и, соответственно, наоборот: ALL=INDEX,FOLLOW и NONE=NOINDEX,NOFOLLOW.

Несколько примеров:

name= “robots” content= “index,follow”>
name= “robots” content= “noindex,follow”>
name= “robots” content= “index,nofollow”>
name= “robots” content= “noindex,nofollow”>

Следует учесть, что параметр content тега “robots” нечувствителен к регистру.

Вы не должны включать конфликтующие и повторяющиеся директивы, как например:

name= “robots” content= “INDEX,NOINDEX,NOFOLLOW,FOLLOW,FOLLOW”>

Правильный синтаксис атрибутов META-тега “Robots”:

content = all | none | directives
all = «ALL»
none = «NONE»
directives = directive [«,» directives]
directive = index | follow
index = «INDEX» | «NOINDEX»
follow = «FOLLOW» | «NOFOLLOW»

это программы, помогающие пользователям – например в выборе продукта, заполнении форм или даже в поиске. Такие программы имеют очень небольшое отношение к сетевому взаимодействию.

Дополнительно

Несколько ссылок по теме – постепенно надо будет добавить информацию из них на эту страницу.

Компьютерные уроки, статьи и советы по настройке компьютера и сетевой работе — создание, оптимизация и продвижение сайтов и блогов в Сети Интернет, программирование HTML, XHTML, CSS и ява-скрипт

Установка и загрузка ОС Виндовс

Метатег robots | Закрыть страницу от индексации

Статья для тех, кому лень читать справку по GoogleWebmaster и ЯндексВебмастер

Закрывание ненужных страниц веб-ресурса от поисковой индексации очень важно для его SEO-оптимизации, особенно на начальном этапе становления сайта или блога «на ноги». Такое действие способствует продвижению в SERP (СЕРП) и рекомендовано к применению для служебных страниц. К служебным страницам относятся технические и сервисные страницы, предназначенные исключительно для удобства и обслуживания уже состоявшихся клиентов. Эти страницы с неудобоваримым или дублирующим контентом, который не представляет абсолютно никакой поисковой ценности. Сюда входят – пользовательская переписка, рассылка, статистика, объявления, комментарии, личные данные, пользовательские настройки и т.д. А, также – страницы для сортировки материала (пагинация), обратной связи, правила и инструкции и т.п.

  1. Метатег robots
  2. Почему метатег robots лучше файла robots.txt

Метатег robots

Для управления поведением поисковых роботов на веб-странице, в HTML существует метатег robots и его атрибут content. закрытия веб-страницы от поисковой индексации,

nofollow и noindex – самые загадочные персонажи разметки html-страницы, главная задача которых состоит в запрете индексирования ссылок и текстового материала веб-страницы поисковыми роботами.

nofollow (Яндекс & Google)

nofollow – валидное значение в HTML для атрибута rel тега «a» (rel=»nofollow»)
Это значение предназначено для поисковых систем.
Оно устанавливает запрет на переход по ссылке и последующее её индексирование.

rel=»nofollow» – не переходить по ссылке

Оба главных русскоязычных поисковика (Google и Яндекс) – прекрасно знают атрибут rel=»nofollow» и, поэтому – превосходно управляются с ним. В этом, и Google, и Яндекс, наконец-то – едины. Ни один поисковый робот не пойдёт по ссылке, если у неё имеется атрибут rel=»nofollow»:

content=»nofollow» – не переходить по всем ссылкам на странице

Допускается указывать значение nofollow для атрибута content метатега .
В этом случае, от поисковой индексации будут закрыты все ссылки на веб-странице

content=»nofollow» />

Атрибут content является атрибутом тега (метатега). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере , в заголовке веб-страницы.

Действие атрибутов rel=»nofollow» и content=»nofollow»
на поисковых роботов Google и Яндекса

Действие атрибутов rel=»nofollow» и content=»nofollow»
на поисковых роботов Google и Яндекса несколько разное:

Google Увидев атрибут rel=»nofollow» у отдельно стоящей ссылки, поисковые роботы Google не переходят по такой ссылке и не индексируют её видимую часть (анкор). Увидев атрибут content=»nofollow» у метатега в заголовке страницы, поисковые роботы Google сразу «разворачивают оглобли» и катят к себе восвояси, даже не пытаясь заглянуть на такую страницу. Таким образом, чтобы раз и навсегда закрыть от роботов Google отдельно стоящую ссылку (тег ) достаточно добавить к ней атрибут rel=»nofollow»:
rel=»nofollow» >Анкор
А, чтобы раз и навсегда закрыть от роботов Google всю веб-страницу,
достаточно добавить в её заголовок строку с метатегом:
content=»nofollow» /> Яндекс Для роботов Яндекса атрибут rel=»nofollow» имеет действие запрета только! на индексацию ссылки и переход по ней. Видимую текстовую часть ссылки (анкор) – роботы Яндекса всё равно проиндексируют.
Для роботов Яндекса атрибут метатега content=»nofollow» имеет действие запрета только! на индексацию ссылок на странице и переходов по них. Всю видимую текстовую часть веб-страницы – роботы Яндекса всё равно проиндексируют.
Для запрета индексации видимой текстовой части ссылки или страницы для роботов Яндекса – ещё потребуется добавить его любимый тег или значение – не признанное изобретение Яндекса» href=»https://tehnopost.info/59-noindex-i-nofollow.html#noindex_no_valide»>noindex

noindex – не индексировать текст
(тег и значение только для Яндекса)

Тег не входит в спецификацию HTML-языка.
Тег – это изобретение Яндекса, который предложил в 2008 году использовать этот тег в качестве маркера текстовой части веб-страницы для её последующего удаления из поискового индекса. Поисковая машина Google это предложение проигнорировала и Яндекс остался со своим ненаглядным тегом, один на один. Поскольку Яндекс, как поисковая система – заслужил к себе достаточно сильное доверие и уважение, то придётся уделить его любимому тегу и его значению – должное внимание.

Тег – не признанное изобретение Яндекса

Тег используется поисковым алгоритмом Яндекса для исключения служебного текста веб-страницы поискового индекса. Тег поддерживается всеми дочерними поисковыми системами Яндекса, вида Mail.ru, Rambler и иже с ними.

Тег noindex – парный тег, закрывающий тег – обязателен!

Учитывая не валидность своего бедного и непризнанного тега,
Яндекс соглашается на оба варианта для его написания:
Не валидный вариант – ,
и валидный вариант – .

Хотя, во втором случае – лошади понятно, что для гипертекстовой разметки HTML, это уже никакой не тег, а так просто – html-комментарий на веб-странице.

Тег – не индексировать кусок текста

Как утверждает справка по Яндекс-Вебмастер, тег используется для запрета поискового индексирования служебных участков текста. Иными словами, часть текста на странице, заключённая в теги удаляется поисковой машиной из поискового индекса Яндекса. Размеры и величина куска текста не лимитированы. Хоть всю страницу можно взять в теги . В этом случае – останутся в индексе одни только ссылки, без текстовой части.

Поскольку Яндекс подходит раздельно к индексированию непосредственно самой ссылки и её видимого текста (анкора), то для полного исключения отдельно стоящей ссылки из индекса Яндекса потребуется наличие у неё сразу двух элементов – атрибута rel=»nofollow» и тега . Такой избирательный подход Яндекса к индексированию ссылок даёт определённую гибкость при наложении запретов.

Так, например, можно создать четыре конструкции, где:

Ссылка индексируется полностью Анкор (видимая часть ссылки) Индексируется только анкор (видимая часть) ссылки rel=»nofollow» >Анкор Индексируется только ссылка, без своего анкора Анкор Ссылка абсолютно НЕ индексируется rel=»nofollow» > Анкор

Для справки: теги , особенно их валидный вариант – абсолютно не чувствительны к вложенности. Их можно устанавливать в любом месте HTML-кода. Главное, не забывать про закрывающий тег, а то – весь текст, до самого конца страницы – вылетит из поиска Яндекса.

Метатег noindex – не индексировать текст всей страницы

Допускается применять noindex в качестве значения для атрибута метатега content –
в этом случае устанавливается запрет на индексацию Яндексом текста всей страницы.

Атрибут content является атрибутом тега (метатег). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере , в заголовке веб-страницы.

Абсолютно достоверно, ясно и точно, что использование noindex в качестве значения атрибута content для метатега даёт очень хороший результат и уверенно «выбивает» такую страницу из поискового индекса Яндекса.

content=»noindex» />
Текст страницы, с таким метатегом в заголовке –
Яндекс совершенно не индексирует, но при этом он –
проиндексирует все ссылки на ней.

Разница в действии тега и метатега noindex

Визуально , разница в действии тега и метатега noindex заключается в том, что запрет на поисковую индексацию тега noindex распространяется только на текст внутри тегов , тогда как запрет метатега – сразу на текст всей страницы.
Пример: Этот текст будет не проиндексирован

Текст страницы, с таким метатегом – Яндекс полностью не индексирует

Принципиально , разница в действии тега и метатега проявляется в различиях алгоритма по их обработке поисковой машиной Яндекса. В случае с метатегом noindex, робот просто уходит со страницы, совершенно не интересуясь её содержимым (по крайней мере – так утверждает сам Яндекс). А, вот в случае с использованием обычного тега – робот начинает работать с контентом на странице и фильтровать его через своё «ситечко». В момент скачивания, обработки контента и его фильтрации возможны ошибки, как со стороны робота, так и со стороны сервера. Ведь ни что не идеально в этом мире.
Поэтому, кусок текста страницы, заключённого в теги – могёт запросто попасть Яндексу «на зуб» для дальнейшей поисковой индексации. Как утверждает сам Яндекс – это временное неудобство будет сохраняться до следующего посещения робота. Чему я не очень охотно верю, потому как, некоторые мои тексты и страницы, с тегом и метатегом noindex – висели в Яндексе по нескольку месяцев.

Особенности метатега noindex

Равно, как и в случае с тегом » href=»https://tehnopost.info/59-noindex-i-nofollow.html#noindex_deistvie»> , действие метатега noindex позволяет гибко накладывать запреты на всю страницу. Примеры метатегов для всей страницы сдерём из Яндекс-Вебмастера:

не индексировать текст страницы content=»noindex» /> не переходить по ссылкам на странице content=»nofollow» /> не индексировать текст страницы и не переходить по ссылкам на странице content=»noindex, nofollow» /> что, аналогично следующему: запрещено индексировать текст и переходить
по ссылкам на странице для роботов Яндекса content=»none» />

Вот такой он, тег и значение noindex на Яндексе :):):).

Тег и метатег noindex для Google

Что-же касается поисковика Google, то он никак не реагирует на присутствие выражения noindex, ни в заголовке, ни в теле веб-страницы. Google остаётся верен своему валидному «nofollow», который он понимает и выполняет – и для отдельной ссылки, и для всей страницы сразу (в зависимости от того, как прописан запрет). После некоторого скрипения своими жерновами, Яндекс сдался и перестал продвижение своего тега и значения noindex, хотя – и не отказывается от него полностью. Если роботы Яндекса находят тег или значение noindex на странице – они исправно выполняют наложенные запреты.

Универсальный метатег (Яндекс & Google)

С учётом требований Яндекса, общий вид универсального метатега,
закрывающего полностью всю страницу от поисковой индексации,
выглядит так:

content=»noindex, nofollow» /> – запрещено индексировать текст и переходить по ссылкам на странице
для всех поисковых роботов Яндекса и Google

Почему метатег robots лучше файла robots.txt

Самый простой и популярный способ закрыть веб-страницу от индексации – это указать для неё соответствующую директиву в файле robots.txt. Для этого, собственно файл robots.txt и существует. Однако, закрывать через метатег robots – гораздо надёжнее.

И, вот почему.
Алгоритмы обработки роботами метатега robots и файла robots – совершенно различные. Работу этих алгоритмов можно сравнить с действием в известном анекдоте, где бьют не «по паспорту», а – «по морде». Пусть этот пример весьма груб и примитивен, но он, как нельзя лучше – отображает поведение поискового робота на странице:

  • В случае использования метатега robots, поисковик просто и прямо заходит на веб-страницу и читает её заголовок («смотрит в её морду». Если робот там находит метатег robots – он разворачивается и уходит восвояси. Вуаля! Всё предельно просто. Робот увидел запись, что здесь ловить нечего, и сразу же – «свалил». Ему проблемы не нужны. Это есть работа по факту записи прямо в заголовке страницы («по морде»).
  • В случае использования файла robots.txt, поисковик, перед заходом на страницу – сверяется с этим файлом (читает «паспорт»). Это есть работа по факту записи в постороннем файле («по паспорту»). Если в файле robots.txt («паспорте») прописана соответствующая директива – робот её выполняет. Если нет, то он – сканирует страницу в общем порядке, поскольку по-умолчанию – к сканированию разрешены все страницы.

Казалось-бы, какая разница.

Тем более, что сам Яндекс рассказывает следующее:

При сканировании сайта, на основании его файла robots.txt – составляется специальный список (пул), в котором ясно и чётко указываются и излагаются директории и страницы, разрешённые к поисковому индексированию сайта.

Ну, чего ещё проще – составил списочек,

прошёлся списочком по сайту,

и всё – можно «баиньки».

Простота развеется, как майский дым, если мы вспомним, что роботов много, что все они разные, и самое главное – что все роботы ходят по ссылкам. А сей час, представим себе стандартную ситуацию, которая случается в интернете миллионы раз на дню – поисковый робот пришёл на страницу по ссылке из другого сайта. Вот он, трудяга Сети – уже стоит у ворот (у заголовка) странички. Ну, и где теперь файл robots.txt?

У робота, пришедшего на сайт по внешней ссылке, выбор не большой. Робот может, либо лично «протопать» к файлу robots.txt и свериться с ним, либо просто скачать страницу себе в кэш и уже потом разбираться – индексировать её или нет.

Как поступит наш герой, мы не знает. Это коммерческая тайна каждой поисковой системы. Несомненно, одно. Если в заголовке страницы будет указан метатег robots – поисковик выполнит его немедля. И, если этот метатег запрещает индексирование страницы – робот уйдёт немедля и без раздумий.

Использование robots.txt

Все, кто сталкивался с разработкой или просто использованием сайтов слышали о таком термине как robots.txt.
Это специальный файл с кодировкой UTF-8, который должен находится в корне домена (https://mypersonaldomen.com/robots.txt) и весить не более 500 Кб. Команды в этом файле рекомендуют (но не гарантируют) поисковым роботам Google, Yandex и другим исполнять те или иные указания. Например, мы можем попросить ботов не индексировать страницы с регистрацией, формой поиска, личного кабинете клиентов или любую другую страницу.
Важно понимать, что это просто рекомендации которые мы хотим передать, однако это не дает 100% гарантии. Если на закрытую страницу в robots.txt будет найдена внутренняя или внешняя ссылка то существует некая вероятность что страница все равно попадет в индекс поисковой выдачи.

Синтаксис файла robots.txt

User-Agent: указывает название бота поисковой системы, к которому будем обращаться.

Disallow: путь к странице, куда хотим закрыть доступ.

Crawl-delay: команда, указывающая как часто должен робот поисковой системы заходить на сайт.
Иногда может быть полезно при большой посещаемости, для уменьшения нагрузки на сервер.

  • Символ #: используется для комментариев внутри файла robots.txt
  • Файлы и папки нужно писать, учитывая их регистр
  • Host: директива для Яндекс, которая указывает главное зеркало сайта
  • Sitemap: тут прописывается полный пусть с https к карте сайта
  • * — данный знак обозначает любую последовательность символов

Пример использования файла robots.txt

Запрещаем индексацию всех страниц (полезно при разработке нового сайта):
User-agent: *
Disallow: /

Запретим роботу от google индексировать папку /tmp
User-agent: Googlebot
Disallow: /tmp/

Запретим роботу от google индексировать файл /provider.html
User-agent: Googlebot
Disallow: /tmp/provider.html

Запретим всем ботам индексировать файлы .pdf
User-agent: *
Disallow: /*.pdf$

Разрешим роботам Яндекс индексироват страницу provider.html
User-agent: Yandex
Allow: /tmp/provider.html


Путь к карте сайта:
User-agent: *
Disallow:
Sitemap: https://mypersonaldomen.com/sitemap.xml

Для чего используется мета тег noindex

В отличии от наших рекомендаций в файле robots.txt, мы можем указать для ботов поисковых систем гарантированный запрет индексации страницы.
Для этого в HEAD страницы нужно прописать строку:

— запретить индексацию, но разрешить переходить по ссылкам на текущей странице

— запретить как индексацию так и переходить по ссылкам на текущей странице

X-Robots-Tag в HTTP заголовках: всё, что вам нужно знать

Существует несколько типов директив, которые сообщают поисковым роботам, какие страницы они могут сканировать. Наиболее часто упоминаемыми являются файл robots.txt и тег meta robots.

Файл robots.txt говорит поисковым системам сканировать определенную часть вашего сайта, будь то страница, подпапка и т.д.

Это помогает оптимизировать сканирование, сообщая роботам, какие части сайта являются недостаточно важными, чтобы быть в приоритете сканирования.

Имейте в виду, что роботы поисковых систем не обязаны следовать этому файлу.

Другая часто применяемая директива – это тег meta robots. Он позволяет контролировать индексацию на уровне страницы.

Метатег robots может иметь следующие значения:

  • Index: позволяет поисковым системам добавлять страницу в свой индекс.
  • Noindex: запрещает поисковым системам добавлять страницу в свой индекс и запрещает ей появляться в результатах поиска для этой конкретной поисковой системы.
  • Follow: указывает роботам переходить по ссылкам на странице, чтобы те могли найти другие страницы.
  • Nofollow: указывает поисковым системам не переходить по ссылкам на странице.
  • None: это сокращение для noindex, nofollow.
  • All: это сокращение для index, follow.
  • Noimageindex: запрещает поисковым системам индексировать изображения на странице (изображения все еще могут индексироваться с помощью мета-тега robots, если они связаны с другим сайтом).
  • Noarchive: говорит поисковым системам не показывать кэшированную версию страницы.
  • Nocache: это то же самое, что и тег noarchive, но относится только к Bingbot / MSNbot.
  • Nosnippet: указывает поисковым системам не отображать текстовые или видео сниппеты.
  • Notranslate: говорит поисковым системам не показывать переводы страниц в поисковой выдаче.
  • Unavailable_after: сообщает поисковым системам конкретный день и время, когда они не должны отображать результат в своем индексе.
  • Noyaca: указывает поисковым роботам Яндекса не использовать мета-описания страниц в результатах поиска.

Тем не менее, есть еще один тег, который позволяет указывать директивы noindex и nofollow.

Тег X-Robots отличается от файла robots.txt и метатега robots тем, что он является частью HTTP заголовка, который управляет индексацией страницы в целом, в дополнение к определённым элементам на странице.

Google: Любая директива, которая может использоваться в метатеге robots, может быть указана как X-Robots-Tag.

Хотя вы можете установить директивы, связанные с robots.txt, в HTTP заголовок как с помощью метатега robots, так и с помощью тега X-Robots, существуют определенные ситуации, когда вы захотите использовать именно тег X-Robots.

Например, если вы хотите заблокировать определенное изображение или видео, вы можете использовать метод блокировки c HTTP.

Cила тега X-Robots заключается в том, что он гораздо более гибкий, чем метатег robots.

Также можно использовать регулярные выражения, прописывая директивы сканирования для файлов, отличных от HTML, а также изменяя параметры на глобальном уровне. Чтобы объяснить разницу между всеми этими директивами, нужно классифицировать их по типам, к которым они относятся.

  1. nofollow (Яндекс & Google)
    1. rel=»nofollow» – не переходить по ссылке
    2. content=»nofollow» – не переходить по всем ссылкам
    3. Действие rel=»nofollow» и content=»nofollow»
      на поисковых роботов Google и Яндекса
  2. noindex – не индексировать текст
    (тег и значение только для Яндекса)
    1. – не признанное изобретение Яндекса» href=»https://tehnopost.info/59-noindex-i-nofollow.html#noindex_no_valide»>Тег – не признанное изобретение Яндекса
    2. » href=»https://tehnopost.info/59-noindex-i-nofollow.html#noindex_deistvie»>Тег – не индексировать кусок текста
    3. Метатег noindex – не индексировать текст всей страницы
    4. Разница в действии тега и метатега noindex
    5. Особенности метатега noindex
    6. Тег и метатег noindex для Google
  3. Универсальный метатег (Яндекс & Google)
Директивы поискового робота Директивы индексатора
Robots.txt использует директивы user agent, allow, disallow и sitemap для указания того, каким поисковым роботам разрешено или запрещено сканировать те или иные части сайта. Метатег Robots позволяет указать и запретить поисковым системам показывать определенные страницы сайта в результатах поиска. Nofollow позволяет указывать ссылки, которые не должны передавать PageRank. Тег X-Robots позволяет вам контролировать то, как индексируются определенные типы файлов.

Реальные примеры использования X-Robots-Tag

Чтобы заблокировать определенные типы файлов, идеальным решением было бы добавить тег X-Robots в конфигурацию Apache или файл .htaccess.

X-Robots-Tag можно добавить к HTTP-ответам сайта в конфигурации сервера Apache через файл .htaccess.

Допустим, мы хотим, чтобы поисковые системы не индексировали тип файла .pdf. Эта конфигурация на серверах Apache будет выглядеть примерно так:

В Nginx это будет выглядеть так:

Или, допустим, мы хотим использовать X-Robots-Tag для блокировки индексации изображений, таких как .jpg, .gif, .png и т.д. Это будет выглядеть следующим образом:

Понимание сочетания этих директив и их влияния друг на друга имеет огромное значение.

Предположим, что когда поисковые роботы изучают URL, там присутствует как X-Robots-Tag, так и Meta Robots.

Если этот URL заблокирован из robots.txt, то определенные директивы индексирования не могут быть обнаружены и не будут выполняться.

Если директивы должны выполняться, то страницы, которые их содержат, не должны быть закрыты от сканирования.

Проверьте наличие X-Robots-Tag

Есть несколько разных методов, которые можно использовать для проверки наличия X-Robots-Tag на сайте. Один из методов – использовать Screaming Frog.

После проверки сайта с помощью Screaming Frog, вы можете перейти на вкладку «Директивы», найти столбец «X-Robots-Tag» и посмотреть, какие разделы сайта используют этот тег и какие именно директивы.

Существует несколько различных плагинов, таких как Web Developer, которые позволяют вам определить, используется ли тег X-Robots.

Нажав на плагин в вашем браузере, а затем перейдя в «Просмотр заголовков», вы можете увидеть различные используемые HTTP заголовки.

Итоги

Есть несколько способов проинструктировать роботов поисковых систем не сканировать определенные разделы или определенные ресурсы на странице.

Понимание каждого из них и того, как они влияют друг на друга, крайне важно, так как позволяет избежать серьезных ошибок в SEO при использовании директив.

Понравилась статья?

Изучите большой мануал по SEO продвижению сайтов своими руками и другие публикации:

Узнайте больше о том, как улучшить SEO или PPC вашего сайта, подписавшись на наш блог!

Описание метатега robots и HTTP-заголовка X-Robots-Tag

Краткий обзор

Здесь рассказано о том, как с помощью настроек индексирования на уровне страницы можно управлять показом своего контента в результатах Google Поиска. Нужные параметры указываются в метатеге на страницах (X)HTML или в HTTP-заголовке.

Обратите внимание, что настройки будут учитываться только в том случае, если у поисковых роботов есть доступ к нужным страницам.

Тег и соответствующая директива применяются только к роботам поисковых систем. Чтобы заблокировать доступ другим поисковым роботам, включая AdsBot-Google, возможно, потребуется добавить отдельные директивы для каждого из них, например .

Использование метатега robots

Метатег robots позволяет определять настройки индексации и отображения в результатах поиска отдельно для каждой страницы. Его следует добавить в раздел . Пример:

Метатег в примере выше запрещает большинству поисковых систем показывать эту страницу в результатах поиска. Заданное для атрибута name значение ( robots ) указывает, что директива распространяется на всех роботов. Если вы хотите закрыть доступ только одному из них, укажите вместо robots другое значение для атрибута name , а именно название нужного робота. Отдельные поисковые роботы также называются агентами пользователя (поисковый робот использует агент пользователя для запроса страницы). Наш основной поисковый робот называется Googlebot . Чтобы запретить сканирование страницы только ему, измените тег, как показано ниже:

Теперь тег сообщает роботу Google (но не другим поисковым системам), что эту страницу не следует показывать в результатах поиска. Атрибуты name и content нечувствительны к регистру.

Поисковые системы могут использовать несколько роботов для разных ресурсов или целей. Полный список роботов Google приведен здесь. Например, чтобы страница отображалась в результатах веб-поиска Google, но не в Google Новостях, используйте следующий метатег:

Если нужно указать директивы для нескольких поисковых роботов, можно использовать несколько метатегов robots:

При обнаружении противоречащих друг другу директив роботы Google будут выполнять наиболее строгую из них.

Использование HTTP-заголовка X-Robots-Tag

Заголовок X-Robots-Tag может быть элементом HTTP-заголовка для определенного URL. Любая директива, которая может использоваться в метатеге robots, применима также и к X-Robots-Tag . Пример HTTP-ответа, где X-Robots-Tag запрещает роботам индексировать страницу:

Несколько заголовков X-Robots-Tag можно объединить в один ответ HTTP. Также вы можете перечислить директивы через запятую. Пример HTTP-ответа, где есть два экземпляра X-Robots-Tag : noarchive и unavailable_after .

В X-Robots-Tag перед директивами можно указать название агента пользователя. Пример HTTP-заголовка X-Robots-Tag , который запрещает показ страницы в результатах поиска различных систем:

Директивы, для которых агент пользователя не указан, будут выполняться всеми поисковыми роботами. Использование комбинированных директив описано ниже. Названия и указанные значения не чувствительны к регистру.

Правильное индексирование и передача директив

Существует ещё несколько директив для управления индексированием и показом. Они также добавляются в метатег robots и заголовок X-Robots-Tag . Каждое значение представляет собой отдельную директиву. В таблице ниже перечислены все директивы, которые выполняют роботы Google, а также их значения. Учтите, что роботы других поисковых систем могут выполнять директивы иначе. Директивы можно перечислить через запятую (подробнее о таком комбинировании читайте ниже). Они не чувствительны к регистру.

Директивы
all Нет ограничений на индексирование и показ контента. Эта директива используется по умолчанию и не влияет на работу поисковых роботов, если нет других указаний.
noindex Не показывать эту страницу, а также ссылку «Сохраненная копия» в результатах поиска.
nofollow Не выполнять переход по ссылкам на этой странице.
none Аналогично метатегам noindex, nofollow .
noarchive Не показывать ссылку «Сохраненная копия» в результатах поиска.
nosnippet Не показывать фрагмент текста этой веб-страницы в результатах поиска. При этом уменьшенное статическое изображение (если оно есть) останется видимым.
notranslate Не предлагать в результатах поиска перевод этой страницы.
noimageindex Не индексировать изображения на этой странице.
unavailable_after: [RFC-850 date/time] Не отображать эту страницу в результатах поиска после указанного времени/даты. Время/дату следует указать в формате RFC 850.

После получения разрешения из файла robots.txt (а также при его отсутствии) страницы индексируются и архивируются. Их содержимое может использоваться в результатах поиска, если это не запрещено директивами в метатеге robots или X-Robots-Tag .

Обработка комбинированных директив индексирования и показа контента

Можно создать инструкцию, содержащую несколько директив, перечислив несколько метатегов robots через запятую. Ниже приведен пример метатега robots, который запрещает поисковым роботам индексировать страницу и сканировать ссылки на ней:

Если перечислены различные директивы для нескольких поисковых роботов, поисковая система будет суммировать запреты. Пример:

Такие метатеги на странице будут интерпретироваться роботом Googlebot как noindex, nofollow .

Практика внедрения заголовка X-Robots-Tag для Apache

Заголовок X-Robots-Tag можно добавить в HTTP-ответы сайта. Для этого используются файлы .htaccess и httpd.conf, которые по умолчанию доступны на серверах на базе Apache. Добавив X-Robots-Tag в HTTP-ответ, вы сможете указать директивы, которые будут применяться ко всему сайту. Поддержка регулярных выражений обеспечивает высокий уровень гибкости.

Например, чтобы добавить X-Robots-Tag со значениями noindex, nofollow в HTTP-запросы для всех файлов PDF на сайте, необходимо добавить в корневой файл .htaccess или httpd.conf следующий фрагмент кода:

Можно использовать X-Robots-Tag не только для файлов HTML, но и, например, для графических файлов, если метатеги robots не поддерживаются. Пример добавления заголовка X-Robots-Tag со значением noindex для графических файлов (PNG, JPEG, JPG, GIF) на всех страницах сайта:

Совмещение директив сканирования с директивами индексирования и показа контента

Метатеги robots и HTTP-заголовки X-Robots-Tag обнаруживаются при сканировании URL. Если сканирование страницы запрещено файлом robots.txt, то директивы, касающиеся индексирования или показа контента, будут проигнорированы. Чтобы обеспечить обязательное выполнение директив, не следует запрещать сканирование URL, для которых они заданы.

Except as otherwise noted, the content of this page is licensed under the Creative Commons Attribution 4.0 License, and code samples are licensed under the Apache 2.0 License. For details, see the Google Developers Site Policies. Java is a registered trademark of Oracle and/or its affiliates.

Google прекращает поддержку директивы noindex в robots.txt

После 1.09.2020 года, поисковый гигант прекратит следовать директивам, которые не поддерживаются и не опубликованы в robots exclusion protocol. Изменения были анонсированы в блоге компании (https://webmasters.googleblog.com/2020/07/a-note-on-unsupported-rules-in-robotstxt.html). Это значит, что Google не будет учитывать файлы robots с записанной внутри директивой “noindex”.

Что произошло? В течение многих лет файл robots позволял ограничивать доступ к некоторым (или всем) страницам сайта для разного рода роботов, парсеров, пауков или скраулеров. Крупные поисковики следовали этим правилам, но не всегда были понятны принципы их обработки, поскольку отсутствовал официальный стандарт. Теперь же компания Google решила официально утвердить протокол REP для возможностей его расширения в будущем и предотвращения разных толкований одной записи. Основные изменения:

  • Директивы теперь используются для любого протокола: кроме HTTP/HTTPS, они распространяются на FTP и прочие;
  • Поисковые пауки обязательно сканируют первые 512Кб файла robots.txt. Если файл большой, то дальше они могут его не сканировать..
  • Все записи в файле кешируются сроком до 24 часов. Это сделано, чтобы не загружать сервер запросами, а также, чтобы SEO-специалист мог обновлять файл по мере необходимости и в удобные сроки. Срок кеширования можно задавать, используя директиву Cache-Control.
  • Если файл по какой-то причине перестал сканироваться — правила продолжают работать. Согласно новой спецификации, в течение продолжительного времени используется последняя кэшированная копия.

Также, были пересмотрены правила для файла robots.txt. Теперь поисковой машиной Google не учитываются директивы, которые не указаны в стандарте. Первой записью, которая не попала в документ, стала директива noindex.

Каковы же альтернативы? Google такие варианты, которые, вероятно, уже использовались в любом случае:

1) noindex в метатегах. Данная директива, поддерживаемая в HTTP-ответах/HTML-коде — самый эффективный способ, чтобы удалить ссылки из индекса, если парсинг разрешен.

2) 404 и 410 коды ответов. Оба HTTP-ответа означают, что по данному URL отсутствует страница, и приведут к удалению страниц с такой ошибкой из поискового индекса если они будут или были просканированы.

3) Защита паролем. Если разметка не указывает на подписку или платный контент (https://developers.google.com/search/docs/data-types/paywalled-content), то сокрытая за формой авторизации страница со временем удалится из индекса Google.


4) Disallow в robots.txt. Поисковики индексируют известные им страницы. Поэтому, блокирование доступа к странице для краулеров означает, что контент никогда не будет проиндексирован. В то же время, поисковик также может индексировать URL-адрес, основываясь на переходах с других страниц (внутренних или внешних), не видя при этом непосредственно контент. Так что, при использовании директивы disallow рекомендую сделать страницы, закрытые ею, менее видимыми в целом.

5) Инструмент удаления URL в Google Search Console (https://support.google.com/webmasters/answer/1663419). С его помощью можно легко и быстро (но временно) убрать страницы из результатов поиска.

Новый стандарт. За день до этой новости, Google анонсировал, что компания также работает над разработкой стандарта, основанного на robots exclusion protocol, что является первым существенным изменением в данном направлении. Также, компания выложила исходный код парсера robots.txt в открытый доступ одновременно с новостью о разработке стандарта.

Почему Google вводит эти изменения сейчас? Поисковый гигант искал возможности для этих изменений в течение нескольких лет и со стандартизацией протокола он наконец-то может двигаться вперед. В Google сказали, что «провели анализ по использованию разных директив в файле robots» и теперь сфокусированы на удалении основных неподдерживаемых директив – crawl-delay, nofollow, noindex.

«Поскольку эти правила никогда официально не разъяснялись компанией, их использование может плохо влиять на сканирование Googlebot’а. Также, такие ошибки плохо влияют на присутствие сайтов в поисковой выдаче»

Стоит ли переживать? Самое главное на данный момент – избавиться от директивы noindex в файле robots.txt. Если же без нее никак, то стоит воспользоваться одной из перечисленных выше альтернатив до 1 сентября. Также, обратите внимание на использование nofollow или crawl-delay команд и если они есть, то переделайте также их с использованием поддерживаемых директив. Поисковый гигант дал достаточно времени для того, чтобы все ознакомились с вносимыми изменениями и поменяли свои файлы robots.txt, поэтому нет поводов для беспокойства.

Тем не менее, все равно интересно как коллеги решают данную проблему. Со статическими сайтами все понятно, там и в хедере можно написать все нужные метатеги. Но для SPA-сайтов было гораздо удобнее закрывать страницы по определенной маске (например https://ntile.app/some_id/*) или же скрывать целые разделы (например, https://ntile.app/taynaya-komnata-5d2ec134e12fd4000146d3ec-5d2ec134e12fd4000146d3ee, изначально созданный не для индексации, а для тестов по переспаму). С кодами ответов в заголовках много мороки получается. Да и скрывать всё за формой авторизации несколько усложняет разработку.

Подскажите, кто как решает такого рода проблемы?

Материал опубликован пользователем.
Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Гайд по robots.txt для начинающих SEO-специалистов

Абсолютно все сеошники сталкиваются с разработкой и настройкой robots.txt. Грамотно составленный документ позволяет быстрее индексировать страницы и занимать высокие позиции в выдаче по релевантным запросам. Мы написали простую инструкцию для начинающих SEO-специалистов: о том, что из себя представляет индексный файл и как его правильно настраивать.

Для чего нужен индексный файл?

Файл robots.txt — текстовый документ в кодировке UTF-8, ограничивающий краулерам доступ к контенту (разделам, страницам) вебсайта. Действует по протоколам URL (http, https и FTP).

В основном он нужен, чтобы:

  • Скрывать не предназначенные для публикации страницы
  • Оптимизировать краулинговый бюджет
  • Предотвращать дублирование контента

От индексации обычно закрывают панель администратора, результаты поиска по сайту, страницы регистрации и авторизации, фиды, пустые или разрабатываемые страницы и т.д.

Краулинговый бюджет — предел страниц для сканирования поисковыми роботами за интервал времени. Расчёт производится с учетом пользовательского спроса и доступности сервера.

Иногда вместо индексного файла применяют noindex в мета-теге robots. Например, чтобы передать ссылочный вес страницы, убираемой из индекса. Добавляем в мета-тег .

Важно: директивы robots.txt и инструкция noindex в robots выступают как рекомендации и могут быть проигнорированы роботами.

Инструкция по работе с robots.txt

Перед тем, как приступать к созданию файла, необходимо убедиться в отсутствии robots.txt на сайте. Самый простой способ узнать о наличии такого файла — поместить URL-адрес сайта в браузер с добавлением /robots.txt. В результате произойдет одно из трёх событий:

  1. Найдете прописанный (пусть и не очень глубоко) файл
  2. Обнаружите практически пустой, но настроенный роботс
  3. Получите сообщение об ошибке 404, так как страницы не существует

Краткое руководство по созданию:

  • Наполните текстовый документ с поддержкой UTF-8
  • Сохраните его под названием robots в формате txt
  • Проверьте и внесите корректировки
  • Разместите robots.txt в корневом каталоге

Необходимо ознакомиться с инструкциями по наполнению, директивами и синтаксисом файла.

Общие требования

  • Название записывается в нижнем регистре — robots.txt
  • UTF-8 кодировка
  • Формат — txt
  • Размер составляет до 500 КиБ
  • Размещение в корне сайта
  • Единственный на сайте
  • Доступ для нужного протокола и номера порта
  • Никакой кириллицы. Для доменов применяется Punycode. Кодировка адресов страниц и структуры сайта совпадают.

Обращаем внимание, что для вебсайтов с поддоменами для каждого в корне указываются отдельные robots.txt.

Используемые директивы и синтаксис

Директивы прописывают инструкции для поисковых роботов. Каждая указывается с новой строки. Рассмотрим их назначение и особенности:

1. Обязательная директива User-agent. С ее помощью задаем правила для каждого робота:

Поисковики выбирают специфичные (подходящие для них) правила и могут проигнорировать инструкции в *. Поэтому рекомендуется прописывать несколько агентов для каждого, разделяя наборы разрывом строки.

2-3. Allow и Disallow регулируют доступ к контенту для индексирования. Первая директива открывает, вторая — закрывает. Использование слэша (/) — останавливает краулеров от сканирования содержимого сайта: Disallow: /

Однако Disallow с пустой секцией равнозначен Allow.

Рассмотрим частный случай:

В таком сочетании роботы просматривают только определенный пост блога, остальной контент для них недоступен.

  • Путь страниц прописывается полностью, разделов — заканчивается косой чертой (/);
  • Сортируются Allow и Disallow по длине префикса URL (от меньшего к большему). При наличии нескольких подходящих для страницы правил предпочтение отдается последнему;
  • Поддерживаются спецсимволы * и $.

4. Sitemap — прописывает положение карты сайта в xml формате. Такая навигация содержит URL страниц, обязательных к индексации. После каждого обхода роботом получим обновление информации о сайте в поиске с учетом всех изменений в файле.

Пример: Sitemap: https://site.com//sitemap.xml.

  • Помещаем в любом месте документа без дублирования
  • При заполнении указываем полный URL
  • Большие карты рекомендуется разбивать

5. Clean-param применяется дополнительно и действует для Яндекса.

Исключает динамические (UTM-метки) и get-параметры. Такие данные не влияют на содержимое страницы, следовательно, недопустимы к индексации.

Через «&» указываются параметры, после — префикс пути всех или отдельных страниц, к которым применяется правило:

При наличии нескольких страниц с дублирующейся информацией целесообразнее свести их адреса к одному:

Clean-param: ref /some_dir/get_products.pl — содержит адреса страниц:

Параметр ref используем, чтобы отследить ресурс, с которого поступил запрос.

  • Длина составляет не более 500 символов
  • При перечислении параметров учитывается регистр
  • Располагается в любом месте документа
  • Снижает нагрузку и ускоряет индексацию, так как краулеры не будут тратить время на сканирование страниц-повторов

6. Craw-delay определяет время для обхода страниц.

Пример: Crawl-delay: 2 — интервал в 2 секунды.

  • Неактуально для Google
  • Для Яндекса лучше настраивать в Вебмастере
  • Позволит замедлить сканирование в случае перегрузки

7. Через Host указываем главное зеркало сайта, чтобы избежать дублей в выдаче. При наличии нескольких значений учитывается только первое, остальные игнорируются.

  • Неактуально для Google, с 20 марта 2020 года — для Yandex
  • Заменяется на 301 редирект

Краулеры по-разному интерпретируют директивы. Яндекс соблюдает правила, описанные в файле. Google руководствуется собственными принципами. Поэтому при работе с ним рекомендуется закрывать страницы через мета-тег robots.

Спецсимволы «/, *, $, #»

Звездочка (*) учитывает последовательность символов. Символ $ сообщает об окончании строки и нейтрализует звездочку (*).

После решетки «#» размещаем комментарии в той же строке. Их содержание игнорируется при сканировании.

Слэш «/» скрывает контент. Один слэш в Disallow не допускает к индексации весь сайт. Два знака «//» применяются для запрета на сканирование отдельной директории.

Собираем данные, определяем нужные и «мусорные» страницы. С их учётом наполняем документ, не забывая про требования и инструкции. В итоге получаем готовый robots.txt вида:

Открываем доступ к стилям и скриптам для корректного проведения рендеринга. В противном случае не удастся правильно проиндексировать содержимое, что отрицательно отразится на позиции сайта.

Внедряем Clean-param при наличии динамических ссылок или передаче параметров в URL. Использование Craw-Delay также необязательно и вступает в силу в случае нагрузки на ресурс.

  • Пустые строки допустимы только между группами инструкций для каждого агента.
  • Как минимум, документ должен содержать агента и директиву на запрет.
  • Для robots действуют уникальные правила в зависимости от вида сайта и CMS.
  • Директивы действительны в течение длительного времени в случае потери краулером доступа к индексному файлу.
  • Закрытая страница может оказаться в индексе, если ссылка на неё размещена на самом сайте или стороннем ресурсе.

Обратите внимание

Полное ограничение доступа краулерам самая большая ошибка в использовании индексного файла. Поисковые системы перестанут сканировать ресурс, что может отрицательно отразиться на органическом трафике. Рекомендуем только дополнять и обновлять файл после тестирования каждого внесенного правила для своевременного исправления ошибок. При создании и внесении изменений в robots.txt применяем золотое правило: меньше строк, больше смысла.

В случае отказа от внедрения индексного файла краулеры будут сканировать ресурс без ограничений. При этом отсутствие такого файла не критично для малых сайтов. В противном случае, следует учитывать краулинговый бюджет и внедрять документ robots.

Robots.txt для сайта

Robots.txt — служебный файл, который находится в корневом каталоге сайта и необходим, чтобы указывать поисковым системам, как работать с вашим сайтом. Когда краулер приходит на хостинг, файл robots.txt является одним из первых документов, к которому он обращается. Не смотря на то, что robots.txt есть практически у каждого сайта, проводимые мной аудиты ваших сайтов показывают, что у четверти из них robots настроен неверно, что приводит к самым печальным последствиям.

Текст с обновлением от 17/10/2020

Robots.txt в большинстве случаев используется для исключения дубликатов, служебных страниц, удаленных страниц и других ненужных страниц из индекса поисковых систем. Кроме того, именно через robots.txt можно указать адрес карты сайта (sitemap.xml). В некоторых случаях к robots.txt прибегают для того, чтобы закрыть сайт от нежелательной поисковой системы.

Правильное манипулирование robots.txt позволяет перенаправить бота ПС на нужные страницы, не разрешая создавать дубли контента, приводящие к понижению позиций.

Файл robots.txt должен:

  • располагаться строго в корне сайта,
  • он должен быть единственным,
  • число директив (команд) не должно превышать 1024,
  • размер не превышать 500kB (для Google).

В соответствии со стандартом перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.

Символ # предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.

Если файл robots.txt отсутствует, не является текстовым или на запрос робота возвращается HTTP-статус отличный от 200 OK, робот считает, что доступ к документам не ограничен и можно индексировать все в пределах сайта.

Содержание файла robots.txt

Файл должен содержать обычный текст в кодировке UTF-8, состоящий из записей (строк), разделенных символами возврата каретки, возврата каретки/перевода строки или перевода строки.

Выполняются только действительные записи, остальное содержание игнорируется. Например, при получении страницы HTML будут учитываться только действительные строки, а остальное содержание – игнорироваться без предупреждения или сообщения об ошибке.

При использовании кодировки, в которой присутствуют символы, не входящие в таблицу UTF-8, синтаксический анализ содержания файла может быть выполнен неправильно.

Отметка последовательности байтов (BOM) в начале файла robots.txt игнорируется. Добавлять ее не обязательно.

Файл состоит из одной или нескольких директив User-agent, которые предназначены для описания директив для разных роботов, директив Disallow и Allow, которые служат для запрета или разрешения индексации и межсекционной директивы sitemap.

Яндекс ранее использовал директиву host, которая ранее указывала на главное зеркало сайта, а ныне не используется. Также Яндекс изобрел директиву Clean-param, которая служит для очистки динамических параметров урла и снижения нагрузки на хостинг.

Директива Disalow служит для запрета индексации, Allow — для разрешения индексации.

Каждая запись состоит из поля, двоеточия и значения. Использование пробелов не обязательно, но рекомендуется для удобства чтения. Комментарии могут размещаться в любом месте файла и должны обозначаться символом #. Все содержание, расположенное после этого знака до конца строки, расценивается как комментарий и игнорируется.


Пробелы в начале и конце записи игнорируются.

Для элемента регистр не учитывается. Элемент может быть чувствительным к регистру (в зависимости от элемента ).

Обработка элементов с простыми ошибками или опечатками (useragent вместо user-agent и т. п.) не описана. Некоторые агенты пользователя обрабатывают такие ошибки правильно.

Кто главней: robots.txt или мета-теги robots

Закрыть страницы сайта от индексирования можно несколькими способами, в том числе прописать метатег robots, где можно указать следующие директивы (в нотации для Google):

  • all — Нет ограничений на индексирование и показ контента. Эта директива используется по умолчанию и не влияет на работу поисковых роботов, если нет других указаний.
  • noindex — Не отображать эту страницу, а также ссылку «Сохраненная копия» в результатах поиска.
  • nofollow — Не выполнять переход по ссылкам на этой странице.
  • none — Аналогично метатегам noindex, nofollow.
  • noarchive — Не отображать ссылку «Сохраненная копия» в результатах поиска.
  • nosnippet — Не отображать расширенное описание этой веб-страницы в результатах поиска.
  • notranslate — Не предлагать перевод этой страницы в результатах поиска.
  • noimageindex — Не индексировать изображения на этой странице.
  • unavailable_after: [RFC-850 date/time] — Не отображать эту страницу в результатах поиска после указанного времени/даты. Время/дату следует указать в формате RFC 850.

Очень часто возникают противоречия между директивами в robots.txt и метатегом на странице. Например, в robots.txt страница закрыта для индексирования, а метатегом robots страница открыта для индексации. Что происходит в этом случае?

Для Google выполняется такое правило: «метатеги robots обнаруживаются при сканировании URL. Если сканирование страницы запрещено файлом robots.txt, то директивы, касающиеся индексирования или показа контента, будут проигнорированы. Чтобы обеспечить обязательное выполнение директив, не следует запрещать сканирование URL, для которых они заданы».

Однако, необходимо понимать, что robots.txt — это набор рекомендованных, в не обязательных правил для Google. Поэтому, если на страницу, открытую для индексации и закрытую в robots.txt стоит внешняя ссылка, то она, с некоторой долей вероятности будет обработана и проиндексирована.

Обновлено 17/10/2020
Google уточнил это положение. Теперь страница может быть проиндексирована, если на неё есть любая ссылка (внешняя или внутренняя), несмотря на запрет в Robots.txt. Гарантировано заблокировать индексацию можно либо используя «noindex», либо запретить анонимный доступ к странице с помощью авторизации. Источник тут.

Недаром в новой поисковой консоли есть отчет «Покрытие», где можно посмотреть проиндексированные страницы, несмотря на блокировку в Robots.

Конец обновления от 17/10/2020

Если имеется второй вариант — в robots.txt запретов на индексацию нет, но метатеги указывают на noindex, то краулер откроет такую страницу, прочитает метатеги и индексировать страницу не будет. Google всегда выполняет наиболее строгую директиву.

Отсюда вывод: устраняйте несогласованность между метатегами и robots.txt, чтобы лучше понимать какие разделы сайта и какие внутренние ссылки закрыты от индексирования.

Интересен вариант несогласованности между метатегами на странице. Так, для Яндекса, если робот обнаруживает конфликт между несколькими мета-тегами, он учтет положительное значение:

C Google иная ситуация — он выполняет наиболее строгую директиву. То есть, для приведенного выше примера робот проиндексирует только ссылки, но не контент.

Типичные ошибки в robots.txt

1. Имя файла содержит заглавные буквы

Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.

2. Использование файла robot.txt вместо robots.txt

Еще раз – файл должен называться robots.txt.

3. Перепутанные инструкции

Одна из самых распространённых ошибок в robots.txt – перепутанные между собой инструкции. Например:

Правильно писать вот так:
User-agent: Yandex
Disallow: /

4. Указание нескольких каталогов в одной инструкции disallow

Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow:

Disallow: /css/ /cgi-bin/ /images/

Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Правильно надо писать так:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

5. Пустая строка в user-agent

6. Зеркала сайта и URL в директиве Host

Чтобы указать, какой сайт является главным, а какой — зеркалом (дублем), для Google используются 301 редирект и внесение информации в Google Search Console, а для Яндекса — директива host. Правда эта директива была отменена весной 2020 года, но многие продолжают её использовать.

С точки зрения поисковых систем https://www.site.ru , https://site.ru , https://www.site.ru и https://site.ru — четыре разных сайта. Несмотря на то что визуально для людей это одно и то же, поисковая система принимает решение самостоятельно, какой сайт отображать в результатах выдачи, а какой — нет. Казалось бы, в чем проблема? Их может быть несколько:

  • поисковик Яндекс принял решение оставить у себя в индексе сайт с www, a Google решил оставить без www;
  • ссылки с других ресурсов, которые имеют влияние на ранжирование, ссылаются на сайт с www, а в индексе поисковика остался сайт без www.

Чтобы таких проблем не возникло, на этапе технической оптимизации принудительно сообщаем поисковикам, какой вариант сайта — с www или без, с https или без него — для нас предпочтительнее, и избавляем себя от возможных проблем в дальнейшем.

Итак, для протокола http следует писать без аббревиатуры протокола передачи гипертекста, то есть без https:// и без закрывающего слеша /

User-agent: Yandex
Disallow: /cgi-bin
Host: https://www.site.ru/

User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru

Однако, если ваш сайт с https, то правильно писать вот так:

User-agent: Yandex
Disallow: /cgi-bin
Host:https:// www.site.ru

Директива host Является корректной только для робота Яндекса, межсекционной. Поэтому, желательно, секцию Яндекса описывать после всех других секций.

Напомню еще раз, директива host стала необязательной. Теперь главное зеркало можно установить в Яндекс вебмастере.

7. Использование в Disallow символов подстановки

Иногда хочется написать что-то вроде:

User-agent: *
Disallow: file*.html

для указания все файлов file1.html, file2.html, file3.html и т.д. На сегодняшний день — это вполне допустимо как для робота Яндекс так и Google.

Более того, Яндекс по умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *. Пример:

User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам
# начинающимся с ‘/cgi-bin’
Disallow: /cgi-bin # то же самое

Чтобы отменить * на конце правила, можно использовать спецсимвол $, например:

User-agent: Yandex
Disallow: /example$ # запрещает ‘/example’,
# но не запрещает ‘/example.html’

User-agent: Yandex
Disallow: /example # запрещает и ‘/example’,
# и ‘/example.html’

Спецсимвол $ не запрещает указанный * на конце, то есть:

User-agent: Yandex
Disallow: /example$ # запрещает только ‘/example’
Disallow: /example*$ # так же, как ‘Disallow: /example’
# запрещает и /example.html и /example

8. Редирект на страницу 404-й ошибки

Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу.

Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robots.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.

9. Заглавные буквы — это плохой стиль

USER-AGENT: GOOGLEBOT
DISALLOW:

Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файлов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.

10. Перечисление всех файлов

Еще одной ошибкой является перечисление каждого файла в директории:

User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

Вместо этого можно просто закрыть от индексации директорию целиком:

User-agent: *
Disallow: /AL/
Disallow: /Az/

11.Использование дополнительных директив в секции *

Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».

То есть рекомендуется создавать специальные секции для нестандартных директив, таких как host.

User-agent: *
Disallow: /css/
Host: www.example.com

А вот так – правильно:

User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.example.com

12. Отсутствие инструкции Disallow

Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту инструкция Disallow является обязательной, и робот может «неправильно вас понять».

User-agent: Yandex
Host: www.example.com

User-agent: Yandex
Disallow:
Host: www.example.com

13. Отсутствие слешей при указании директории

Как в этом случае поступит робот?

User-agent: Yandex
Disallow: john

По стандарту, он не будет индексировать файл с именем «john» и директорию с именем «john». Для указания только директории надо писать так:

User-agent: Yandex
Disallow: /john/

14. Неправильный HTTP-заголовок

Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.

15. Логические ошибки

Зачастую при разветвленной структуре сайта возникают логические ошибки в определении того, что и как нужно блокировать от индексации.

Для Google: На уровне группы, в частности для директив allow и disallow, самое строгое правило, учитывающее длину записи [путь], будет важнее менее строгого и более короткого правила. Порядок очередности правил с подстановочными знаками не определен.

Яндекс: Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом.

User-agent: Yandex
Allow: /catalog
Disallow: /

User-agent: Yandex
Disallow: /
Allow: /catalog
# разрешает скачивать только страницы, начинающиеся с ‘/catalog’

User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog

User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# запрещает скачивать страницы, начинающиеся с ‘/catalog’,
# но разрешает скачивать страницы, начинающиеся с ‘/catalog/auto’.

При конфликте между двумя директивами с префиксами одинаковой длины в Яндексе приоритет отдается директиве Allow, в Google — Disallow.

В любом случае протестируйте ваш robots.txt на конфликты в обоих вебмастерах.

Необычная ситуация с индексированием

В ходе выполнения аудита одного коммерческого сайта была замечена странная ситуация с пагинацией страниц: если страницы пагинации закрывались от индексации, то падал трафик с Яндекса, но возрастал с Google. Если страницы пагинации открывались для индексации, то раз в 5 вырастал трафик с Яндекса и при этом практически исчезал из Google.

Пришлось, как временную затычку, убирать блокирование пагинации из robots.txt (что уже правильно — нельзя страницы пагинации там закрывать) и прописывать такую конструкцию в заголовке страницы:

meta name = «robots» content = «noindex, follow» />
meta name = «yandex» content = «index» />
Таким образом, контент страницы пагинации не индексируется в Google, но индексируется в Яндексе. При этом все ссылки страницы доступны для индексации.

SEO Маяк

Блог Виталия Кириллова | Все о создании,
продвижении сайтов и заработке в интернете

Создание и продвижение сайтов, заработок в интернете

Мета-тег robots. Правильная настройка индексации сайта


Всем привет! Данный пост считаю обязательным к прочтению, так как далеко не все веб-мастера знают, как использовать мета-тег robots и как с помощью этого инструмента можно настроить индексацию сайта.

В последнее время на seo-mayak.com я публиковал много статей, посвященных различным функциям WordPress и как некоторым может показаться, немного отклонился от основной тематики блога.

Это вовсе не так! Я по прежнему уверен, что без базовых знаний в программирования, не о каком успешном продвижении речь идти не может. Я не зря последовательно описываю функции, о существовании которых просто обязан знать каждый веб-мастер, чтобы самостоятельно вести свой проект.

Сегодня мы опять будем работать с функциями, хотя основным героем будет конечно мета-тег robors.

Также я предложу Вам обновленный вариант файла robors.txt, который будет изменен до неузнаваемости, благодаря взаимодействию с мета тегом robots и PHP.

Но сначала я хочу сказать несколько слов о том, к чему может привести неправильная настройка индексации сайта для роботов Яндекса и Гугла. Поехали!

Последствия не правильной настройки индексации

Если Вы посмотрите на файл robots.txt моего блога, то увидите всего несколько строк:

Но что будет, если какой-нибудь веб-мастер, по неопытности или из каких-либо других соображений решит, что так правильно и настроит индексацию своего сайта аналогичным образам.

Сразу скажу ничего хорошего из этого не выйдет! Если отменить некоторые запрещающие директивы в файле robots.txt, такие как:

В этом случаи поисковые роботы получат разрешение на сканирование текстов дублирующих страниц, за что, с большой долей вероятности, сайт может угодить под АГС, Пингвин или другие фильтры.

Так что, без специальных знаний никому не советую менять свой robots.txt по моему примеру или по аналогичным примерам с других сайтов и открывать доступ поисковым роботам к не уникальному контенту.

Примеры URL страниц, которые могут попасть в индекс:

/category/seo-prodvizhenie — страницы с категориями;
/2014/05 — страницы с архивами
/tag/prodvizhenie — страницы меток
/?attachment_ > — страницы с прикрепленными файлами
/page/2 — страницы постраничной навигации
/feed — страницы фида
/?s= — страницы внутреннего поиска

Отдельный разговор у нас будет по дублям страниц, создаваемых функцией древовидных комментариев, так называемых replytocom, так что подписывайтесь на обновления блога .

Я перечислил все основные дубли, которые могут быть проиндексированы роботами Яндекса и Гугла, если на их пути не будет никаких преград, но в зависимости от структуры сайта, возможны и другие дубли, так что на каждом отдельном ресурсе, надо проводить свой тщательный анализ.

Итак, почему я убрал большинство запрещающих директив из своего файла robots.txt и тем самым открыл путь поисковым роботам? Основной причиной послужило то, что Гугл заносит заблокированные в robots.txt страницы в свой Supplemental index, если на них ведут внутренние или внешние ссылки.

Не думайте, сами страницы с дублями я не оставил без защиты от индексации, просто я внедрил в код каждой из них мета-тег robots, что уже на 100% убережет их от попадания в сопливый индекс. В конце статьи я покажу как это делается.

В исходном коде мета-тег robots выглядит следующим образом:

Не так давно, одна моя старая знакомая попросила меня высказаться, по поводу настройки индексации с помощью плагина All in One SEO Pack. Мысль сводилась к следующему.

Что, если открыть доступ в файле robots.txt, но запретить индексацию в All in One SEO Pack, в разделе «Настройки индексирования», проставив галочки возле соответствующий пунктов ?

В принципе мысль правильная и некоторые труженики SEO именно так и советуют делать, но если заглянуть в исходный код страниц, заблокированных через All in One SEO Pack, то увидим следующее:

Как видите в мета-теге отличается один параметр.

А теперь давайте поближе познакомимся с мета-тегом robots и разберемся: какие параметры он может принимать и на что они влияют.

Мета-тег robots и его параметры

Мета-тег robots очень важный инструмент, с помощью которого можно довольно тонко настроить индексацию сайта, хотя параметров, которые он может принимать, не так много.

Синтаксис настолько простой, что его даже описывать не надо, достаточно просто взглянуть на примеры, кроме того мета-тег robots и его параметры не чувствительны к регистру.

Мета-тег можно написать так:

Привожу список всех параметров мета-тега robots:

index — индексировать текст страницы.
noindex — не индексировать текст страницы
follow — следовать по ссылкам и индексировать их.
nofollow — не следовать по ссылкам и не индексировать их
all — индексировать текст страницы, а также следовать по ссылкам и индексировать их.
none — не индексировать текст страницы, а также не следовать по ссылкам и не индексировать их.

Отсутствие мета тега, автоматически разрешает роботу индексировать текст страницы и все ссылки находящиеся на ней.

Отсутствие параметра, также трактуется роботом как разрешение. Например:

В данном случаи робот не будет индексировать текст, но пройдет по всем ссылками и естественно проиндексирует их. Тоже самое сделает робот если встретит мета-тег robots с такими параметрами:

Если Вы заметили, именно такие параметры проставляет плагин All in One SEO Pack, но об этом чуть позже.

Вот пример полного запрета индексации:

Снятие всех запретов:

Но что будет делать робот, если наткнется на противоречивые директивы? Например:

В данном случаи из двух противоречащих друг другу параметров, робот сделает выбор в пользу разрешающей директивы.

Данный параметр в мета-теге robots наложит запрет на добавление содержимого страницы в кэш поисковых систем:

Здесь надо понимать, что если на страницу наложен полный запрет (noindex, nofollow), то в кэш она тоже не попадет.

Вот в принципе и все параметры, которые может принимать мета-тег robots, надеюсь понятно объяснил, но если будут вопросы, задавайте их в комментариях.

А теперь вернемся к плагину All in One SEO Pack. Как вы поняли, параметры прописанные разработчиками плагина для мета-тега robots, дают разрешение поисковым роботам следовать по ссылкам и индексировать их.

И если открыть доступ к страницам сайта в файле robots.txt и целиком положится на защиту от индексации, любезно предоставляемой вышеупомянутым плагином, то можно забыть: про правильный анкор-лист сайта, а также про экономию времени, отведенного роботу на индексацию сайта, и как следствие, своевременное попадание страниц с полезным контентом в основную выдачу. Кроме всего прочего, плагин не закрывает дубли, создаваемые постраничной навигацией.

О параметрах noindex, follow мы еще поговорим в следующей статье, которая будет полностью посвящена теме — дубли страниц replytocom, так что подписывайтесь на обновления блога .

Еще хотел сказать несколько слов, касательно сравнения файла robots.txt и мета-тега robots. Можно предположить, что мета-тег robots имеет некий приоритет в «глазах» поисковых роботов над директивами файла robots.txt. Хочу заметить, что вопрос приоритета в данном случаи вообще не стоит.

Если директивы файла robots.txt запрещают сканировать страницу и считывать ее содержимое, что, как мы выяснили, не уберегает ее от индексации, то мета-тег robots может быть обнаружен роботом только в процессе сканирования и его директивы вступят в силу только после считывания страницы. Надеюсь разница понятна. Идем дальше.

Как разместить мета-тег robots на страницах

Итак, мы подошли к самому интересному. Сейчас мы займемся внедрением мета-тега robots в исходный код страниц, которые надо закрыть от индексации.

Прежде всего нам надо выявить функции, отвечающие за вывод страниц с дублями контента.

Вот эти функции:

is_category() — функция вывода страниц с категориями;
is_archive() — функция вывода любых архивов;
is_year() — функция вывода архивов по годам;
is_month() — функция вывода архивов по месяцам;
is_day() — функция вывода архивов по дням;
is_date() — функция вывода архивов по датам;
is_author() — функция вывода архивов по авторам;
is_tag() — функция вывода страниц с метками;
is_tax () — функция вывода таксономии произвольных типов записей;
is_attachment() — функция вывода страниц с прикрепленными файлами;
is_paged() — функция вывода постраничной навигации;
is_feed () — функция вывода страницы фида;
is_search()> — функция вывода страниц внутреннего поиска.

Наша задача заключаться в следующем. Нам надо добавить мета-тег robots с запрещающими параметрами noindex, nofollow в исходный код каждой дублирующей страницы, между тегами .

Для этого открываем файл functions.php и в самое начало, после php тега , вставляем такую функцию:

Теперь я немного поясню как будет работать данная функция.

Функция добавляет условие, которое будет срабатывать при вызове любой из функций, перечисленных в скобках и с помощью команды echo , добавит мета тег robots в исходный код дублирующих страниц.

Далее, с помощью хука wp_head цепляем наше подготовленное действие к функции wp_head(), которая выведет мета-тег robots в шапку страницы, между html тегами .

Как видите сложного ничего нет, но тем не менее, без минимальных знаний в PHP, у нас бы ничего не получилось.

Конечно потребуется время, на то, чтобы страницы выпали из «сопливого» индекса Google, но выпадут они обязательно!

С уважением, Виталий Кириллов

code is art

META ROBOTS или robots.txt?

Существует два метода донести до поисковика, какие страницы следует индексировать, а какие нет — это использование « meta тега robots » или создание файла «robots.txt». Так какой же из методов лучше использовать для запрета индексации определенных страниц сайта? В каких случаях и почему необходимо запрещать индексировать некоторые страницы сайта?

Запрет индексации с помощью файла «robots.txt»

Один из вариантов, как это можно сделать — использовать файл «robots.txt». Ниже приведен пример этого файла:

Директива «User-agent»

Как видите, файл содержит обращение к конкретному агенту поисковика через директиву « User-agent». Используя ее, Вы, скажем, можете разрешить одному поисковику индексировать сайт, а другому нет. Или же разрешить индексировать разным поисковым системам разные страницы сайта. Так же можно обратиться сразу ко всем агентам поисковых систем указав в качестве значения для директивы « User-agent» символ «*». Таким образом поисковой агент, прочитав файл «robots.txt» и не найдя в нем указаний для себя, будет искать правила, описанные для « User-agent: *».

Ниже приведен список некоторых « User-agent» для разных поисковых систем:

  • «Yandex» — агент поисковика «Яндекс».
  • «Googlebot» — агент поисковика «Google».
  • «Googlebot-Mobile» — агент поисковика «Google», сканирует страницы для включения в индекс для мобильных устройств.
  • «Googlebot-Image» — агент поисковика «Google», сканирует страницы для индекса картинок.
  • «Mediapartners-Google» — агент поисковика «Google», сканирует страницы для определения содержания «AdSense».
  • «Adsbot-Google» — агент поисковика «Google», сканирует страницы, оценивая качество целевых страниц для «AdWords».
  • «StackRambler» — агент поисковика «Rambler».

Директива «Disallow»

Директива « Disallow» указывает поисковому агенту, какие разделы сайта запрещены для индексации. Используя директивы « User-agent» и « Disallow» можно запретить определенной поисковой системе индексировать Ваш сайт. Вот так, например можно запретить «Google» индексировать полностью весь сайт:

А следующим образом можно закрыть сайт для индексации всем поисковым системам:

В директиве « Disallow» следует указывать каталоги сайта, которые необходимо закрыть от индексации. Например, администратор сайта не хочет, чтобы индексировалась PDA версия сайта, расположенная по адресу www.example.ru/pda/ . Это можно сделать следующим образом:

Таким образом, мы закроем оба раздела от индексирования для всех поисковых систем.
Побочным эффектом последнего метода может стать то, что Disallow: /pda запретит индексацию так же таких страниц, как /pda.html , /pda-download.html и т. д., т. е. всех страниц, которые начинаются с pda и лежат к корневой директории сайта.

Следующий код не запрещает ничего, т. е. разрешает индексировать все страницы сайта для всех поисковых систем:

Обратная по смыслу директиве « Disallow» является директива « Allow». « Allow» разрешает индексировать указанный в ней раздел сайта. Допустим нам нужно запретить индексирование всего сайта, за исключением раздела /info/ . В этом случае нам не нужно перечислять все остальные разделы в директивах « Disallow», чтобы закрыть их от индексации. Правильным решением будет следующий код:

Таким образом мы разрешили всем поисковым системам индексировать раздел сайта /info/ , но запретили индексировать все остальные разделы.

Директива «Host»

Директива « Host» определяет основной адрес сайта. Это актуально в случае, если Ваш сайт имеет несколько зеркал. Указав в директиве « Host» основное зеркало, Вы поможете поисковику сделать правильный выбор. Директива « Host» для одного « User-agent» может быть только одна.

Директива «Sitemap»

Директива « Sitemap» указывает поисковому агенту расположение файла карты сайта «sitemap.xml». Это поможет поисковику быстрее найти файл карты сайта. В случае, если на Вашем сайте используется несколько карт, то их можно указать следующим образом:

Проверить, правильно ли составлен файл «robots.txt» можно с помощью специальной службы «Яндекса».

Часто возникает заблуждение, что файл «robots.txt» помогает индексировать Ваш сайт. Оно ошибочно. С помощью файла «robots.txt» можно дать поисковику больше времени на индексацию полезных разделов Вашего сайта, но он не дает никакой гарантии, что Ваш сайт будет проиндексирован.

Теперь, ниже постараюсь описать использование « meta тега robots ».

Запрет индексации с помощью « meta тега robots »

Итак, второй способ запретить поисковым системам индексировать страницы сайта — это использовать « META тега ROBOTS ». Пример использования:

В данном случае, страница будет закрыта для индексирования поисковыми системами.

Допустим, у Вас на сайте имеется возможность в администраторском разделе выбирать страницы или категории, индексирование которых требуется запретить. Можно программно создать алгоритм, который при генерации XHTML-шаблона страницы будет втавлять в код « meta тег robots ». Теоретически, подобную технику можно реализовать и использованием файла файл «robots.txt», но сложность заключается в том, что каждый раз нужно будет пересобирать файл заново, в то время, как при использовани « meta тега robots », его нужно только вставить в код нужной Вам страницы. Так же, с помощью « meta тега robots » невозможно обратиться к определеной поисковой системе.

Примеры использования « meta тега robots »

noidex,nofollow

Самый распространенный случай, это когда требуется запретить индексировать страницы, а так же не следовать ссылкам, расположенным на ней. Вот каким кодом это можно организовать:

noindex,follow

В случае, если требуется запретить индексирование, но разрешить передачу ссылочного веса ссылкам на странице:

В случае, если требуется разрешить индексирование страницы, без передачи ссылочного веса ссылкам:

index,nofollow

Так же можно комбинировать использование файла «robots.txt» с « meta тегом robots ». Это может дать некоторые преимущества. Вопервых, это двойная гарантия, что нужная станица не будет проиндексирована, хотя ничто не может помешать поисковому роботу проигнорировать как файл, так и META тег, и получить содержание страницы, но это так, к слову.

« meta тег robots » имеет преимущество перед файлом «robots.txt», при условии, что в файле индексирование разрешено, а в meta теге запрещено. Таким образом, можно, например, запрещать индексацию методом исключений.

В общем, вроде бы все, что хотел рассказать по поводу запрета индексирования страниц поисковыми системами. Может быть, в ближайшем времени напишу статью, каким образом можно программно генерировать файл « robots.txt» при каждом запросе к нему, а так же опишу плюсы и минусы данного метода.

Control your index

Похожие темы

Подписаться на обновления блога

Вам понравился наш блог, хотите следить за обновлениями? Подпишитесь на RSS рассылку или рассылку по электронной почте. Так же вы можете следить за нами в Twitter.

Комментарии (16)

  1. Прохожий/ 08.10.2008 в 19:35

Сасибо за пост.
Самое внятное и доходчивое обяснение работы robot.txt что смог найти в сети.

спасибо! очень подробно описано!

а кто нибудь знает сервис который бы проверял сайт и выдавал информацию о том что заблокировано в robots.txt и meta ? типа — ввёл адрес и тебе выдало что и как доступно а что нет..

Тест robots.txt возможен из инструментов для вебмастеров, как гугла, так и яндекса. Вводите интересующий вас URL, и вам будет выдано, доступен он или нет в данной поисковой системе.

Nikon. Ты что не был в панельки wmconsole яндекса? Потом проверка роботса и тама как раз всё для тебя)) Спс, за мета теги, надо будит на блоке выложить обработаную статейку. ТС +1

Что будет обозначать такая надпись в файле robots.txt:

User-agent: Mediapartners-Google*
Disallow:

User-Agent: *
Disallow:
Host: https://www.имя сайта.ru

Смысла нету, т.к. вы и так ничего не запрещаете индексировать.

Спасибо! Всё просто и доступно.

Есть ли у вас статья про ? Если есть, то вышлите, плиз, ссылку.

в первом посте я справшивал про тег — NOINDEX. Я его обрамил скобками и его вырезало из поста…:)

Хм, да вроде бы тут практически вся информация по этому тегу, больше чет мне даже в голову не приходит, что добавить

Я имел в виду не опцию NOINDEX в META — ROBOTS, а отдельный тег.

Например (не знаю, пропустит ли ваш валидатор ссылки):

Инфы как бы хватает, просто, поскольку однозначного мнения нет, то хотел узнать ещё ваше.

В любом случае спасибо.

Директива HOST зобретение Яндекса, ее лучше в роботс.тхт вставлять один раз и то, после всего описания дыбы не смущать другие поисковики.

У меня блог на бесплатном хосте, к файлу роботс — доступа нет, могу лишь мета тегами управлять доступ. Возможно ли мета тегом запретить индексацию всего блога лишь для яндекса??
мне это очень важно, потому что яндекс очень портит статистику.

Спасибо! Только здесь нашла ответы на все свои вопросы и избавилась от разных сомнений по поводу robots.txt и Robots Meta

А как быть в таком случае:
У меня адрес сайта имеет следующи й вид ссылок
урл сайта/?article=17
в последнее время начали появляться дубли вида урл сайта/index.php?article=17
по сути эта ссылка ведет на такуюже статью.
как запретить такой урл
если я запрещу к индексации index.php то проиндексируются ли нормальные урлы?

Привет! У тебя классный блог, я тоже недавно запустил проект и возник вопрос, как закрыть от индексации https://сайт.ру/2014/12 именно ети архивы в robots прописываю Disallow: 2014, проверяю — разрешен, подскажи как эту страницу с помощью
Feibel63/ 15.11.2015 в 14:51

Создание векторных иллюстраций. Веб-маркетинг, продвижение и поисковая оптимизация сайтов. Торрент вообще не качается (.). Сайт производителя только зарегистрированные пользователи. Веб-маркетинг, продвижение и поисковая оптимизация сайтов. Классическая анимация и создание баннеров (2011) 06. Интернет-маркетинг, продвижение и поисковая оптимизация сайтов (seo) (2014) 169. Продвижение и поисковая оптимизация. Маркетинг,продвижение и. И сайтов.
Торрент специалист интернет-маркетинг,продвижение и поисковая оптимизация сайтов (seo). Маркетинг, продвижение и. Продвижение иоптимизация сайтов. Интернет-рекламы и website positioning. Оптимизация сайтов (search engine optimisation). Маркетинг, продвижение и.интернет рынок и. Продвижение и поисковая оптимизация сайтов (search engine optimization).маркетинг, продвижение и. Как работает интернет продвижение и. Сайтов. Seoоптимизация. И продвижение сайтов. Создание сайта какой вид деятельности Продвижение и поисковая оптимизация сайтов (search engine optimisation). Вкурсе интернет-маркетинг,. И поисковая оптимизация. Интернет рекламы и seo.маркетинг, продвижение и.
Проходит время — 6-12 месяцев и более — допустим, часть слов вышло в лидеры, прошло еще время в общем, годы, Вы продвигаетесь по этим же фразам, их количество не меняется, то есть, Вы всё стараетесь продвинуть сайт под то же количество слов, на которое договаривались изначально, search engine optimisation сайта делается по одному и тому же количеству ключевиков.

Ашманов и Иванов выбрали достаточно интересную стилистику повествования. Они рассматривают WEBSITE POSITIONING как настоящую науку с огромной степенью подробности. Именно поэтому можно смело сказать, что данная работа является фундаментальной. Здесь рассмотрена работа поисковых машин, спорные методы продвижения сайтов, системы аналитики, внутренние факторы, от которых зависит положение сайта в поиске, методы оценки продвижения, анализ поискового спроса и многое другое.
Мы не просто приводим посетителей на ваш сайт. Мы привлекаем новых клиентов и продажи для вашего бизнеса. По сути, на вас работает команда аналитиков и оптимизаторов. А еще — стратегия оптимизации, разработанная в соответствии с вашими целями и задачами. Вам не нужно ждать результатов годами — мы финансово гарантируем вывод сайта в ТОП. Всего за 6 месяцев. Если же за это время единичные позиции не выйдут в ТОП, платить за них не придется (!). Впрочем, оптимизация сайта по ключевым словам — лишь один из используемых методов продвижения в ТОП (собственные гарантии предоставляются по каждому из них).
Раскрутка и правильное продвижение сайта в интернет — самый эффективный инструмент увеличения продаж и расширения бизнеса. Продвижение сайта в интернет дает возможность донести Ваши предложения до большего количества потенциальных клиентов. Раскрутить сайт фирмы означает увеличить продажи, количество клиентов и расширить свой бизнес, используя один из самых дешевых и эффективных инструментов завоевания рынка. Раскрутка и продвижение бизнеса в интернет обходится намного дешевле, чем традиционные методы продвижения бизнеса. Ваша собственная рекламная площадка — лучший антикризисный инструмент!

Хотите научиться фотографировать и обрабатывать цифровые фото? — Сделайте сразу два шага к высотам мастерства! Оплатите « Курс успешной любительской фотосъемки. Уровень 1 » + курс « Adobe Photoshop CS5. Уровень 1. Растровая графика для начинающих » и получите в подарок запись вебинара по курсу «Adobe Photoshop CS5. Уровень 1. Растровая графика для начинающих».
Юрий Евгеньевич имеет огромный опыт работы в качестве дизайнера, net-разработчика и преподавателя. Первым в России получил статусы Adobe Certified Expert, Adobe Licensed Instructor, Corel Licensed Expert, Corel Licensed Teacher. Принимал участие в различных зарубежных конференциях и тренингах, например, в знаменитой международной конференции Adobe MAX 2007 (Барселона). Также Юрий Евгеньевич в качестве преподавателя Центра участвовал в тренинге Quark Corporation в Лондоне в 2008 году, где был единственным представителем не только России, но и всей Восточной Европы.
Профессиональный и педагогический опыт Николая Михайлович поистине огромен. Он занимался консультированием специалистов технического отдела по подготовке к сдаче тестов А+ Certification Комбелга-Голден Телеком. С 1979 года он преподавал на кафедре в МГТУ им. Н.Э. Баумана, вел курсовое и дипломное проектирование. С 1992 года он стал преподавать в «Специалисте».

Не для кого не секрет, что интернет бизнес уже давно перестал быть только виртуальным, потому что деньги в нем крутятся самый что ни на есть реальные, и очень большие. Поэтому в интернете находят себе место как и крупные игроки, которые продвигают свои услуги или товары, так мелкие частные рабочие, которые работают не на кого-то, а только для себя и в свое удовольствие.
Так как оптимизация сайтов под поисковые запросы — это сложный процесс, то она даст ожидаемый результат лишь в том случае, если во время ее проведения будет учтено множество факторов, касающихся не только конкретного проекта, но и Мировой Сети в целом, например, постоянно изменяющиеся алгоритмы поисковых систем. Поэтому, чтобы поисковая оптимизация сайта оправдала ожидания, доверять эту работу лучше профессионалам с проверенной репутацией. Цена ошибки при выборе некомпетентной компании велика, ведь это не что иное, как ваша прибыль! Мы же знаем, как оптимизировать сайт под поисковые системы и уверяем, что поисковая оптимизация сайта способна значительно увеличить число посетителей вашего сайта.
Сколько это стоит? Единой ставки не существует. Стоимость поисковой оптимизации сайта варьируется в зависимости от того, насколько уже оптимизирован данный сайт и какие позиции он имеет в поисковых системах по целевым запросам. На основе этого фактора и уровня желаемого результата рассчитывается цена оптимизации и дальнейшего продвижения сайта. То есть, она зависит от объема работы, который необходимо выполнить, чтобы оптимизировать сайт до необходимого уровня.

Мастер Йода рекомендует:  Самые свежие полезности по Web-разработке за январь 2020
Добавить комментарий