Удаляем дубли страниц на сайте


Оглавление (нажмите, чтобы открыть):

Дубли страниц сайта. Поиск и удаление

Содержание:

Что такое дубли страниц

В рамках одного доменного имени очень может такое быть, что один и тот же контент доступен по разным адресам.

Вполне вероятно, что на разных страницах сайта опубликован очень похожий или же полностью дублированный контент. Это может быть одинаковые (или очень похожие) описания meta name=»description» content=»» , заголовки H1 , title страницы. Если после проверки на наличие дубликатов выяснилось, что они присутствуют в вашем приложении, то необходимо устранить ненужные дубли страниц.

Дубли — это страницы, которые или очень похожи или являются полной копией (дублем) основной (продвигаемой вами) страницы.

Причины появления дублей страниц на сайте

  • Не указано главное зеркало сайта. Одна и та же страница доступна по разным URL (с www. и без | с http и с https).
  • Версии страниц сайта для печати, не закрытые от индексации.
  • Генерация страниц с одними и теми же атрибутами, расположенными в разном порядке. Например, /? > и /?cat=2& >.
  • Автоматическая генерация дубликатов движком приложения (CMS). Из-за ошибок в системе управления контентом (CMS), так же могут появляются дубли страниц.
  • Ошибки веб-мастера при разработке (настройке) приложения.
  • Дублирование страницы (статьи, товара. ) веб-мастером или контент-маркетологом.
  • Изменение структуры сайта, после которого страницам присваиваются новые адреса, а старые не удаляются.
  • На сайте используются «быстрые» мобильные версии страниц, с которых не выставлен Canonical на основные версии.
  • Сознательное или несознательное размещение ссылок третьими лицами на ваши дубли с других ресурсов.

Виды дублей

Дубликаты различают на 3 вида:

  • Полные — с полностью одинаковым контентом;
  • Частичные — с частично повторяющимся контентом;
  • Смысловые, когда несколько страниц несут один смысл, но разными словами.

Полные

Полные дубли ухудшают факторы всего сайта и осложняют его продвижение в ТОП, поэтому от них нужно избавиться сразу после обнаружения.

  • Версия с/без www . Возникает, если пользователь не указал зеркало в панели Яндекса и Google.
  • Различные варианты главной страницы:
    • site.com
    • site.com/default/index
    • site.com/index
    • site.com/index/
    • site.com/index.html
  • Страницы, появившиеся вследствие неправильной иерархии разделов:
    • site.com/products/apple/
    • site.com/products/category/apple/
    • site.com/category/apple/
  • UTM-метки. Метки используются, чтобы передавать данные для анализа рекламы и источника переходов. Обычно они не индексируются поисковиками, но бывают исключения.
  • GET-параметры в URL. Иногда при передаче данных GET-параметры попадают в адрес страницы:
    • site.com/products/apple/page.php?color=green
  • Страницы, сгенерированные реферальной ссылкой. Обычно они содержат специальный параметр, который добавляется к URL. С такой ссылки должен стоять редирект на обычный URL, однако часто этим пренебрегают.
  • Неправильно настроенная страница с ошибкой 404, которая провоцирует бесконечные дубли. Любой случайный набор символов в адресе сайта станет ссылкой и без редиректа отобразится как страница 404.

Избавиться от полных дубликатов можно, поставив редирект, убрав ошибку программно или закрыв документы от индексации.

Частичные

Частичные дубликаты не так страшны для на сайта, как полные. Однако, если их много — это ухудшает ранжирование веб-приложения. Кроме того, они могут мешать продвижению и по конкретным ключевым запросам. Разберем в каких случаях они возникают.

Характеристики в карточке товара

Нередко, переключаясь на вкладку в товарной карточке, например, на отзывы, можно увидеть, как это меняет URL-адрес. При этом большая часть контента страницы остаётся прежней, что создает дубль.

Пагинация

Если CMS неправильно настроена, переход на следующую страницу в категории меняет URL, но не изменяет Title и Description. В итоге получается несколько разных ссылок с одинаковыми мета-тегами:

Такие URL-адреса поисковики индексируют как отдельные страницы. Чтобы избежать дублирования, проверьте техническую реализацию вывода товаров и автогенерации.

Также на каждой странице пагинации необходимо указать каноническую страницу, которая будет считаться главной.

Подстановка контента

Часто для повышения видимости по запросам с указанием города в шапку сайта добавляют выбор региона. При нажатии которого на странице меняется номер телефона. Бывают случаи, когда в адрес добавляется аргумент, например city_by_default= . В результате, у каждой страницы появляется несколько одинаковых версий с разными ссылками. Не допускайте подобной генерации или используйте 301 редирект.

Версия для печати

Версии для печати полностью копируют контент и нужны для преобразования формата содержимого. Пример:

  • site.com/fruits/apple
  • site.com/fruits/apple/print – версия для печати

Поэтому необходимо закрывать их от индексации в robots.txt .

Смысловые

Смысловые дубли — контент страниц, написанный под запросы из одного кластера. Чтобы их обнаружить (смысловые дубли страниц), нужно воспользоваться результатом парсинга сайта, выполненного, например, программой Screaming Frog. Затем скопировать заголовки всех статей и добавить их в любой Hard-кластеризатор с порогом группировки 3,4. Если несколько статей попали в один кластер – оставьте наиболее качественную, а с остальных поставьте 301 редирект.


Чем опасны дубли страниц на сайте

Наличие дубликатов на сайте — один ключевых факторов внутренней оптимизации (или её отсутствия), который крайне негативно сказывается на позициях сайта в органической поисковой выдаче. Дубли служат причиной нескольких проблем, связанных с оптимизацией:

  • Индексация сайта. При большом количестве дублей поисковые роботы в силу ограниченного краулингового бюджета могут не проиндексировать нужные страницы. Также есть риск того, что сайт будет пессимизирован, а его краулинговый бюджет — урезан.
  • Проблемы с выдачей приоритетной страницы в органическом поиске. За счет дублей в поисковую выдачу может попасть не та страница, продвижение которой планировалось, а её копия. Есть и другой вариант: обе страницы будут конкурировать между собой, и ни одна не окажется в выдаче.
  • «Распыление» ссылочного веса. Вес страницы сайта — это своеобразный рейтинг, выраженный в количестве и качестве ссылок на неё с других сайтов или других страниц внутри этого же сайта. При наличии дублей ссылочный вес может переходить не на единственную версию страницы, а делиться между ее дубликатами. Таким образом, все усилия по внешней оптимизации и линкбилдингу оказываются напрасными.

Инструменты для поиска

Как найти дублирующиеся страницы? Это можно сделать с помощью специальных программ и онлайн сервисов. Часть из них платные, другие – бесплатные, некоторые – условно-бесплатные (с пробной версией или ограниченным функционалом).

Яндекс Вебмастер

Чтобы посмотреть наличие дубликатов в панели Яндекса, необходимо зайти: Индексирование -> Страницы в поиске -> Исключённые.

Страницы исключаются из индекса по разным причинам, в том числе из-за повторяющегося контента (дублирования). Обычно конкретная причина прописана под ссылкой.

Google Search Console

Посмотреть наличие дублей страниц в панели Google Search Console можно так: Покрытие -> Исключено.

Netpeak Spider

Netpeak Spider – платная программа с 14-дневной пробной версией. Если провести поиск по заданному сайту, программа покажет все найденные ошибки и дубликаты.

Xenu — бесплатная программа, в которой можно проанализировать даже не проиндексированный сайт. При сканировании программа найдет повторяющиеся заголовки и мета-описания.

Сайт Репорт

Сайт Репорт — это неплохой сервис, предоставляющий пользователю инструмент диагностики внутренних и внешних факторов с целью оптимизации сайта. Поиск дубликатов — это один из множества инструментов сервиса по оптимизации сайта или другого приложения. Сервис предоставляет бесплатный анализ до 25 страниц. Если у вас на сайте большее количество страниц, то (при необходимости) придётся немного потратиться. Но оно того стоит.

Screaming Frog Seo Spider

Screaming Frog Seo Spider является условно-бесплатной программой. До 500 ссылок можно проверить бесплатно, после чего понадобится платная версия. Наличие дублей программа определяет так же, как и Xenu, но быстрее и эффективнее.

Как начать пользоваться бесплатно:

  • Скачать программу Screaming Frog Seo Spider и установить её на свой ПК. Скачать ключ-активатор для программы. Пароль к архиву: prowebmastering.ru
  • Запустить keygen.exe , задать имя пользователя и ключ (ключ можно сгенерировать)
  • В самой программе Screaming Frog Seo Spider выбрать вкладку «Licence» -> «Enter Licence»
  • В появившемся окне указать то, что указали (или сгенерировали) при запуске keygen.exe , жмём «OK», перезапускаем программу.

Документация по работе с программой Screaming Frog Seo Spider здесь.

Небольшой видео-обзор и основные настройки Screaming Frog Seo Spider:

Поисковая выдача

Результаты поиска могут отразить не только нужный нам сайт, но и некое отношение поисковой системы к нему. Для поиска дублей в Google можно воспользоваться специальным запросом.

site:mysite.ru — показывает страницы сайта mysite.ru, находящиеся в индексе Google (общий индекс).

site:mysite.ru/& — показывает страницы сайта mysite.ru, участвующие в поиске (основной индекс).

Таким образом, можно определить малоинформативные страницы и частичные дубли, которые не участвуют в поиске и могут мешать страницам из основного индекса ранжироваться выше. При поиске обязательно кликните по ссылке «повторить поиск, включив упущенные результаты», если результатов было мало, чтобы видеть более объективную картину.

Варианты устранения дубликатов

При дублировании важно не только избавиться от копий, но и предотвратить появление новых.

Физическое удаление

Самым простым способом было бы удалить повторяющиеся страницы вручную. Однако перед удалением нужно учитывать несколько важных моментов:

  • Источник возникновения. Зачастую физическое удаление не решает проблему, поэтому ищите причину
  • Страницы можно удалять, только если вы уверены, что на них не ссылаются другие ресурсы

Настройка 301 редиректа

Если дублей не много или на них есть ссылки, настройте редирект на главную или продвигаемую страницу. Настройка осуществляется через редактирование файла .htaccess либо с помощью плагинов (в случае с готовыми CMS). Старый документ со временем выпадет из индекса, а весь ссылочный вес перейдет новой странице.

Создание канонической страницы

Указав каноническую страницу, вы показываете поисковым системам, какой документ считать основным. Этот способ используется для того, чтобы показать, какую страницу нужно индексировать при пагинации, сортировке, попадании в URL GET-параметров и UTM-меток. Для этого на всех дублях в теге прописывается следующая строчка со ссылкой на оригинальную страницу:

Например, на странице пагинации главной должна считаться только одна страница: первая или «Показать все». На остальных необходимо прописать атрибут rel=»canonical» , также можно использовать теги rel=prev/next :

Запрет индексации в файле Robots.txt

Файл robots.txt — это своеобразная инструкция по индексации для поисковиков. Она подойдёт, чтобы запретить индексацию служебных страниц и дублей.

Для этого нужно воспользоваться директивой Disallow , которая запрещает поисковому роботу индексацию.

Внимательно следите за тем какие директивы вы прописываете в robots.txt . При некорректном написании можно заблокировать не те разделы либо вовсе закрыть сайт от поисковых систем.

Запрет индексировать страницы действует для всех роботов. Но каждый из них реагирует на директиву Disallow по-разному: Яндекс со временем удалит из индекса запрещенные страницы, а Google может проигнорировать правило, если на данный документ ведут ссылки..

Вывод

Дублирующиеся H1 , title , description , а также некоторые части контента вроде отзывов и комментариев очень нежелательны и осложняют продвижение сайта. Поэтому обязательно проверяйте ресурс на дубликаты, как сгенерированные, так и смысловые и применяйте описанные в статье методы для их устранения.

КАК НАЙТИ ДУБЛИ СТРАНИЦ НА САЙТЕ И УДАЛИТЬ

Что такое дубли страниц?

Дубли — страницы с разными адресами, где полностью или частично совпадает контент. Любите разгадывать ребусы? Внимательно посмотрите на эту картинку и подумайте, какое из этих трех изображений наиболее соответствует запросу: «зеленая груша»? Сложно ответить, не так ли? Да, потому что все три груши одинаково зеленые, а выбрать нужно только одну, которая наиболее релевантна условиям поиска. Дилемма? В точно такой же непростой ситуации находятся и поисковики в случае обнаружения дублей. Они недоумевают, какую страницу нужно показать в поиске в ответ на запрос пользователя. Бывает, что поисковик считает главной страницей именно дубль, в результате в индекс не попадает ни одна, и сайт стремительно теряет свои позиции.

Зачем нужно удалять дубли страниц?

Каждый сеошник знает, что наличие дублей очень опасно для SEO. Пользователям они не мешают получить необходимую информацию. Копия страницы сайта очень серьезно воспринимается поисковиками и может в критических ситуациях привести к наложению санкций со стороны Яндекса и Google. Поэтому важно вовремя найти все дубли страниц и обезвредить их.

Как дубли страниц влияют на яндекс?

В первую очередь произойдет снижение позиций в поиске по отдельным ключевым фразам. Сначала они начнут просто скакать из — за постоянной смены привязки ключа к релевантной странице, а потом поисковик существенно понизит сайт в ранжировании. Вот с этого момента можно включать режим SOS и оперативно исправлять ситуацию.


Какими бывают дубли страниц?

Специалисты поисковой оптимизации различают дубли страниц двух типов — полные или частичные.

Первые — когда две или более страницы содержат одинаковый контент.

Вторые — когда какая-то часть контента дублируется на нескольких страницах. Такое часто происходит, когда, например, копирайтеры берут кусок из одной статьи и вставляют его в другую.

Что такое полные дубли страниц и как они появляются?

Когда создаются адреса с «www» и без «www»:

Адреса со слешами и без них

Мастер Йода рекомендует:  Летняя школа стартаперов «Яндекса» оказалась плодотворной

Адреса с HTTP и HTTPS

Создать дубли могут и реферальные ссылки. Как правило, реферальная ссылка имеет после знака «?» хвостик, начинающийся с «ref=…». Когда поcетитель переходит по ссылке с такой меткой, ему должна открываться обычная ссылка. Но часто оптимизаторы и веб — разработчики просто забывают убрать параметр «ref=…» и получают дубли.

Дубли страниц могут появляться в результате неправильной настройки страницы с 404 — ошибкой.

Некоторые страницы с utm — меткой или гет — параметрами «gclid», необходимыми для отслеживания рекламного трафика, часто попадают в индекс поисковиков и тоже являются дублями.

Страницы с прописными и строчными буквами в урл

Приписка цифр в строку URL

Такая ситуация часто случается на страницах сайтов на основе cамой популярной системы управления контентом — WordPress.

Как мы уже говорили выше, поисковики очень не любят наличие такой критичной ошибки как дубли страниц. За это Яндекс и Google могут применить карательные санкции — наложить на сайт фильтр или опустить в позициях. Полные дубли обнаружить гораздо проще, но вот проблем они могут принести из-за своего масштаба очень много.

Откуда берутся частичные дубликаты страниц?

В отличие от первого варианта, в этом случае диагностировать ошибку гораздо труднее. Немало неудобств доставляет и процедура самого избавления от частичных дублей. Частичные дубли подразумевают под собой дублирования части контента на нескольких страницах.

    Очень часто можно встретить частичные дубли на страницах листинга (ссылочного блока, при помощи которого на странице отдельная часть информации из общего массива данных), фильтров, различных сортировок. В этом случае на всех страницах присутствуют куски одного и того же контента, меняется только порядок и структура их размещения.

Частичные дубли также могут появляться в описании товаров в карточках и каталоге. Чтобы исключить такую ошибку, нужно не выводить полную информацию о товаре в каталоге, либо написать уникальный текст, который не будет перекликаться с описанием в самой карточке товара. Но оптимизаторы часто пытаются сэкономить на копирайтинге, что выливается потом в серьезные проблемы с индексацией ссылок в поиске.

Страницы скачивания и печати могут дублироваться с основной страницей.

В отличие от полных дублей, частичные не сразу сказываются потерями в позициях сайта, они потихоньку будут подтачивать камень водой, делая жизнь оптимизатора все невыносимее.

Как найти дубли страниц на сайте?

Первый способ — при помощи оператора «site», вы просто вводите в Яндекс или Google оператора и название сайта:

Второй способ — специальные сервисы или парсеры, которые могут обнаружить наличие дублей на сайте. К таким программам можно отнести — ComparseR 1.0.129, Xenu, WildShark SEO Spider, британский парсер Frog Seo Spider, Majento SiteAnalayzer 1.4.4.91, Serpstat.Многие из них бесплатные.

Механизм работы парсеров очень прост: программа запускает бота на сайт, анализирует и определяет список урлов с возможными совпадениями. Таким образом поиск дублей страниц сайта не занимает много времени, достаточно просто ввести в строку параметры сайта и ждать результата. Не так давно появилась и версия программы российских разработчиков Апполон (https://apollon.guru/duplicates), которая позволяет проверить сайт на дубли страниц онлайн. В открывающееся окошко можно ввести до 5 url. После сканирования программа выдает отчет.

Третий способ — потенциальные дубли может определить инструмент для веб — мастеров Google Search Console. Для этого его нужно открыть, зайти во вкладку «Оптимизация HTML» и проанализировать все страницы, на которых повторяется описание.

Четвертый способ — ручной. Опытные оптимизаторы и разработчики могут вручную просканировать дубли страниц в местах сайта, которые кажутся им проблемными.

Как удалить дубли страниц на сайте?

Не обладая специальными навыками и опытом, избавиться от дублей собственными силами будет очень трудно. Нужно будет самому изучить основы веб — разработки, различные коды программирования, азы seo — оптимизации. На это могут уйти несколько месяцев, а позиции сайта будут опускаться в выдаче. Лучше обратиться к профессионалам, которые оперативно удалят дубли и сделают специальные настройки:

  • Запретят индексацию дублей в специальном текстовом файле в «robots.txt»
  • В файле — конфигураторе добавят 301 редирект. Этот способ является основным при искоренении ошибки. Редирект нужен для автоматической переадресации с одного урл на другой.
  • Для устранения дублей при выводе на печать и скачивании добавят тег meta name=»robots» content=»noindex, nofollow»

Иногда решение проблемы может заключаться в настройке самого движка, поэтому первоочередной задачей специалистов является выявление дублей, а уже потом их оперативное устранение. Дело в том, что для создания контента могут одновременно использоваться разные движки сайта (opencart, joomla, wordpress, bitrix). Например, главная структура сайта будет сделана на опенкарт, а блог на вордпресс. Естественно, что дубли на этих двух сайтах тоже будет сильно отличаться друг от друга.

Что такое битые ссылки?

Битыми ссылками называют такие URL, которые ведут пользователей на несуществующие страницы. Несуществующие страницы могут появляться в случае когда сайт был удален, страница поменяла адрес, случайно удалили страницу, на которую ссылаются, а также в результате сбоя при автоматическом обновлении данных. Когда робот находит в поиске такие ссылки, он переходит по ней и видит 404 ошибку, из- за чего на сайт может быть поставлен штамп низкокачественного ресурса. Что нужно сделать в этом случае?

  1. Удалить ссылки, которые направляют пользователей на несуществующие страницы
  2. Можно заполнить страницу полезным и интересным контентом
  3. Если обновили систему, то нужно сделать редирект 301

Что нужно усвоить из этой статьи?

  • Дубли — это страницы, на которых возможно полное или частичное повторение контента.
  • Основными причинами возникновения ошибки являются ошибки разработчиков и оптимизаторов, ошибки в самом движке, автоматическая генерация.
  • Дубли очень негативно сказываются на SEO — индексация ухудшается, позиции в поиске понижаются, возможны санкции со стороны поисковиков.
  • Обнаружить дубли могут помочь специальные сервиcы, Гугл Консоль, оператор site.
  • Чтобы удалить дубли, нужно воспользоваться специальными тегами, а лучше всего доверить эту работу профессионалам.

Дубли страниц на сайте

Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства.

Что такое дубли страниц?

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Дубли:

  • с доменом, начинающимся на www и без www, например, www.site.ru и site.ru.
  • со слешем в конце, например, site.ru/seo/ и site.ru/seo
  • с .php или .html в конце, site.ru/seo.html и site.ru/seo.php

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Какими бывают дубликаты?

Перед тем, как начать процесс поиска дублей страниц сайта, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют:

  • Полные дубли — когда одна и та же страница размещена по 2-м и более адресам.
  • Частичные дубли — когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.


Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress обычно дублей страниц нет, а вот Joomla генерирует огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Влияние дублей на продвижение сайта

  • Дубли нежелательны с точки зрения SEO, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Как найти дубли страниц

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Программа XENU (полностью бесплатно)

Программа Xenu Link Sleuth (https://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и метаописаниям.

Программа Screaming Frog SEO Spider (частично бесплатна)

Адрес программы https://www.screamingfrog.co.uk/seo-spider/. Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Сам ей пользуюсь.

Программа Netpeak Spider (платная с триалом)

Ссылка на программу Netpeak Spider. Еще один программный сканер для анализа ссылок сайта с подробным отчетом.

Яндекс Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование > Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

Google Search Console

В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске > Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и метаописания. Вероятнее всего это дубли (частичные или полные).

Язык поисковых запросов

Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google и Yandex) и поискать дубли «глазами».

Сервисы онлайн

Есть сервисы, который проверяют дубли страниц на сайте онлайн. Например, сервис Siteliner.com (https://www.siteliner.com/). На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

Удаление дублей страниц сайта

Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:

  1. Их физическому удалению — хорошее решение для статических дублей.
  2. Запрещению индексации дублей в файле robots.txt — подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.
  3. Настройке 301 редиректов в файле-конфигураторе «.htaccess» — хорошее решение для случая с рефф-метками и ошибками в иерархии URL.
  4. Установке тега «rel=canonical» — лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.
  5. Установке тега «meta name=»robots» content=»noindex, nofollow»» — решение для печатных версий, табов с отзывами на товарах.

Чек-лист по дублям страниц

Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.

Как найти и удалить дубли страниц на сайте

Дубли – это страницы сайта с одинаковым содержимым, они могут полностью повторять контент друг друга или частично. Часто они становятся причиной низких позиций ресурса. Мы хотим рассказать, почему могут возникать дубли и как от них избавится.

Полные дубликаты могут возникать, когда страница доступна под несколькими адресами, то есть не выбрано главное зеркало или не настроен 404 редирект. Часто их автоматически создает CMS в процессе разработки.

Частичные дубли часто получаются в результате ошибки разработчика или из-за особенностей CMS. Это могут быть страницы пагинации и сортировок с разными URL или ошибочно открытые для индексации служебные страницы.

В чем опасность

По сути, страницы одного сайта начинают соперничать друг с другом. Google и Яндекс не хранят в собственной базе несколько идентичных страниц, а выбирают только одну, наиболее релевантную. Они могут выбрать копию нужной вам страницы, в результате чего, позиции резко проседают. Из-за дубликатов страдают поведенческие факторы и естественный ссылочный вес, становится труднее собирать статистические данные.

Если дубликатов много, то поисковик может попросту не успеть проиндексировать их полностью. При этом следующей индексации придется ждать дольше, так как поисковые боты реже переходят на ресурс, где контент повторяется. А это также значительно замедляет продвижение.

Как найти дубли страниц

Сервисы для вебмастеров

Существует несколько способов. Наиболее простой – воспользоваться сервисами Google Search Console или «Яндекс.Вебмастер». Распознать дубликаты проще всего по повторяющимся метатегам title и description.

Для этого в панели инструментов Search Console перейдите в раздел «Оптимизация HTML» пункт «Повторяющееся метаописание», где будет указано количество таких страниц, а также их URL.

В вебмастере Яндекса, страницы с одинаковым метаописанием можно найти в разделе «Индексирование», а именно «Вид в поиске», где необходимо выделить исключенные страницы и выбрать категорию «Дубли».

Существует также много других сервисов для подобных задач, например Netpeak Spider или Screaming Frog. С их помощью можно получить полный список адресов страниц и автоматически выделить среди них те, у которых совпадают метатеги.

При помощи операторов ПС

При помощи оператора site: для Google или host: для Яндекса, можно вручную искать повторяющийся контент на страницах поисковой выдачи. Для этого введите в поисковую строку оператор перед адресом вашего сайта, а дальше нужный отрывок текста в кавычках (site:address.com”…”). Таким образом вы сможете отыскать не только полные, но и частичные дубли.

Если использовать оператор с адресом без текста, в выдаче вы увидите все проиндексированные страницы собственного ресурса. По одинаковым заголовком можно легко определить копии.


Как исправить

Удалить вручную. Подходит для борьбы с полными копиями, которые возникли в результате ошибок. Для этого достаточно найти их URL и удалить при помощи CMS.

Закрыть от индексации. Для этого в файле robot.txt следует использовать директиву disallow. Таким образом вы сможете закрыть индексацию указанных типов страниц.

При помощи тега rel=canonical. Позволяет решить проблему с разными адресами страниц пагинации и др.

Настроить редирект 301. Редирект перенаправляет со всех похожих URL на один основной.

Мастер Йода рекомендует:  Простым языком о том, как работает сжатие файлов

Как борются с дубликатами в Elit-Web

Когда к нам на продвижение приходят сайты, разработанные не у нас, технические ошибки, в том числе дубли, – один из первых пунктов проверки.

Многим не удается найти все копии страниц. Автоматический поиск осуществляется исключительно по метатегам. А чтобы искать при помощи контента, необходимо знать, какой именно текст может повторятся. Потому даже после работ по внутренней оптимизации, могут остаться ошибки.

Мы устраняем ошибки, используя все доступные методы проверки. Также наши специалисты ориентируются на саму специфику CMS и работ, проведенных на сайте, чтобы удостоверится, что на сайте не осталось дублей. А потому если у вас возникли проблемы с продвижением, мы уверены, что сможем помочь.

Как удалить дубли страниц на сайте

Когда пользователь вводит поисковые слова и начинает поиск, поисковая система в свою очередь, по определённому алгоритму начинает искать страницу, в соответствии заданным словам. В любом случае поисковой системой будет выдан конечный результат, но вот какую именно выберет система, при наличии дубликата страницы сайта, сразу узнать проблематично. Таким образом, разные поисковые системы, например как Яндекс и Google, могут выдавать различные результаты по поиску одних и тех же ключевых слов, что в свою очередь может привести к негативным результатам для владельца ресурса, у которого есть на сайте дубликаты страниц.

Основные негативные последствия для владельца сайта с дублями страниц следующие:

Происходит уменьшение семантического соответствия заданного запроса к главной странице сайта, что в свою очередь ухудшает оптимизационные свойства всего ресурса.

Позиции ключевых cлов для ресурса постоянно изменяются, всё это происходит благодаря тому, что поисковые системы выдают в результате, то одну страницу, то её дубликат.

  • Ухудшается уровень ранжирования, а вместе с ним и все показатели, связанные с ним. Именно все выше перечисленные негативные последствия заставляют разработчиков и оптимизаторов веб сайтов предусмотреть их, когда происходит раскрутка ресурса и оптимизация, удалить дубликаты страниц.
  • Какими бывают дубликаты

    Дубликаты страниц сайта бывают двух видов:

    • полный. Такой вид в точности повторяет одну из страниц ресурса и находиться под другим адресом, причём количество таких страниц не ограниченно и может быть любым.
    • частичный. В таком виде дубли содержат часть контента дублируемой страницы, но не являются её точной копией.

    Для каждого вида дубля, процесс их поиска и удаления не много отличается.

    Как появляются полные дубликаты страниц сайта

    1. При создании сайта не было выбрано главное зеркало сайта. В таком случае дубль страницы может быть открыт по интернет адресу без www, или с ним.
    2. Главная страница ресурса не была чётка заданна в параметрах хостинга или движка, на котором разрабатывался сайт.
    3. Разработчики ресурса не учли автоматический переход на адрес без параметра, при запросе пользователя данной страницы с параметром.
    4. При разработке сайта, разработчики не правильно прописали иерархические адреса страниц ресурса.
    5. Не правильно настроена страница с ошибкой 404, что в свою очередь приводит к появлению огромного количества дублей страниц.

    Как появляются частичные дубли страниц сайта?

    Частичные дубли страниц возникают также как и в случае с полными, в основном из-за различных возможностей каждого взятого движка, на котором строится ресурс. Такие дубли на много тяжелей обнаруживать, чем полные, а также тяжелей их удалять.

    Приведём наиболее распространённые случаи:

    1. Страницы ресурса, которые содержат формы для различного рода поиска, сортировки, вывода информации по различным видам водимых параметров и тому подобное. Такое часто происходит, когда при разработке этих алгоритмов, были использованы другие возможности, отличные от скриптов.
    2. Страницы сайта, на которых пользователи могут оставить на ресурсе, свою информацию.
    3. Страницы ресурса, предоставляющие возможность пользователю увидеть определённые страницы в версии для печати, а также содержащие документы в формате *.pdf, доступные для скачивания.
    4. При разработке html страницы, использовалась технология AJAX.

    Если полные дубли страниц сайта приводят к быстрому ухудшению ранжирования сайта по времени, то частичные дубли действуют более медленно, и создают очень много проблем оптимизаторам сайтов, в течении относительно долгого времени.

    Как найти дубли страниц?

    Если изучаемый ресурс содержит в себе, не большое количество страниц, то нахождение дублей можно провести в ручную.

    Для ресурсов содержащих большое количество страниц, можно использовать следующие основные методы обнаружения.

    C помощью специального программного обеспечения, функциональные возможности которых, позволяют выявлять дубли страниц ресурса. Основной принцип работы таких программ, состоит в том, чтобы про сканировать весь ресурс и найти на нём все ссылки. Таким образом программа находит все ссылки и потом уже легко можно будет найти дубликаты страниц.

    Проверить сайт на дубли страниц онлайн можно в поисковой системе Google, в поисковой консоли(Google search console), нужно выбрать пункт меню «Оптимизация html», таким образом будут найдены страницы с повторяющимся контентом. Эти страницы и будут потенциальными дублями исследуемого ресурса.

    Как найти и удалить дубли страниц на сайте

    В данной статье я напишу о том, как найти дубли страниц на сайте в также как удалить их. Я покажу на примере этого блога, как я находил дубликаты и удалял.

    Если на вашем ресурсе присутствуют проблемы с индексацией, то советую прочитать этот пост внимательно и до конца.

    Не секрет, что если на блоге есть дубликаты документов, то это плохо. Во-первых, дублируется сам контент на странице и таким образом он получается уже не уникальным. Во-вторых, бывает такое, что внутренние ссылки проставлены не на продвигаемые страницы, а на их дубликаты. Таким образом важные документы не получают тот вес, который они бы могли получить.

    Перед тем, как перейти к поиску дублирующих документов, нужно прикинуть, сколько на сайте есть полезных для посетителя страниц. На моем блоге опубликована 81 статья, создано 7 категорий, и присутствует 12 страниц навигации + главная. Категории запрещены к индексации в robots.txt. Получается, что поисковики должны индексировать примерно 94 страницы. Теперь наша задача узнать, сколько документов проиндексировано на самом деле. И в этом нам поможет, конечно, RDS Bar:

    Мы видим, что Яндекс индексирует 74 документа, а Гугл 400. Учитывая то, что Яндекс еще не успел проиндексировать несколько последних постов, а также некоторые страницы навигации он не индексирует, то можно сделать вывод, что в индексе Яндекса точно нет дубликатов. Теперь что касается Гугла. Мы видим, что он индексирует 400 страниц, но в основном индексе только 24%. Получается, что 97 страниц присутствуют в основном индексе, а 303 документа – это «сопли». Моя задача определить дубли страниц и удалить их с поиска Гугла. Но я также покажу, как находить дубликаты в Яндексе, возможно у вас, наоборот, с Гуглом все нормально, а Яндекс индексирует ненужные документы.

    Итак, как определить дубли страниц на сайте


    1. Для того, чтобы узнать, какие страницы присутствуют в основном индексе Гугла не включая «сопли», достаточно ввести вот такой адрес: site:vachevskiy.ru/

    А если нужно найти все страницы вместе с «соплями», нужно ввести вот так: site:vachevskiy.ru

    В моем случае необходимо вводить как раз последний вариант. Ввожу site:vachevskiy.ru, дальше перехожу на самую последнюю страницу и нажимаю на ссылку «Показать скрытые результаты»:

    Мне прекрасно видно, что Гугл включает в дополнительный поиск даже те документы, которые запрещены в файле robots.txt:

    Вот, например, адрес страницы, которая разрешена к индексированию выглядит так:

    А вот эта страница появляется тогда, когда нажать на кнопку «Ответить», на последний комментарий:

    Почему закрытая страница вообще появляется в результатах поиска, для меня остается загадкой

    Как видим, вместо сниппета пишет: «описание веб-страницы недоступно из-за ограничений в файле robots.txt». То есть Гугл и не скрывает, что страница закрыта от индексации, но, с поиска ее почему-то не удаляет. Значит, будем искать другие варианты ее удаления, об этом я напишу немного позже.

    С Яндексом все гораздо проще, там нет никаких «соплей», он или индексирует страницу или не индексирует. Причем, если документ запрещен в robots.txt, то он его индексировать не будет. Для того, чтобы узнать, какие страницы присутствуют в индексе Яндекса, достаточно ввести вот такой запрос: site:vachevskiy.ru
    Если страниц на сайте немного, то можно пробежаться по заголовкам и легко определить дубликаты.

    2. Найти дубли страниц на сайте можно также с помощью текста. Для этого откройте расширенный поиск в Яндексе, укажите в кавычках любой кусочек текста со станицы, которая уже проиндексировалась, и нажмите «найти»:

    Если на вашем блоге есть дубликат страницы, с которой был взять кусочек текста и эта страница также индексируется Яндексом, то вы увидите ее в результатах поиска. В моем случае дубликата нет, поэтому Яндекс показал мне только один документ:

    Точно также можно найти дубли страниц на сайте и в поисковой системе Google.

    3. Определить дубли страниц можно и с помощью программы Xenu. О ней я уже писал в статье: «Как найти и удалить битые ссылки на сайте?» Сначала скачиваем программу, запускаем ее и выбираем в левом верхнем углу «File» — «Check URL». Дальше вводим адрес своего сайта и нажимаем «ОК»:

    После анализа программа предложит создать карту сайта, лучше нажать нет и сохранить результаты на компьютер. Для этого нажмите «File» — «Export to TAB separated file». Программа нейдет все страницы, в том числе и с ошибками 404. Вам достаточно перейти на них и посмотреть, какие индексируются, а какие нет.

    Как удалить дубли страниц

    1) Файл robots.txt.
    Этот файл предназначен исключительно для поискового бота, и с его помощью можно легко запретить индексировать отдельный документ, категорию или целый сайт. Советую вам прочитать статью о том, как создать файл robots.txt.

    Для того чтобы увидеть, запрещена ли страница от индексации в файле robots.txt, достаточно открыть ее исходный код (Ctrl+U) и проверить наличие такой строчки:

    meta name=’robots’ content=’noindex,nofollow’

    Если есть, значит, она индексироваться не должна, по крайней мере, Яндексом точно :smile:.

    2. Параметры URL.
    Помните, я писал выше, что Гугл индексирует на моем блоге вот эту страницу:

    Удалить ее с индекса Google можно с помощью параметров URL, для этого нужно, чтобы ваш ресурс был добавлен в Google Webmaster. Заходим в раздел «сканирование» и выбираем пункт «параметры URL». По умолчанию Google предложит вам параметры, которые желательно исключить с индекса.

    Если нужного параметра нет, то вы можете его создать. Для этого нажмите на кнопку «Добавление параметра», укажите параметр, который не должен присутствовать в URL. Для того чтобы убрать все ссылки, которые содержат параметр replytocom, нужно сделать вот так:

    Теперь через некоторое время эти ссылки должны перестать индексироваться Гуглом.

    3. Удалить URL-адреса;
    В Google webmaster также есть возможность удалить ненужные страницы вручную. Для этого переходим в раздел «Индекс Google» и выбираем «удалить URL-адреса». Потом нажимаем «Создать новый запрос на удаление», вводим дубликат страницы и нажимаем «Продолжить»:

    Но эта страница обязательно должна быть заблокирована в файле robots.txt или недоступна, иначе она может через некоторое время вновь появиться в результатах поиска.

    Точно также документ можно удалить и с Яндекса. Для этого переходим в раздел «мои сайты» и справа внизу выбираем «удалить URL»:

    4. Атрибут rel=”canonical”.
    Если на сайте присутствуют дубликаты страниц, то с помощью rel=”canonical” можно указать поисковикам, какой документ основной и должен участвовать в ранжировании.
    Например, у меня есть основная страница такая:

    а это ее дубликат:

    Мне нужно открыть эти две страницы и прописать там следующее:

    Таким образом, робот будет понимать, какая страница должна получить вес и ранжироваться в поиске. Если у вас блог на движке wordpress, то в плагине all in one seo pack достаточно поставить галочку напротив надписи «Канонические URL’ы:». А если страницы созданы вручную, то нужно открыть их код и прописать канонический адрес. Или даже просто удалить дубли страниц вручную.

    5. 301-редирект.
    С помощью редиректа можно перенаправить как пользователя, так и поискового бота с одного документа на другой, таким образом, происходит склеивания документов. На моем блоге сделано перенаправление с www.vachevskiy.ru на vachevskiy.ru.

    На этом все на сегодня. Теперь вы знаете, как найти и удалить дубли на сайте. Всем пока ;-).

    Как удалить дубли страниц или закрыть их от индексации .

    Продолжим тему дублей страниц на сайте. Сегодня будем говорить, о том как от них избавиться, как их удалить или закрыть от индексации поисковых систем. Ранее я уже писал, о том что такое дубли страниц и какие есть методы поиска их на вашем ресурсе, можете посмотреть тему “Дубли страниц на сайте, методы поиска.”

    Давайте начинать и первое что мы узнаем, это какие же есть методы борьбы и как их применять. На самом деле их много, так как каждая система управления контентом (cms) может генерировать дубли самостоятельно.

    Причины генерирования дублей страниц сайта могут быть различные, например:

    • ошибки в логике структуры сайта;
    • технические ошибки;
    • использование различных фильтров и поиска на сайте

    Для борьбы с ними необходимо будет перерыть всю систему и разобраться в чем проблема, почему они появляются. Я буду говорить о наиболее распространенных методах , с которыми может необходимо рано или поздно придется разбираться каждому.

    Методы удаления и закрытия от индексации дублей страниц сайта.

    1. Одним из самых распространённых способов удаления дублей на сайте является редирект (перенаправление). Вы просто перенаправляете один url адрес на другой, при этом они склеиваются и поисковая система индексирует только адрес на который вас перенаправляет. Довольно часто, можно увидеть применения 301 редиректа, при склеивании зеркал, сайтов с www и без www. Как правило большая часть сайтов использует адрес без www.

    Для того, что бы реализовать 301 редирект, вам необходимо открыть файл .htaccess, который находится в корневой папке вашего движка (cms) и прописать там несколько строк.

    Вот пример с нашего сайта для главной страницы, редирект с www на без www:

    RewriteEngine On
    RewriteCond % ^loleknbolek.com [nocase]
    RewriteRule ^(.*) https://loleknbolek.com/$1 [last,redirect=301]

    Можете использовать для своего сайта, только поменяйте адреса.

    Если же вы хотите сделать 301 редирект с одной страницы на другу (с дубля страницы), то вам не обходимо просто прописать:

    Redirect 301 /адрес страницы которую необходимо перенаправить /адрес страницы на которую перенаправляете.

    или же наглядный пример:

    Redirect 301 /dubli-stranic-sajta-metody-udaleniya-i-zakrytiya /dubli-stranic

    2. Второй способ будем использовать robots.txt, с помощью которого мы будем закрывать дубли страниц от индексации. Как вообще работать с этим файлом, я не буду описывать, вы можете почитать здесь. Как правило этот файл находится в корне вашего движка, открываем его и прописываем пару строк. Для того что бы закрыть страницу от индексации вам потребуется всего одна директива Disallow.

    Вот пример, где мы закроем одну из страниц сайта для индексации поисковым роботом:

    Я думаю тут ничего сложного нету, поэтому переходим к следующему способу с помощью которого мы разберем? как удалить дубли страниц на сайте.

    3. Сейчас мы будем использовать атрибут rel=”canonical”. Этот атрибут используется для того что бы указать поисковой системе какая из страниц должна участвовать в ранжировании.


    Например, у нас есть две одинаковые страницы:

    Для того что бы роботу было понятно какая из страниц должна индексироваться в моем случае вторая, нам необходимо зайти на эти страницы и прописать следующий код:

    Если же вы используете WordPress, поставьте себе плагин all in one seo pack, в настройках этого плагина для каждой страницы внизу вы сможете найти надпись «Канонические URL’ы» и поставить там галочку. Он упрощает работу в разы.

    4. Ну и последний на сегодня метод это использование Google и Yandex webmaster. Не буду много писать, а сразу по сути скажу Google webmaster вам необходимо зайти в раздел «индекс Google», здесь выбираем «удалить URL-адреса». Далее нажимаем на «Создать новый запрос на удаление», вводим дубликат страницы который необходимо удалить и нажимаем кнопку «Продолжить». Важно, что бы эта страница была закрыта от индексации, ибо она может в скором времени снова появиться в индексе и вам снова придется ее либо удалять либо закрывать.

    Похожим способом можно удалить страницу и в Yandex webmaster. Переходим в «Мои сайты», там будет «Удалить url», вводим в строку адрес который необходимо удалить и жмем кнопку удалить.

    На этом всё на сегодня. Буду рад если смог помочь разобраться в теме, если же что-то не ясно пишите в комментарии будем разбираться вместе. Спасибо всем!

    Что такое дубли страниц

    10 ноября 2020 года. Опубликовано в разделах: Азбука терминов. 4293

    Что такое дубли страниц на сайте

    Дубли могут возникать, когда используются разные системы наполнения контентом. Ничего страшного для пользователя, если дубликаты находятся на одном сайте. Но поисковые системы, обнаружив дублирующиеся страницы, могут наложить фильтр\понизить позиции и т. д. Поэтому дубли нужно быстро удалять и стараться не допускать их появления.

    Какие существуют виды дублей

    Дубли страниц на сайте бывают как полные, так и неполные.

    • Неполные дубли – когда на ресурсе дублируются фрагменты контента. Так, например, и разместив части текста в одной статье из другой, мы получим частичное дублирование. Иногда такие дубли называют неполными.
    • Полные дубли – это страницы, у которых есть полные копии. Они ухудшают ранжирование сайта.

    Например, многие блоги содержат дублирующиеся страницы. Дубли влияют на ранжирование и сводят ценность контента на нет. Поэтому нужно избавляться от повторяющихся страниц.

    Причины возникновения дублей страниц

    1. Использование Системы управления контентом (CMS) является наиболее распространённой причиной возникновения дублирования страниц. Например, когда одна запись на ресурсе относится сразу к нескольким рубрикам, чьи домены включены в адрес сайта самой записи. В результате получаются дубли страниц: например:
      wiki.site.ru/blog1/info/
      wiki.site.ru/blog2/info/
    2. Технические разделы. Здесь наиболее грешат Bitrix и Joomla. Например, одна из функций сайта (поиск, фильтрация, регистрация и т.д.) генерирует параметрические адреса с одинаковой информацией по отношению к ресурсу без параметров в URL. Например:
      site.ru/rarticles.php
      site.ru/rarticles.php?ajax=Y
    3. Человеческий фактор. Здесь, прежде всего, имеется ввиду, что человек по своей невнимательности может продублировать одну и ту же статью в нескольких разделах сайта.
    4. Технические ошибки. При неправильной генерации ссылок и настройках в различных системах управления информацией случаются ошибки, которые приводят к дублированию страниц. Например, если в системе Opencart криво установить ссылку, то может произойти зацикливание:
      site.ru/tools/tools/tools/…/…/…

    Чем опасны дубли страниц

    1. Заметно усложняется оптимизация сайта в поисковых системах. В индексе поисковика может быть много дублей одной страницы. Они мешают индексировать другие страницы.
    2. Теряются внешние ссылки на сайт. Копии усложняют определение релевантных страниц.
    3. Появляются дубли в выдаче. Если дублирующий источник будет снабжаться поведенческими метриками и хорошим трафиком, то при обновлении данных она может встать в выдаче поисковой системы на место основного ресурса.
    4. Теряются позиции в выдаче поисковых систем. Если в основном тексте имеются нечёткие дубли, то из-за низкой уникальности статья может не попасть в SERP. Так, например часть новостей, блога, поста, и т. д. могут быть просто не замечены, так как поисковый алгоритм их принимает за дубли.
    5. Повышается вероятность попадания основного сайта под фильтр поисковых систем. Поисковики Google и Яндекс ведут борьбу с неуникальной информацией, на сайт могут наложить санкции.

    Как найти дубли страниц

    Чтобы удалить дубли страниц, их сначала надо найти. Существует три способа нахождения копий на сайте.

    1. Нахождение дублей на сайте с помощью расширенного поиска Google. Укажите в расширенном поиске адрес главной страницы. Система выдаст общий список проиндексированных страниц. А если указать адрес конкретной страницы, то поисковик покажет весь перечень проиндексированных дублей. В отличие от Google, в Яндексе копии страниц сразу видны.
      Например, такой вид имеет расширенный поиск Google:
      На сайте может быть много страниц. Разбейте их на категории — карточки товара, статьи, блога, новости и ускорьте аналитический процесс.
    2. Программа XENU (Xenu Link Sleuth) позволяет провести аудит сайта и найти дубли. Чтобы получить аудит и произвести фильтрацию по заголовку требуется в специальную строку ввести URL сайта. Программа поможет найти полные совпадения. Однако через данную программу невозможно найти неполные дубли.
    3. Обнаружение дублей при помощи web – мастерской Google. Зарегистрируйтесь, и тогда в мастерской, разделе «Оптимизация Html», будет виден список страниц с повторяющимся контентом, тегами . По таблице можно легко найти чёткие дубли. Недостаток такого метода заключается в невозможности нахождения неполных дублей.
    4. Онлайн seo-платформа Serpstat проводит технический seo-аудит сайта по 55+ ошибок. Среди них есть блок для анализа дублируемого контента на сайте. Так сервис найдет дублирующиеся Title, Description, H1 на двух и больше страницах. Также видит случаи, когда H1 дублирует Title, на одной странице по ошибке прописаны два мета-тега Title и больше одного заголовка Н1.

    Чтобы сделать технический аудит в Serpstat, нужно зарегистрироваться в сервисе и создать проект для аудита сайта.

    Как убрать дубли страниц

    От дублей нужно избавляться. Необходимо понять причины возникновения и не допускать распространение копий страниц.

    • Можно воспользоваться встроенными функциями поисковой системы. В Google используйте атрибут в виде rel=»canonical». В код каждого дубля внедряется тег в виде
    • , который указывает на главную страницу, которую нужно индексировать.
    • Запретить индексацию страниц можно в файле robots.txt. Однако таким путём не получится полностью устранить дубли в поисковике. Ведь для каждой отдельной страницы правила индексации не провпишешь, это сработает только для групп страниц.
    • Можно воспользоваться 301 редиректом. Так, роботы будут перенаправляться с дубля на оригинальный источник. При этом ответ сервера 301 будет говорить им, что такая страница более не существует.

    Дубли влияют на ранжирование. Если вовремя их не убрать, то существует высокая вероятность попадания сайта под фильтры Panda и АГС.

    Ручная проверка сайта на дубли страниц. Как найти и удалить?

    При поисковой оптимизации самое главное — не допустить ошибок. И самая распространенная ошибка — это большое количество дублей страниц. Сегодня мы расскажем, как убрать если не все, то 99% всех дублей с сайта простой ручной проверкой.

    Что такое дубли страниц

    Для начала давайте разберемся — что это такое и откуда они берутся?
    Самый простой пример дубля — это домен третьего уровня www. Например, у нас есть сайт — site.ru. Как вы знаете, в браузере можно его вводить следующим образом — www.site.ru. По сути — оба этих варианта абсолютно идентичны, поэтому поисковые системы могут проиндексировать один из вариантов и в итоге при переходе, например, с Google — пользователи будут попадать на страницу www.site.ru, а при переходе с Яндекса — на страницу site.ru.

    Почему от них надо избавляться

    Есть две основных причины:
    1. Внутренние и внешние ссылки.
    Запомнить — какое именно зеркало (дубль) страницы используется — практически невозможно. Особенно если над сайтом работает не один человек, а несколько. В итоге, кто-то ссылается на страницу с www, кто-то без. В итоге — вес ссылок размывается и продвигать сайт становится сложнее. Кроме того — сами пользователи добавляют масла в огонь, оставляя ссылки в соцсетях и на форумах на разные дубли.
    2. Скачки позиций в поиске
    Из-за того, что ссылки ведут на разные зеркала — в поисковиках могут наблюдаться серьезные скачки позиций. Сначала Яндекс посчитает, что страница с www более релевантная, потом вдруг изменит решение и сделает релевантной страницу без www. Как итог — позиции могут сильно прыгать и трафик будет расти не равномерно.

    Как удалить дубли страниц

    Опять же, есть несколько способов убрать зеркала на сайте. Рассмотрим подробнее каждый из них:
    1. 301 редирект
    Этот способ чаще всего используется для технических зеркал. Срабатывает он следующим образом — пользователь попадает на сайт с www, а его автоматически перебрасывает на сайт без поддомена.

    2. Запрет на индексацию в robots.txt
    Используется для запрета индексации отдельных типов зеркал. Например — фильтров в интернет-магазинах, или поисковых страниц вида ?search=…
    Для того, чтобы запретить индексацию — достаточно в файле robots.txt дописать строчку:
    Disallow: /*?*search=

    3. Атрибут rel=»canonical»
    Аналогичен предыдущему варианту, но чаще всего используется в системах пагинации (например, просмотр предыдущей и следующей страниц в каталоге магазина). Подробнее об этом методе можно почитать на странице помощи Яндекса.

    Попытаемся найти дубли страниц

    Теперь, когда мы разобрались что это и как это исправить — найдем все возможные дубли на сайте. Просто добавляйте указанные значения к своему сайту и проверяйте, есть ли дубли. Если страница открывается так же, как и без параметра — значит это явное зеркало.
    Примеры:

    1. Дубли главной страницы

    2. Пагинация

    3. UTM-разметка и рекламные параметры:

    Добавьте в robots.txt следующий код

    4. На внутренних страницах сайта

    5. Страница поиска

    Если хотите закрыть страницу поиска от индексации, введите запрос на своем сайте в поисковой форме и найдите параметр вида ?search=запрос. После этого внесите параметр «?search» в robots.txt вот так:

    6. Фильтры и сортировка

    Для интернет-магазинов и каталогов так же нужно убирать дубли фильтров и сортировок. Просто выберете любой фильтр на сайте и получите ссылку вида ?sort=price. Найдите параметр типа «?sort» и добавьте его в robots.txt следующим образом:

    С ручной проверкой — закончено! Можете быть уверены, если вы проверите все вышеперечисленное — то уже избавитесь от большого количества дублей на сайте.

    Обратите внимание! Если в индексе поисковиков было много зеркал, то после их удаления — сайт может временно «просесть» в позициях, так что лучше проводить чистку постепенно, чтобы дать возможность Яндексу и Гуглу постепенно переиндексировать сайт.

    Как удалить дубли страниц или закрыть их от индексации .

    Продолжим тему дублей страниц на сайте. Сегодня будем говорить, о том как от них избавиться, как их удалить или закрыть от индексации поисковых систем. Ранее я уже писал, о том что такое дубли страниц и какие есть методы поиска их на вашем ресурсе, можете посмотреть тему “Дубли страниц на сайте, методы поиска.”

    Давайте начинать и первое что мы узнаем, это какие же есть методы борьбы и как их применять. На самом деле их много, так как каждая система управления контентом (cms) может генерировать дубли самостоятельно.

    Причины генерирования дублей страниц сайта могут быть различные, например:

    • ошибки в логике структуры сайта;
    • технические ошибки;
    • использование различных фильтров и поиска на сайте

    Для борьбы с ними необходимо будет перерыть всю систему и разобраться в чем проблема, почему они появляются. Я буду говорить о наиболее распространенных методах , с которыми может необходимо рано или поздно придется разбираться каждому.

    Методы удаления и закрытия от индексации дублей страниц сайта.

    1. Одним из самых распространённых способов удаления дублей на сайте является редирект (перенаправление). Вы просто перенаправляете один url адрес на другой, при этом они склеиваются и поисковая система индексирует только адрес на который вас перенаправляет. Довольно часто, можно увидеть применения 301 редиректа, при склеивании зеркал, сайтов с www и без www. Как правило большая часть сайтов использует адрес без www.

    Для того, что бы реализовать 301 редирект, вам необходимо открыть файл .htaccess, который находится в корневой папке вашего движка (cms) и прописать там несколько строк.

    Вот пример с нашего сайта для главной страницы, редирект с www на без www:

    RewriteEngine On
    RewriteCond % ^loleknbolek.com [nocase]
    RewriteRule ^(.*) https://loleknbolek.com/$1 [last,redirect=301]

    Можете использовать для своего сайта, только поменяйте адреса.

    Если же вы хотите сделать 301 редирект с одной страницы на другу (с дубля страницы), то вам не обходимо просто прописать:

    Redirect 301 /адрес страницы которую необходимо перенаправить /адрес страницы на которую перенаправляете.

    или же наглядный пример:

    Redirect 301 /dubli-stranic-sajta-metody-udaleniya-i-zakrytiya /dubli-stranic

    2. Второй способ будем использовать robots.txt, с помощью которого мы будем закрывать дубли страниц от индексации. Как вообще работать с этим файлом, я не буду описывать, вы можете почитать здесь. Как правило этот файл находится в корне вашего движка, открываем его и прописываем пару строк. Для того что бы закрыть страницу от индексации вам потребуется всего одна директива Disallow.

    Вот пример, где мы закроем одну из страниц сайта для индексации поисковым роботом:

    Я думаю тут ничего сложного нету, поэтому переходим к следующему способу с помощью которого мы разберем? как удалить дубли страниц на сайте.

    3. Сейчас мы будем использовать атрибут rel=”canonical”. Этот атрибут используется для того что бы указать поисковой системе какая из страниц должна участвовать в ранжировании.

    Например, у нас есть две одинаковые страницы:

    Для того что бы роботу было понятно какая из страниц должна индексироваться в моем случае вторая, нам необходимо зайти на эти страницы и прописать следующий код:

    Если же вы используете WordPress, поставьте себе плагин all in one seo pack, в настройках этого плагина для каждой страницы внизу вы сможете найти надпись «Канонические URL’ы» и поставить там галочку. Он упрощает работу в разы.

    4. Ну и последний на сегодня метод это использование Google и Yandex webmaster. Не буду много писать, а сразу по сути скажу Google webmaster вам необходимо зайти в раздел «индекс Google», здесь выбираем «удалить URL-адреса». Далее нажимаем на «Создать новый запрос на удаление», вводим дубликат страницы который необходимо удалить и нажимаем кнопку «Продолжить». Важно, что бы эта страница была закрыта от индексации, ибо она может в скором времени снова появиться в индексе и вам снова придется ее либо удалять либо закрывать.

    Похожим способом можно удалить страницу и в Yandex webmaster. Переходим в «Мои сайты», там будет «Удалить url», вводим в строку адрес который необходимо удалить и жмем кнопку удалить.

    На этом всё на сегодня. Буду рад если смог помочь разобраться в теме, если же что-то не ясно пишите в комментарии будем разбираться вместе. Спасибо всем!

    Добавить комментарий