Какие страницы являются дублями: как найти и что с ними делать
Дублированные страницы представляют собой серьезную проблему, поскольку их легко создать, часто трудно устранить, а их негативное влияние на ваш проект невозможно переоценить. В этой статье подробно рассматриваются негативные последствия дублированного контента, возможность его появления на сайте даже без целенаправленных действий, а также стратегии по его улучшению.
Почему дубли страниц — это плохо?
- Важно осознавать, что поисковые системы — это компании, которые стремятся оптимизировать использование своих ресурсов. Поисковые системы стремятся избегать излишних затрат совых ресурсов, поэтому для каждого сайта устанавливается краулинговый бюджет — это количество времени, которое поисковая система готова потратить на изучение и индексирование сайта.
- Важные страницы для бизнеса могут быть просканированы ой как нескоро. То, какие страницы поисковик возьмет для анализа неизвестно. Вот почему стоит избегать появления дубликатов страниц на вашем сайте.
- Каннибализация ключевиков может привести к конкуренции между страницами одного сайта. А это никоим образом не улучшит ранжирование таких страниц. Тут важно обратить внимание на ключевые запросы не только в контенте страницы, но и на метатеги и анкоры внешних ссылок.
- Некоторые естественно возникающие внешние ссылки могут вести совсем не туда, куда-бы вам хотелось, что также будет причиной наличия страниц дублей.
- За наличие дублированного контента можно заработать фильтр от Google, который основан на алгоритме Панда.
Какие виды дублей бывают
Выделяют два типа дублированного контента, поскольку они имеют разное значение:
- Дублированные страницы одного сайта.
- Дубли страниц по сравнению с другими сайтами.
Поисковики каждый по-своему расценивают эти дубликаты, что приводит к различным последствиям в ранжировании сайта. Подробнее сегодня рассмотрим дубликаты, возникающие в пределах одного сайта.
Полные дубликаты.
Чистый дубликат страницы - это ситуация, при которой полностью идентичный контент можно посмотреть через разные URL-адреса одного сайта.
- Одинаковые документы по url с «WWW» и без «WWW»:
https://www.yoursite.ru
- Дубли разных протоколов HTTP и HTTPS:
- Дубли страниц доступных по url с 1 или несколькими слешами в разных частях url и без него/них.
https://yoursite.ru/page
https://yoursite.ru/page//
https://yoursite.ru///page
- Дубли страниц с добавлениями в конце URL:
https://yoursite/index
https://yoursite/index.php
https://yoursite/home.html
https://yoursite/index.htm
https://yoursite/default.asp
https://yoursite/default.aspx
- Одинаковые документы по URL-адресам в разных регистрах:
https://yoursite.ru/page
https://yoursite.ru/PAGE
- Нарушения вложенности URL-адресов и доступность 1 товара по разным URL:
https://yoursite.ru/category/tovar
https://yoursite.ru/tovar
https://yoursite.ru/category/dir/tovar
https://yoursite.ru/dir/tovar
- Дубли с рандомными символами в URL или на конце:
https://yoursite.ru/page/dododo
https://yoursite.ru/dododo/page
https://yoursite.ru/pagedododo
https://yoursite.ru/page/*
- Дубли с замененным нижним подчеркиванием или дефисом:
https://yoursite.ru/category/product-111
https://yoursite.ru/category/product_111
- Одинаковые документы по URL-адресам с GET-параметрами («?») и метками utm:
https://yoursite.ru/?top=1&cat=15
https://yoursite.ru/?utm_source=yandex&utm_medium=cpc
Некоторые GET-параметры могу менять содержание страницы, подстраиваясь под конкретного пользователя. В таком случае они уже не будут считаться дублями.
Появление страниц с utm-метками в индексе редкое, но встречающееся явление. Такие метки помогают отслеживать источники трафика на сайт и страницы с ними не должны индексироваться.
Вместо utm в адресе могут встречаться YCLID, OPENSTAT, GCLID, REFID и другие метки, позволяющие анализировать эффективность рекламных кампаний и реферальных ссылок.
Частичные дубликаты.
Отчасти дублированные страницы - это те, содержание которых практически идентично, но имеет другое отображение или дополнения.
- Сортировки и фильтры
Страницы с такими параметрами различаются лишь порядком вывода товаров или услуг.
https://yoursite.ru/category/ (каноническая страница)
https://yoursite.ru/category/?price=low (сортировка по убыванию цены)
https://yoursite.ru/category/?price=high (сортировка по возрастанию цены)
- Разновидности 1 товара
Часто встречаются в интернет-магазинах на карточках с товарами, отличающимися лишь по цвету, размеру и другим характеристикам. Иногда такие страницы нужны и важны, когда идет продвижение какой-то конкретной модификации. В таком случае остальные варианты товара не должны участвовать в индексе и их лучше закрыть от индексации или настроить атрибут rel=canonical.
- Страницы пагинации
Дублем такая страница будет считаться только тогда, когда существует общая страница каталога со всеми товарами, услугами или статьями. Общая или первая страница и будет считаться канонической (при условии, что на остальных прописан rel=canonical) и содержать основной уникальный контент в виде SEO-текстов.
- Добавление релевантного контента
При продвижении сайте в определенных регионах или городах используется функция определения или выбора местонахождения пользователя. В таком случае страницы отличаются незначительными элементами – адресом, контактами, заголовками и метатегами.
https://yoursite.ru/?city=Saratov
https://yoursite.ru/?city=Tula
Семантические дубли.
Семантические дубликаты появляются когда разные страницы оптимизируются под запросы одного кластера. Поэтому поисковые системы считают их дублями. Вычислить такие дубли можно при помощи кластеризации всех заголовков h1 на вашем сайте через различные сервисы кластеризации.
Откуда берутся дубли
Дублирование страниц сайта часто происходит в результате функционирования систем управления контентом (CMS). Дубликаты могут быть автоматически сгенерированы при использовании GET-параметров и меток в URL-адресах.
Человеческий фактор тоже может привести к появлению копий страниц, например:
- Контент-менеджер может случайно поместить один и тот же товар или услугу в разные категории, в результате чего страница товара становится доступной по нескольким URL-адресам.
- Веб-мастер может изменить структуру сайта, присвоив имеющимся страницам новые URL-адреса, при этом старые оставив доступными.
- Ошибки в настройках файла robots.txt, в настройке 301 редиректов или наличие страниц с ошибкой 404 также могут привести к дублированию контента.
Как найти дубли страниц?
Существуют различные методы выявления дубликатов страниц. Чтобы обеспечить полное обнаружение и не пропустить ни одного дубликата, рекомендуется использовать несколько сервисов и методов последовательно. Однако для выявления первичных дубликатов, как правило, достаточно одного. Вебмастера могут выбирать тот инструмент, который лучше всего соответствует их предпочтениям.
Через операторы
Использование поисковых операторов для поиска дубликатов страниц - это, как правило, самый медленный подход. Обычно он используется для точного определения дубликатов или при проведении аудита без доступа к личным аккаунтам веб-мастеров или сервисам аналитики.
Для обнаружения бессмысленных дубликатов можно использовать такую команду, как:
site:host "предложение для проверки".
"Предложение для проверки" представляет собой любой текст со страницы, для которой вы ищете дубликаты.
Для поиска смысловых дублей используется та же комбинация, только результат в поисковике будет выведены в порядке убывания релевантности страницы.
Найти вхождение фразы только в тайтлах можно с помощью таких операторов:
в Google – allintitle:«фраза для проверки» site:*хост*
в Яндекс – title:«фраза для проверки» site:*хост*
Найти в url любую комбинацию символов можно так:
site:*хост* inurl:*параметр или искомые символы*
Панели вебмастеров
Если у вас есть доступ к личным аккаунтам Яндекс.Вебмастера и Google Search Console, рекомендуется сначала проанализировать отчеты в них. Тем не менее важно понимать, что отображаемые данные могут быть запоздалыми и неполными, особенно для Google.
Яндекс.Вебмастер
Информацию о дублях можно находить двумя способами:
- В разделе “Индексирование” → “Страницы в поиске” →”Исключенные страницы” → поставить фильтрацию Статуса – Дубль.
2. В разделе “Заголовки и описания” можно увидеть все url с дублирующимися метатегами tittle или description.
3. В разделе сводка также можно увидеть все имеющиеся дубли метатегов.
Google Search Console
Увидеть страницы дубликаты по мнению Гугла, можно в разделе “Страницы” → “Не проиндексированы” → “Страница является копией. Канонический вариант не выбран пользователем”
Для получения более подробной информации нужно провалиться в каждый отчет раздела “Почему эти страницы не индексируются”.
Софт
Для нахождения дублей на сайте удобнее всего использовать какой-либо парсер, способный анализировать страницы, как робот поисковой системы. Существуют наиболее популярные:
Screaming Frog Seo Spider
С помощью программы можно бесплатно проанализировать до 500 ссылок, дополнительный объем уже требует оплаты. Для больших сайтов необходимо приобрести или использовать альтернативное программное обеспечение. Программа облегчает выявление дубликатов страниц с помощью анализа мета-тегов и текстового содержимого.
В программу удобно встроена функция сравнения схожего контента. Она наглядно отображает сходство каждой страницы в процентах по отношению к другим, предлагает предварительный просмотр, выделяет различные тексты, позволяет анализировать текст в определенных зонах и многое другое.
SiteAnalyzer
Является ближайшей бесплатной альтернативой вышеупомянутого Screaming Frog. Однако, в отличие от Screaming Frog, в ней отсутствует возможность визуального сравнения текстовых повторов и нет возможности указать конкретную область для сканирования текстового содержимого.
BatchUniqueChecker
Специализированный бесплатный инструмент, предназначенный для комплексной проверки уникальности контента, исключая метатеги. Позволяет визуально проверять текстовое содержание двух страниц.
Xenu Link Sleuth
Этот бесплатный инструмент помогает выявить дубликаты сайтов на основе заголовков и метатегов. Он проводит полное сканирование сайта, а затем копазывает результаты, выводя Title, Description и другие показатели. Однако недостатком является то, что дублирующие страницы с разными метатегами программа не сможет обнаружить.
Онлайн-сервисы
Онлайн сервисов, выполняющих те же задачи, что и программные версии, много и тут можно выбирать любой удобный для вас вариант: Check Your Redirects and Statuscode, ApollonGuru и другие.
Как убрать дубли страниц на сайте?
Решение проблем с дублированным контентом для новых и уже существующих сайтов может быть различным. Для молодых сайтов ключевое значение имеет профилактика путем первоначальной настройки сайта, а вот для возрастных сайтов необходимо исправление сложившейся ситуации.
Большинство дубликатов страниц можно устранить с помощью правильной настройки CMS. По сути, эффективная борьба с дубликатами заключается в составлении технического задания для веб-мастера или программиста и обеспечении его выполнения. Однако есть и альтернативные методы, которые не требуют специальных знаний, но при этом могут дать благоприятные результаты. Давайте их рассмотрим.
Склейка дублей через 301 редирект
Самый надежный метод заключается в передаче всех метрик с дублирующих страниц, что особенно эффективно для полных дубликатов. Единственным недостатком является потеря доступа к самим дубликатам.
При использовании 301 редиректа с дублирующей страницы на основную происходит автоматическое перенаправление. Следовательно, все ссылки, указывающие на дубликат, в итоге перенаправляются на соответствующую страницу.
301 редирект сообщает поисковым системам, что страница больше не доступна по прежнему URL-адресу и была перенесена на новый адрес. Обычно в течение 14 дней дублирующая страница удаляется из результатов поиска.
Создание канонической страницы
Метатег с атрибутом rel="canonical" обозначает каноническую, основную страницу для индексации. Таким образом, дубликаты распознаются поисковиками главным образом как вторичные документы и исключаются из индекса, оставаясь доступными для пользователей.
Наиболее распространенным способом указания приоритетной страницы является вставка мета-тега Link с атрибутом rel="canonical" в код, обычно между тегами <head> и </head> дублирующей страницы:
<link rel=«canonical» href=«ссылка на основную страницу» />
В качестве альтернативы можно добавить HTTP-заголовок в код страницы-дубля в следующем формате:
Link: <ссылка на основную страницу>; rel="canonical"
Этот подход применим как к стандартным HTML-страницам, так и к электронным документам формата PDF, DOC, XLS и т. д.
Директива Disallow в robots.txt
Файл robots.txt содержит директивы для поисковых систем, касающиеся порядка индексации сайта. Чтобы предотвратить индексацию дубликатов на сайте, вы можете использовать следующую директиву:
User-agent: *
Disallow: /*?sphrase_id=
Disallow: /*?pagen-1
Этот подход не требует навыков программирования. Однако он может не подойти для многочисленных дубликатов, поскольку обновление robots.txt для каждого дубликата займет много времени.
Физическое удаление дублей
Физическое удаление дубликатов - эффективный подход к устранению статических дубликатов. Он предполагает удаление ссылок на страницу в структуре внутренней перелинковки сайта.
Этот метод подходит для страниц с минимальной значимостью, недостаточным ссылочным весом и трафиком. В противном случае, если страница имеет значительный трафик или ссылочную массу, лучше перенаправить трафик на основную целевую страницу с помощью 301 редиректа.
Закрытие дублей от индексации через noindex
Еще один способ запрета к индексированию ненужной страницы заключается в прописывании тега <meta name=”robots” content=”noindex”> или X-Robots-Tag: noindex в ответе сервера.
Склейка дублей через директиву Clean-param
При обнаружении директивы Clean-param поисковый робот Яндекса (метод работает только для этой поисковой системы) больше не будет многократно сканировать повторяющуюся информацию. Это позволит более эффективно использовать краулинговый бюджет и снизить нагрузку на сервер.
Например, на сайте имеются следующие страницы:
https://yoursite.ru/сatalog/get_look.pl?ref=site_1&look_id=1
https://yoursite.ru/сatalog/get_look.pl?ref=site_2&look_id=1
https://yoursite.ru/сatalog/get_look.pl?ref=site_3&look_id=1
При добавлении следующей директивы в файл robots.txt:
Clean-param: ref /some_dir/get_look.pl
поисковый робот Яндекса сведет все эти адреса к одному и передаст накопленные показатели с страниц-дубликатов:
https://yoursite.ru/some_dir/get_look.pl?look_id=1
Заключение
Полностью убрать дублирование страниц, вызванное параметрами страницы, возможно, не удастся. Однако для поддержания рейтинга в поисковой системе очень важно исключить их из индексации. Описанные выше методы могут помочь в достижении этой цели.
Определите подход, учитывая ваш уровень навыков в программировании и предпочтения, и убедитесь, что у поисковых систем не возникает сомнений относительно релевантности и качества вашего сайта.