Дубликаты в постраничной навигации. Как бороться


Содержание материала:

Что такое дубли на сайте и как с ними бороться?

Явные и неявные дубли на сайте затрудняют индексацию, ломают планы по продвижению и могут «подарить» вебмастеру часы и часы работы по их удалению. Как избежать проблем? Вовремя их ликвидировать.

Дубли — это страницы на одном и том же домене с идентичным или очень похожим содержимым. Чаще всего появляются из-за особенностей работы CMS, ошибок в директивах robots.txt или в настройке 301 редиректов.

В чем опасность дублей

1. Неправильная идентификация релевантной страницы поисковым роботом. Допустим, у вас одна и та же страница доступна по двум URL:

Вы вкладывали деньги в продвижение страницы https://site.ru/kepki/. Теперь на нее ссылаются тематические ресурсы, и она заняла позиции в топ-10. Но в какой-то момент робот исключает ее из индекса и взамен добавляет https://site.ru/catalog/kepki/. Естественно, эта страница ранжируется хуже и привлекает меньше трафика.

2. Увеличение времени, необходимого на переобход сайта роботами. На сканирование каждого сайта роботам выделяется ограниченное время. Если много дублей, робот может так и не добраться до основного контента, из-за чего индексация затянется. Эта проблема особенно актуальна для сайтов с тысячами страниц.

3. Наложение санкций со стороны поисковых систем. Сами по себе дубли не являются поводом к пессимизации сайта — до тех пор, пока поисковые алгоритмы не посчитают, что вы создаете дубли намеренно с целью манипуляции выдачей.

4. Проблемы для вебмастера. Если работу над устранением дублей откладывать в долгий ящик, их может накопиться такое количество, что вебмастеру чисто физически будет сложно обработать отчеты, систематизировать причины дублей и внести корректировки. Большой объем работы повышает риск ошибок.

Дубли условно делятся на две группы: явные и неявные.

Явные дубли (страница доступна по двум или более URL)

Вариантов таких дублей много, но все они похожи по своей сути. Вот самые распространенные.

1. URL со слешем в конце и без него

Что делать: настроить ответ сервера «HTTP 301 Moved Permanently» (301-й редирект).

Как это сделать:

    • найти в корневой папке сайта файл .htaccess и открыть (если его нет — создать в формате TXT, назвать .htaccess и поместить в корень сайта);
    • прописать в файле команды для редиректа с URL со слешем на URL без слеша:
    • если файл создается с нуля, все редиректы необходимо прописывать внутри таких строк:

Настройка 301 редиректа с помощью .htaccess подходит только для сайтов на Apache. Для nginx и других серверов редирект настраивается другими способами.

Какой URL предпочтителен: со слешем или без? Чисто технически — никакой разницы. Смотрите по ситуации: если проиндексировано больше страниц со слешем, оставляйте этот вариант, и наоборот.

2. URL с WWW и без WWW

Что делать: указать на главное зеркало сайта в панели для вебмастеров.

Как это сделать в Яндексе:

    • перейти в Яндекс.Вебмастер и добавить 2 версии сайта — с WWW и без WWW;
    • выбрать в Панели сайт, с которого будет идти перенаправление (чаще всего перенаправляют на URL без WWW);
    • перейти в раздел «Индексирование / Переезд сайта», убрать галочку напротив пункта «Добавить WWW» и сохранить изменения.

В течение 1,5-2 недель Яндекс склеит зеркала, переиндексирует страницы, и в поиске появятся только URL без WWW.

Важно! Ранее для указания на главное зеркало в файле robots.txt необходимо было прописывать директиву Host. Но она больше не поддерживается. Некоторые вебмастера «для подстраховки» до сих пор указывают эту директиву и для еще большей уверенности настраивают 301 редирект — в этом нет необходимости, достаточно настроить склейку в Вебмастере.

Как склеить зеркала в Google:

    • перейти в Google Search Console и добавить 2 версии сайта — с WWW и без WWW;
    • выбрать в Search Console сайт, с которого будет идти перенаправление;
    • кликнуть по значку шестеренки в верхнем правом углу, выбрать пункт «Настройки сайта» и выбрать основной домен.

Как и в случае с Яндексом, дополнительные манипуляции с 301 редиректами не нужны, хотя реализовать склейку можно и с его помощью.

Анализ проиндексированных страниц — инструмент, который поможет локализовать большинство проблем с индексацией. Проверяет обе поисковые системы. Быстро покажет косяки индексации.

3. Адреса с HTTP и HTTPS

После того как Google в 2014 году объявил, что сайты с SSL-сертификатами получают преимущество в результатах выдачи, началась массовая миграция на HTTPS. Из-за ошибок при переходе появляются дубли:

1. Проверить, корректно ли склеены зеркала в Яндексе (процедура аналогична склейке зеркал с WWW и без WWW, с той лишь разницей, что в главном зеркале нужно установить галочку «Добавить HTTPS»).

2. Проверить, правильно ли настроены редиректы. Возможно, в использованном коде есть ошибки. Пошаговая инструкция по настройке HTTPS и все необходимые команды для редиректов.

Важно! Если с момента настройки HTTPS прошло менее 2 недель, не стоит бить тревогу — подождите еще неделю-другую. Поисковикам нужно время, чтобы убрать из индекса старые адреса.

4. Адреса с GET-параметрами

Все, что идет в URL после знака ?, называется GET-параметрами. Эти параметры разделяются между собой знаком &. Каждый новый URL с GET-параметрами является дублем исходной страницы.

Исходная страница: http://site.ru/cat1/gopro
URL с UTM-метками: http://site.ru/cat1/gopro?utm_source=google&utm_medium=cpc&utm_campaign=poisk
URL с идентификатором сессии: http://site.ru/cat1/gopro?s >URL с тегом Google Ads: http://site.ru/cat1/gopro?gcl >

Вариант 1. Запретить индексацию страниц с GET-параметрами в robots.txt. Выглядеть запрет будет так (для всех роботов):

User-agent: *
Disallow: /*?utm_source=
Disallow: /*&utm_medium=
Disallow: /*&utm_campaign=
Disallow: /*?s >Disallow: /*?gcl >Sitemap: http://site.ru/sitemap.xml

Вариант 2. Яндекс поддерживает специальную директиву Clean-param для robots.txt, которая дает команду роботу не индексировать страницы с GET-параметрами. Ее преимущество в том, что если исходная страница по какой-то причине не проиндексирована, то робот по директиве Clean-param узнает о ее существовании и добавит в индекс. Если же закрыть от индексации страницы с GET-параметрами с помощью директивы Disallow, то робот даже не будет обращаться к этим страницам, и исходная страница так и останется не проиндексированной. Проблема в том, что директива Clean-param — это ноу-хау Яндекса, и Google не понимает ее. Поэтому решение такое: для Яндекса используем Clean-param, для Google — Disallow:

User-agent: Yandex
Clean-param: utm_source&utm_medium&utm_campaign&sid&gclid
User-agent: Googlebot
Disallow: /*?utm_source=
Disallow: /*&utm_medium=
Disallow: /*&utm_campaign=
Disallow: /*?s >Disallow: /*?gcl >

5. Один и тот же товар, доступный по разным адресам

Что делать: настроить атрибут rel=»canonical» для тега
. Этот атрибут указывает на надежную (каноническую) страницу. Именно такая страница попадет в индекс.

Пример. Допустим, вам нужно указать роботу, чтобы он индексировал страницу http://site.ru/catalog/sony-ps-4. То есть именно она является канонической, а страница http://site.ru/sony-ps-4 — копией. В этом случае необходимо в разделстраницы-копии (и всех прочих страниц-копий, если они есть), добавить такую строку:

Так вы со страницы-копии ссылаетесь на каноническую страницу, которая и будет индексироваться.

Настраивается rel=»canonical» средствами PHP, с помощью встроенных функций CMS или плагинов. Например, для есть плагин All in One SEO Pack, который позволяет управлять каноническими URL в автоматическом и ручном режиме:

6. Версии для печати

Основной текстовый контент исходной страницы и версии для печати совпадает, поэтому такие страницы считаются дублями.

Исходная страница: http://site.ru/article1.html
Версия для печати: http://site.ru/article1.html/?print=1
Или такой вариант реализации: http://site.ru/article1.html/print.php?post >

Что делать: закрыть доступ робота к версиям для печати в robots.txt. Если страницы на печать выводятся через GET-параметр ?print, используем для Яндекса директиву Clean-param, а для Google — Disallow:

User-agent: Yandex
Clean-param: print
User-agent: Googlebot
Disallow: /*?print=

Во втором примере реализации вывода на печать достаточно просто указать директиву Disallow для обоих роботов:

User-agent: *
Disallow: /*print.php

Ищите свой вариант работы с дублями

Одни и те же дубли можно закрыть от индексации разными способами. На практике работает и канонизация страниц, и редиректы, и директивы robots.txt, и метатег robots. Но каждый поисковик дает свои рекомендации.

Google не приветствует закрытие доступа к дублям с помощью robots.txt или метатега robots со значениями «noindex,nofollow», а предлагает использовать rel=»canonical» и 301 редирект. А вот Яндексу robots.txt «по душе» — здесь даже есть своя директива Clean-param, о которой мы рассказывали выше.

Ваша задача — найти способы, которые будут оптимальны именно в вашем случае. Например, если вы ориентируетесь на аудиторию стран Запада, Украины или Казахстана, лучше за основу брать рекомендации Google. Для России лучше придерживаться рекомендаций Яндекса.

Закрывать дубли сразу всем арсеналом инструментов точно не стоит — это лишняя работа, которая к тому же может привести к путанице в дальнейшем. Также не стоит излишне перегружать сервер 301 редиректами, поскольку это увеличит нагрузку на него.

Неявные дубли (контент на нескольких страницах различается, но незначительно)

Итак, мы разобрались с явными дублями — теперь расскажем о неявных, то есть тех, которые по разным URL отдают не идентичный, но очень похожий контент.

1. Дубли древовидных комментариев (replytocom)

Проблема актуальна для сайтов на . Когда кто-то отвечает на комментарий к записи, CMS генерирует новый URL. И чем больше ответов, тем больше дублирующихся URL, которые благополучно индексируются:

Вариант 1. Отключить древовидные комментарии в (перейти в «Настройки» / «Обсуждение», убрать галочку напротив «Разрешить древовидные (вложенные) комментарии глубиной N уровней» и не забыть сохранить изменения).

Но в этом случае снижается удобство комментирования. Поэтому лучше воспользоваться другими способами.

Вариант 2. Отключить штатный модуль комментариев и установить систему Disqus или аналоги (wpDiscuz, Cackle Comments и др.). Это и проблему с дублями устранит, и пользователям будет удобней.

Вариант 3. Изменить в коде CMS способ формирования URL страниц с ответами на комментарии и закрыть URL с replytocom от индексации с помощью метатега robots со значениями «noindex,nofollow» . Для этой работы необходимо привлечь программиста.

2. Страницы товаров со схожими описаниями

Часто в магазинах товары отличаются лишь одной-двумя характеристиками (цвет, размер, узор, материал и т. п.). В итоге масса карточек товаров имеют однотипный контент. Это приводит к тому, что поисковик индексирует одну карточку (которую он считает наиболее подходящей), а похожие — нет.

Вариант 1. Объединить однотипные товары в одной карточке и добавить селектор для выбора отличающихся параметров. Это избавляет от дублей и упрощает навигацию для пользователей.

Вариант 2. Если не получается добавить селекторы, уникализируйте описания однотипных товаров. Начните с наиболее значимых товаров, которые обеспечивают наибольшую прибыль. Так вы постепенно заполните карточки товаров уникальными описаниями, и они не будут восприниматься как дубли.

Вариант 3. Если в карточках товаров повторяется определенная часть описания, и ее нет смысла уникализировать (например, базовые заводские параметры), эту часть можно скрыть от индексации с помощью тега:

здесь повторяющийся текст

Те же параметры, которые у товаров различаются, закрывать не стоит. Так поисковые системы будут видеть, что это разные товары.

Этот способ подходит скорее как временное решение. Особенно с учетом того, что тег noindex воспринимает только Яндекс. Вообще же лучше использовать первый или второй способ.

3. Страницы пагинации

Если у вас обширный каталог, то для удобства пользователей он разбивается на страницы. Это и есть пагинация.

Для скрытия страниц пагинации от индексации эффективней всего использовать атрибут rel=»canonical» тега . В качестве канонической необходимо указывать основную страницу каталога.

Важно! Некоторые оптимизаторы и владельцы интернет-магазинов подходят творчески к борьбе с дублями — добавляют на страницы пагинации уникальные тексты. Это лишняя трата времени и денег — контент на этих страницах и так различается (разные товары). Дело не в уникальном контенте, а в том, что пользователю нет смысла попадать из поиска на 3-ю или 10-ю страницу каталога. Ему важно начать с начала, а потом он уже сам решит, двигаться дальше или нет.

Мы рассмотрели далеко не все дубли. Вариантов может быть множество. Главное — понимать, как они формируются, как с ними бороться и с помощью каких инструментов выявить.

Как выявить дубли страниц?

Сложного в этом ничего нет. Покажем несколько способов — выбирайте любой.

Способ 1. «Ручной»

Зная особенности своей CMS, можно быстро вручную найти дубли в поисковиках. Для этого введите в поисковой строке такой запрос:

Например, мы знаем, что на сайте URL страниц пагинации формируются с помощью GET-запроса ?page=. Вводим в Google запрос и находим 4 дубля:

Также мы узнали, что в дублирующихся страницах встречаются запросы ?limit=, ?start=, ?category_ >

То же самое делаем в Яндексе (здесь уже 18 дублей):

Этот способ хорошо подходит для экспресс-анализа сайта. Для системной работы используйте другие способы.

Способ 2. Яндекс.Вебмастер

Перейдите в Яндекс.Вебмастер в раздел «Индексирование» / «Страницы в поиске», активируйте вкладку «Все страницы» и выгрузите отчет в формате XLS.

Далее пройдитесь по списку и найдите «подозрительные» URL. Для удобства активируйте фильтры по частям URL, указывающим на дублирование.

Способ 3. Парсинг проиндексированных страниц

При отслеживании индексации в панели Яндекса проблематично сопоставить данные с Google — приходится вручную перепроверять, проиндексирован ли здесь дубль. Избежать такой проблемы позволяет парсер проиндексированных страниц от SeoPult.

Что нужно сделать:

    • выгрузите список проиндексированных URL из Яндекс.Вебмастера;
    • загрузите этот список в инструмент от SeoPult — списком или с помощью XLS-файла (подробная инструкция по использованию инструмента);

В этом примере страницы пагинации проиндексированы Яндексом, а Google — нет. Причина в том, что они закрыты от индексации в robots.txt только для бота Yandex. Решение — настроить канонизацию для страниц пагинации.

Используя парсер от SeoPult, вы поймете, дублируются страницы в обоих поисковиках или только в одном. Это позволит подобрать оптимальные инструменты решения проблемы.

Если у вас нет времени или опыта на то, чтобы разобраться с дублями, закажите аудит — помимо наличия дублей вы получите массу полезной информации о своем ресурсе: наличие ошибок в HTML-коде, заголовках, мета-тегах, структуре, внутренней перелинковке, юзабилити, оптимизации контента и т. д. В итоге у вас на руках будут готовые рекомендации, выполнив которые, вы сделаете сайт более привлекательным для посетителей и повысите его позиции в поиске.

Поиск дублей страниц сайта: программы, сервисы, приёмы

От автора

О теории дублирования контента на сайте я писал стать тут, где доказывал, что дубли статей это плохо и с дубли страниц нужно выявлять и с ними нужно бороться. В этой статье я покажу, общие приемы по выявлению повторяющегося контента и акцентирую внимание на решение этой проблемы на WordPress и Joomla.

Еще немного теории

Я не поддерживаю мнение о том, что Яндекс дубли страниц воспринимает нормально, а Google выбрасывает дубли из индекса и за это может штрафовать сайт.

На сегодня я вижу, что Яндекс определяет дубли страниц и показывает их в Яндекс.Вебмастере на вкладке «Индексация». Более того, ту страницу, которую Яндекс считает дублем, он удаляет из индекса. Однако я вижу, что Яндекс примет за основную страницу первую, проиндексированную и вполне возможно, что этой страницей может быть дубль.

Также понятно и видно по выдаче, что Google выбрасывает из поиска НЕ все страницы с частичным повторением материала.

Вместе с этим, отсутствие дублей на сайте воспринимается поисковыми системами, как положительный фактор качества сайта и может влиять на позиции сайта в выдаче.

Теперь от теории к практике: как найти дубли страниц.

Поиск дублей страниц сайта

Перечисленные ниже способы поиск дублей страниц не борются с дублями, а помогают их найти в поиске. После их выявления, нужно принять меры по избавлению от них.

Программа XENU (полностью бесплатно)

Программа Xenu Link Sleuth ( http://home.snafu.de/tilman/xenulink.html ), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и мета описаниям. Читать статью: Проверка неработающих, битых и исходящих ссылок сайта программой XENU

Программа Screaming Frog SEO Spider (частично бесплатна)

Адрес программы https://www.screamingfrog.co.uk/seo-spider/ . Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Статья: SEO анализ сайта программой Scrimimg Seo Spider

Программа Netpeak Spider (платная с триалом)

Сайт программы https://netpeaksoftware.com/spider . Еще один программный сканер для анализа ссылок сайта с подробным отчетом. Статья Программа для SEO анализа сайта Netpeak Spider

Яндекс.Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование >>>Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

поиск дублей страниц в Яндекс.Вебмастер

Язык поисковых запросов

Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google) и поискать дубли «глазами». Как это сделать читать в статье Простые способы проверить индексацию страниц сайта.

Сервисы онлайн

Есть онлайн сервисы, который показывают дубли сайта. Например, сервис Siteliner.com ( http://www.siteliner.com/ ) На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

Google Search Console

В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске>>>Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и мета описания. Вероятнее всего это дубли (частичные или полные).

поиск дублей страниц в консоли веб-мастера Google

Что делать с дублями

Найденные дубли, нужно удалить с сайта, а также перенастроить CMS, чтобы дубли не появлялись, либо закрыть дубли от поисковых ботов мета-тегами noindex, либо добавить тег rel=canonical в заголовок каждого дубля.

Как бороться с дублями

Здесь совет простой, бороться с дублями нужно всеми доступными способами, но прежде всего, настройкой платформы (CMS) на которой строится сайт. Уникальных рецептов нет, но для Joomla и WordPress есть практичные советы.


Поиск и удаление дублей на CMS Joomla

CMS Joomla «плодит» дубли, «как крольчиха». Причина дублирования в возможностях многоуровневой вложенности материалов, размещения материалов разных пунктах меню, в различных макетах для пунктов меню, во встроенном инструменте пагинации (листания) и различной возможности сортировки материалов.

Например, одна и та же статья, может быть в блоге категории, в списке другого пункта меню, может быть, в сортировке по дате выпуска и вместе с тем, быть в сортировке по количеству просмотров, дате обновления, автору и т.д.

Встроенного инструмента борьбы с дублями нет и даже появление новой возможности «Маршрутизация URL» не избавляет от дублирования.

Решения проблемы

Решить проблему дублирования на сайтах Joomla помогут следующие расширения и приёмы.

Бесплатный плагин «StyleWare Content Canonical Plugin». Сайт плагина: https://styleware.eu/store/item/26-styleware-content-canonical-plugin. Плагин фиксирует канонические адреса избранных материалов, статей, категорий и переадресовывает все не канонические ссылки.

SEO Компоненты Joomla, Artio JoomSEF (бесплатный) и SH404 (платный). У этих SEO «монстров» есть кнопка поиска и удаления дублей, а также есть легкая возможность добавить каноническую ссылку и/или закрыть страницы дублей от индексации.

Перечисленные расширения эффективно работают, если их ставят на новый сайт. Также нужно понимать, что при установке на рабочий сайт:

  • На сайте со статьями в индексе эти расширения «убьют» почти весь индекс.
  • Удаление дублей компонентами не автоматизировано и дубли всё равно попадают в индекс.
  • Хотя управлять URL сайта этими компонентами очень просто.

Если дубль страницы попадет в индекс, то поисковики, не умея без указателей определять, какая страница является основной, могут дубль принять за основную страницу, а основную определить, как дубль. Из-за этого важно, не только бороться с дублями внутри сайта, но и подсказать поисковикам, что можно, а что нельзя индексировать. Сделать это можно в файле robots.txt, но тоже с оговорками.

Закрыть дубли в robots.txt

Поисковик Яндекс, воспринимает директиву Disallow как точное указание: материал не индексировать и вывести материал из индекса. То есть, закрыв на Joomla , страницы с таким url: /index.php?option=com_content&view=featured&Item >, а закрыть это можно такой директивой:

вы уберете, из индекса Яндекс все страницы со знаком вопроса в URL.

В отличие от Яндекс, поисковик Google не читает директиву Disallow так буквально. Он воспринимает директиву Disallow как запрет на сканирование, но НЕ запрет на индексирование. Поэтому применение директивы [Disallow: /*?] в блоке директив для Google файла robots.txt, на уже проиндексированном сайте, скорее приведет к негативным последствиям. Google перестанет сканировать закрытые страницы, и не будет обновлять по ним информацию.

Для команд боту Google нужно использовать мета теги , которые можно добавить во всех редакторах Joomla, на вкладке «Публикация».

Например, вы создаете на сайте два пункта меню для одной категории, один пункт меню в виде макета блог, другой в виде макета список. Чтобы не было дублей, закройте макет список мета-тегом noindex, nofollow, и это избавит от дублей в Google выдаче.

Также рекомендую на сайте Joomla закрыть в файле robots.txt страницы навигации и поиска от Яндекс на любой стадии индексации и от Google на новом сайте:

Стоит сильно подумать, об индексации меток, ссылок и пользователей, если они используются на сайте.

Поиск и удаление дублей на CMS WordPress

На WordPress создаваемый пост попадает на сайт как статья, и дублируется в архивах категории, архивах тегов, по дате, по автору. Чтобы избавиться от дублей на WordPress, разумно закрыть от индексации все архивы или, по крайней мере, архивы по дате и по автору.

Использовать для этих целей можно файл robots.txt с оговорками сделанными выше. Или лучше, установить SEO плагин, который, поможет в борьбе с дублями. Рекомендую плагины:

  • Yast SEO ( https://ru.wordpress.org/plugins/wordpress-seo/ )
  • All in One SEO Pack ( https://ru.wordpress.org/plugins/all-in-one-seo-pack/ )

В плагинах есть настройки закрывающие архивы от индексации и масса других SEO настроек, который избавят от рутинной работы по оптимизации WordPress.

Вывод

По практике скажу, что побороть дубли на WordPress можно, а вот с дублями на Joomla поиск дублей страниц требует постоянного контроля и взаимодействия с инструментами веб-мастеров, хотя бы Яндекс и Google.

Как избавиться от дублей страниц

Related Articles

Анализ ключевых слов — ключ к эффективному контенту сайта

Онлайн-версия программы Базы Пастухова

Кластеризация простыми словами для блоггеров

Всем привет! В прошлой статье мы затронули важную тему — поиск дублей страниц сайта. Как показали комментарии и несколько пришедших мне на почту писем, эта тема актуальна. Дублированный контент на наших блогах, технические огрехи CMS и различные косяки шаблонов не дают нашим ресурсам полной свободы в поисковых системах. Поэтому нам приходится с ними серьезно бороться. В этой статье мы узнаем как можно убрать дубли страниц любого сайта, примеры этого руководства покажут как от них можно избавиться простым способом. От нас просто требуется использовать полученные знания и следить за последующими изменениями в индексах поисковиков.

Моя история борьбы с дублями

Перед тем, как мы займемся рассмотрением способов устранения дубликатов, я расскажу свою историю борьбы с дублями.

Два года назад (25 мая 2012 года) я получил в свое распоряжение учебный блог на курсах se0-специалиста. Он мне был дан для того, чтобы во время учебы практиковать полученные знания. В итоге за два месяца практики я успел наплодить пару страниц, десяток постов, кучу меток и вагон дублей. К этому составу в индекс Google в последующие полгода, когда учебный блог стал моим личным сайтом, прибавились и другие дубликаты. Это получилось по вине replytocom из-за растущего число комментариев. А вот в базе данных Яндекса количество проиндексированных страниц росло постепенно.

В начале 2013 года я заметил конкретное проседание позиций моего блога в Гугле. Тогда то я и задумался, почему так происходит. В итоге докопался до того, что обнаружил большое число дублей в этом поисковике. Конечно, я стал искать варианты их устранения. Но мои поиски информации ни к чему не привели — толковых мануалов в сети по удалению дублей страниц я не обнаружил. Но зато смог увидеть одну заметку на одном блоге о том, как можно с помощью файла robots.txt удалить дубликаты из индекса.

Первым делом я написал кучу запрещающих директив для Яндекса и Гугла по запрету сканирования определенных дублированных страниц. Потом, в середине лета 2013 года использовал один метод удаления дублей из индекса Goоgle (о нем Вы узнаете в этой статье). К тому времени в индексе этой поисковой системы накопилось более 6 000 дублей! И это имея на своем блоге всего пятерку страниц и более 120-ти постов…

После того, как я реализовал свой метод удаления дублей, число их стало стремительно уменьшаться. В начале этого года я использовал еще один вариант удаления дубликатов для ускорения процесса (о нем Вы тоже узнаете). И сейчас на моем блоге число страниц в индексе Гугла приближается к идеальному — на сегодняшний день в базе данных находится около 600 страниц. Это в 10 раз меньше, чем было раньше!

Как убрать дубли страниц — основные методы

Существует несколько различных способов борьбы с дублями. Одни варианты позволяют запретить появление новых дубликатов, другие могут избавиться от старых. Конечно, самый лучший вариант — это ручной. Но для его реализации нужно отлично разбираться в CMS своего сайта и знать работу алгоритмов поисковой системы. Но и другие методы тоже хороши и не требуют специализированных знаний. О них мы сейчас и поговорим.

301 редирект

Данный способ считается самым эффективным, но и самым требовательным к знанию программирования. Дело в том, что здесь прописываются нужные правила в файле .htaccess (находиться в корне директории сайта). И если они прописываются с ошибкой, то можно не только не решить поставленную задачу удаления дублей, но и вообще убрать весь сайт из Интернета.

Как же решается задачка удаления дублей с помощью 301-го редиректа? В основу его лежит понятие переадресации поисковых роботов с одной страницы (с дубля) на другую (оригинальную). То есть робот приходит на дубликат какой-то страницы и и с помощью редиректа появляется на нужном нам оригинальном документе сайта. Его то он и начинает изучать, пропуская дубль вне поля своего зрения.

Со временем после прописки всех вариантов этого редиректа, склеиваются одинаковые страницы и дубли со временем выпадает с индекса. Поэтому этот вариант отлично чистит уже проиндексированные ранее дубли страниц. Если Вы решите воспользоваться этим методом, то обязательно перед пропиской правил в файле .htaccess, изучите синтаксис создания редиректов. Например, рекомендую для изучения руководство по 301-му редиректу от Саши Алаева.

Создание канонической страницы

Данный способ используется для указания поисковой системе того документа из всего множества его дублей, который должен быть в основном индексе. То есть такая страница считается оригинальной и участвует в поисковой выдаче.

Для ее создания необходимо на всех страницах дублей прописать код с урлом оригинального документа:

Конечно, прописывать все это вручную тяжковато. Для этого существуют различные плагины. Например, для своего блога, который работает на движке ВордПресс, я указал этот код с помощью плагина «All in One SEO Pack». Делается это очень просто — ставиться соответствующая галочка в настройках плагина:

К сожалению, вариант с канонической страницей не удаляет дубли страниц, а только предотвращает их дальнейшее появление. Для того, чтобы избавиться от уже проиндексированных дубликатов, можно использовать следующий способ.

Директива Disallow в robots.txt

Файл robots.txt является инструкцией для поисковых систем, в которой им даются указания, как нужно индексировать наш сайт. Без этого файла поисковый робот может дотянуться практически до всех документов нашего ресурса. Но такая вольность поискового паука нам не нужна — не все страницы мы желаем видеть в индексе. Особенно это кассается дублей, которые появляются благодаря не соврешнеству шаблона сайта или наших ошибок.

Вот поэтому то и создан такой файл, в котором прописываются различные директивы запрета и допуска индексации поисковым системам. Запретить сканирование дублей страниц можно с помощью директивы Disallow:

При создании директивы тоже нужно правильно составлять запрет. Ведь если ошибиться при заполнении правил, то на выходе может получиться совсем не та блокировка страниц. Тем самым мы можем ограничить доступ к нужным страницам и дать просочиться другим дублям. Но все же здесь ошибки не так страшны, как при составлении правил редиректа в .htaccess.

Запрет на индексацию с помощью Disallow действует для всех роботов. Но не для всех эти запреты позволяют поисковой системе убирать из индекса запрещенные страницы. Например, Яндекс со временем удаляет блокированные в robots.txt дубли страниц.

А вот Google не будет очищать свой индекс от ненужного хлама, который указал веб-мастер. К тому же директива Disallow не является гарантом этой блокировки. Если на запрещенные в инструкции страницы идут внешние ссылки, то они со временем появятся в базе данных Гугла.

Избавляемся от дублей, проиндексированных в Яндексе и Google

Итак, с различными методами разобрались, пришло время узнать пошаговый план удаления дубликатов в Яндексе и Гугле. Перед тем, как проводить зачистку, необходимо найти все дубли страниц — об этом я писал в прошлой статье. Нужно перед глазами видеть, какие элементы адресов страниц отражены в дублях. Например, если это страницы с древовидными комментариями или с пагинацией, то мы фиксируем содержащие в их адресах слова «replytocom» и «page»:

Топ-пост этого месяца:  Продвигаем свой сайт

Замечу, что для случая с replytocom можно взять не это словосочетание, а просто вопросительный знак. Ведь он всегда присутствует в адресе страниц древовидных комментариев. Но тогда нужно помнить о том, что уже в урлах оригинальных новых страниц не должно быть символа «?», иначе и эти станицы уйдут под запрет.

Чистим Яндекс

Для удаления дублей в Яндексе создаем правила блокировки дубликатов с помощью директивы Disallow. Для этого совершаем следующие действия:

  1. Открываем в Яндекс Вебмастере специальный инструмент «Анализ robot.txt».
  2. Вносим в поле директив новые правила блокировки дублей страниц.
  3. В поле «список URL» вносим примеры адресов дубликатов по новым директивам.
  4. Нажимаем кнопку «Проверить» и анализируем полученные результаты.

Если мы все верно сделали, то данный инструмент покажет о наличии блокировки по новым правилам. В специальном поле «Результаты проверки URL» мы должны увидеть красную надпись о запрете:

После проверки мы должны отправить созданные директивы по дублям в настоящий файл robots.txt и переписать его в директории нашего сайта. А далее нам просто нужно подождать, пока Яндекс автоматически не выгребет из своего индекса наши дубли.

Чистим Google

С Гуглом не все так просто. Запретные директивы в robots.txt не удаляют дубли в индексе этой поисковой системы. Поэтому нам придется все делать своими силами. Благо для этого есть отличный сервис Google вебмастер. А конкретно нас интересует его инструмент «Параметры URL».

Именно благодаря этому инструменту, Google позволяет владельцу сайта сообщить поисковику сведения о том, как ему нужно обрабатывать те или иные параметры в урле. Нас интересует возможность показать Гуглу те параметры адресов, страницы которых являются дублями. И именно их мы хотим удалить из индекса. Вот что нам нужно для этого сделать (для примера добавим параметр на удаление дублей с replytocom):

  1. Открываем в сервисе Гугла инструмент «Параметры URL» из раздела меню «Сканирование».
  2. Нажимаем кнопку «Добавление параметра», заполняем форму и сохраняем новый параметр:

В итоге у нас получается прописанное правило для пересмотра Гуглом своего индекса на наличие дублированных страниц. Таким образом дальше мы прописываем следующие параметры для других дубликатов, от которых хотим избавиться. Например, вот так выглядит часть моего списка с прописанными правилами для Гугла, чтобы он подкорректировал свой индекс:

На этом наша работа по чистке Гугла завершена, а мой пост подошел к концу. Надеюсь, эта статья принесет Вам практическую пользу и позволит Вам избавиться от дублей страниц Ваших ресурсов.

Дубли страниц на сайте

Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства.

Что такое дубли страниц?

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Дубли:

  • с доменом, начинающимся на www и без www, например, www.site.ru и site.ru.
  • со слешем в конце, например, site.ru/seo/ и site.ru/seo
  • с .php или .html в конце, site.ru/seo.html и site.ru/seo.php

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Какими бывают дубликаты?

Перед тем, как начать процесс поиска дублей страниц сайта, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют:

  • Полные дубли — когда одна и та же страница размещена по 2-м и более адресам.
  • Частичные дубли — когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress обычно дублей страниц нет, а вот Joomla генерирует огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Влияние дублей на продвижение сайта

  • Дубли нежелательны с точки зрения SEO, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Как найти дубли страниц

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Программа XENU (полностью бесплатно)

Программа Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и метаописаниям.

Программа Screaming Frog SEO Spider (частично бесплатна)

Адрес программы https://www.screamingfrog.co.uk/seo-spider/. Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Сам ей пользуюсь.

Программа Netpeak Spider (платная с триалом)

Ссылка на программу Netpeak Spider. Еще один программный сканер для анализа ссылок сайта с подробным отчетом.

Яндекс Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование > Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

Google Search Console

В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске > Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и метаописания. Вероятнее всего это дубли (частичные или полные).

Язык поисковых запросов

Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google и Yandex) и поискать дубли «глазами».

Сервисы онлайн

Есть сервисы, который проверяют дубли страниц на сайте онлайн. Например, сервис Siteliner.com (http://www.siteliner.com/). На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

Удаление дублей страниц сайта

Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:

  1. Их физическому удалению — хорошее решение для статических дублей.
  2. Запрещению индексации дублей в файле robots.txt — подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.
  3. Настройке 301 редиректов в файле-конфигураторе «.htaccess» — хорошее решение для случая с рефф-метками и ошибками в иерархии URL.
  4. Установке тега «rel=canonical» — лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.
  5. Установке тега «meta name=»robots» content=»noindex, nofollow»» — решение для печатных версий, табов с отзывами на товарах.

Чек-лист по дублям страниц

Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.

Как найти и удалить дубли страниц на сайте

Дубли – это страницы сайта с одинаковым содержимым, они могут полностью повторять контент друг друга или частично. Часто они становятся причиной низких позиций ресурса. Мы хотим рассказать, почему могут возникать дубли и как от них избавится.

Полные дубликаты могут возникать, когда страница доступна под несколькими адресами, то есть не выбрано главное зеркало или не настроен 404 редирект. Часто их автоматически создает CMS в процессе разработки.

Частичные дубли часто получаются в результате ошибки разработчика или из-за особенностей CMS. Это могут быть страницы пагинации и сортировок с разными URL или ошибочно открытые для индексации служебные страницы.

В чем опасность

По сути, страницы одного сайта начинают соперничать друг с другом. Google и Яндекс не хранят в собственной базе несколько идентичных страниц, а выбирают только одну, наиболее релевантную. Они могут выбрать копию нужной вам страницы, в результате чего, позиции резко проседают. Из-за дубликатов страдают поведенческие факторы и естественный ссылочный вес, становится труднее собирать статистические данные.

Если дубликатов много, то поисковик может попросту не успеть проиндексировать их полностью. При этом следующей индексации придется ждать дольше, так как поисковые боты реже переходят на ресурс, где контент повторяется. А это также значительно замедляет продвижение.

Как найти дубли страниц

Сервисы для вебмастеров

Существует несколько способов. Наиболее простой – воспользоваться сервисами Google Search Console или «Яндекс.Вебмастер». Распознать дубликаты проще всего по повторяющимся метатегам title и description.

Для этого в панели инструментов Search Console перейдите в раздел «Оптимизация HTML» пункт «Повторяющееся метаописание», где будет указано количество таких страниц, а также их URL.

В вебмастере Яндекса, страницы с одинаковым метаописанием можно найти в разделе «Индексирование», а именно «Вид в поиске», где необходимо выделить исключенные страницы и выбрать категорию «Дубли».

Существует также много других сервисов для подобных задач, например Netpeak Spider или Screaming Frog. С их помощью можно получить полный список адресов страниц и автоматически выделить среди них те, у которых совпадают метатеги.

При помощи операторов ПС

При помощи оператора site: для Google или host: для Яндекса, можно вручную искать повторяющийся контент на страницах поисковой выдачи. Для этого введите в поисковую строку оператор перед адресом вашего сайта, а дальше нужный отрывок текста в кавычках (site:address.com”…”). Таким образом вы сможете отыскать не только полные, но и частичные дубли.

Если использовать оператор с адресом без текста, в выдаче вы увидите все проиндексированные страницы собственного ресурса. По одинаковым заголовком можно легко определить копии.

Как исправить

Удалить вручную. Подходит для борьбы с полными копиями, которые возникли в результате ошибок. Для этого достаточно найти их URL и удалить при помощи CMS.

Закрыть от индексации. Для этого в файле robot.txt следует использовать директиву disallow. Таким образом вы сможете закрыть индексацию указанных типов страниц.

При помощи тега rel=canonical. Позволяет решить проблему с разными адресами страниц пагинации и др.

Настроить редирект 301. Редирект перенаправляет со всех похожих URL на один основной.

Как борются с дубликатами в Elit-Web

Когда к нам на продвижение приходят сайты, разработанные не у нас, технические ошибки, в том числе дубли, – один из первых пунктов проверки.

Многим не удается найти все копии страниц. Автоматический поиск осуществляется исключительно по метатегам. А чтобы искать при помощи контента, необходимо знать, какой именно текст может повторятся. Потому даже после работ по внутренней оптимизации, могут остаться ошибки.

Мы устраняем ошибки, используя все доступные методы проверки. Также наши специалисты ориентируются на саму специфику CMS и работ, проведенных на сайте, чтобы удостоверится, что на сайте не осталось дублей. А потому если у вас возникли проблемы с продвижением, мы уверены, что сможем помочь.

Как избавиться от дублей страниц WordPress

Table of Contents

Что такое дубли страниц?

Очень часто владельцы wordpress сайтов начинают беспокоиться, если не понимают из-за чего отдельные страницы проваливаются в выдаче. Причиной тому могут быть дубли страниц. Это страницы, содержащие материалы с идентичным или похожим контентом. Речь о страницах архивов дат, рубрик, авторов и комментариев. При этом они могут располагаться под разными адресами, что позволяет дублям конкурировать с основной статьей за место в поисковой выдаче. В этом материале мы расскажем как избавиться от дублей страниц.

Создание дублей страниц на сайте

Как мы уже рассказывали ранее, дубли одной конкретной страницы, где размещена одна конкретная статья создаются и в архивах дат, и в рубриках или категориях (могут называться по-разному), а также на страницах с комментариями. Благодаря этому пользователи могут сортировать посты и находить по определенным критериям нужные. Система делает это автоматически.


Давайте посмотрим как это выглядит на примере архива дат. Предположим нам нужно выбрать все статьи за ноябрь. На главной странице сайта кликните на ссылку в виджете с указанием месяца.

Кликнув на ссылку «ноябрь 2020» перед вами появится список из статей, которые были сделаны за указанный месяц. Вот наглядный пример того, что под архивы дат wordpress создает отдельную страницу. Вспоминаем про индексацию лишних страниц поисковиком и об ее негативных для продвижения последствиях. Подробнее мы рассказывали в статье о том, как удалить страницы вложений в wordpress.

Дубли в комментариях

При работе с комментариями вебмастерам следует учитывать, что как таковые, дубли страниц создаются при наличии древовидной системы обсуждения. В том числе если обсуждений очень много и комментариям не хватает места на одной странице, то часть их перемещается на следующие. И в этом случае вам необходимо удалить дубли страниц в wordpress, иначе проиндексированные страницы станут своеобразной ловушкой для пользователей. Они просто попадут на страницу комментариев статьи, а не на саму статью, после чего посетители, скорее всего покинут сайт. SEO-продвижение явно пострадает от большого количества отказов.

Как удалить дубли с помощью плагина WordPress

Чтобы не разбираться с провалами в поисковой выдаче, лучше заранее провести профилактическую работу. А именно удалить дубли страниц в wordpress. Мы предлагаем вам воспользоваться плагином оптимизации сайтов Clearfy. В его арсенале большой спектр полезных функций для удаления дублей страниц. Скачайте данное приложение и установите, так мы сможем рассказать о всех фичах более предметно.

После активации перейдите в меню настроек плагина: «Настройки» => «Clearfy меню» =>

=> далее раздел «SEO» (в левом боковом меню плагина) => вкладка «Дубли страниц»

Начнем по порядку, с удаления архивов дат. Здесь стоит сразу уточнить, что удалять дубли в буквальном смысле мы не будем. Их просто отключат от индексирования. И это важнее, чем избавиться фактически от копий страниц. Если дубликаты не видит поисковик, значит пользователь перейдет на основную, нужную вам для продвижения страницу и не заблудится в многообразии ссылок-клонов. Чтобы запустить функцию нажмите кнопку ВКЛ.

С архивом автора, ситуация такая же, как и с архивом дат: дубли не удаляются, а отключаются от индексации. Также ставится редирект с дубля на основную страницу. Активируйте и эту функцию.

Чтобы удалить метки архивов, нужно поставить редирект со страниц тегов на главную. Для этого активируйте функцию ниже. Аналогично предыдущим. Обратите внимание на серую метку со знаком вопроса. Она указывает на то, что негативных последствий настройка не вызовет.

Для каждой фотографии или видео wordpress создает отдельную «страницу вложений» с возможностью комментирования, что является своеобразным якорем оптимизации. Подробней об этом мы говорили в предыдущей статье. Нажимаем кнопку ВКЛ.

Если у вас на сайте пагинация настроена таким образом, что контент размещается сразу на нескольких страницах, то в конце URL, в том или ином виде, будет добавляться порядковый номер каждой страницы. Clearfy же, предложит вам удалить постраничную навигацию записей. То есть каждая страница одной статьи будет редиректиться на основную. Нажмите кнопку ВКЛ.

Если у вас настроены древовидные комментарии, то их иерархия создаст благоприятные условия для создания копий страниц. Выглядит это так: вы отвечаете на чей-то комментарий и одновременно в URL появляется переменная ?replytocom – это значит, что поисковик видит в этом не ответ на комментарий, а отдельную страницу, так как адрсе отличается. Удалить дубли страниц в wordpress и выполнить редирект вы можете активировав данную функцию.

Заключение

Время и силы, затраченные на продвижение сайта или отдельных статей могут уйти впустую. Если не позаботиться об удалении дублей страниц заранее. Они индексируются поисковиком и могут составить конкуренцию основным статьям. После прочтения данной статьи мы надеемся, что вы оценили весь спектр представленных функций и теперь вам будет несложно удалить дубли страниц в wordpress.

Пагинация и SEO: нужно ли закрывать постраничную навигацию от индексации

Привет, друзья. Тут недавно в Фейсбуке возникло обсуждение на тему постраничной навигации (пагинации) с целью сформировать какую-то единую точку зрения на то, что делать с такими страницами на сайте: как правильно их оформлять, открыть их для индексации или лучше закрывать. Если открывать, то что при этом надо учесть, уникализировать заголовки или оптимизировать каждую страницу. И вообще полезно ли держать эти страницы открытыми? А если закрывать, то каким именно способом: robots.txt, meta robots, canonical.

Вопросов очень много и, к сожалению, к единому мнению мы так и не пришли. Многое зависит от конкретной ситуации, от технических возможностей и материальных вложений в доработки.

Я же хочу рассмотреть все возможные варианты, их плюсы и минусы, а также предостеречь вас от очевидных ошибок, в которых разногласий быть не может.

Итак, пагинация – это постраничная навигация на страницах каталогов или категорий (смотря о каком типе сайта речь), и возникает она в том случае, когда все товары или другие элементы не помешаются на одной странице, и чтобы посмотреть следующий список элементов, приходится переходить на вторую страницу и далее. Уверен, каждый из вас это видел: пагинация есть на страницах поисковых систем, в интернет-магазинах, досках объявлений и т. д.

Вот пример блока со страницами навигации на моем блоге:

Пользователи к этому привыкли и не видят проблем в такой навигации, а вот для вебмастера не все так однозначно, потому что, если визуально это выглядит всегда одинаково, внутри может работать совершенно по-разному, следовательно, и поисковые роботы могут воспринимать это тоже по-разному.

Вот какие у нас есть варианты и соответствующие требования:

  • Оставить страницы пагинации для индексации:
    • Факты:
      • Уникализировать title,
      • Не дублировать seo-текст с первой страницы,
      • Не дублировать главную страницу категории со страницей page/1/.
    • Вопросы:
      • Надо ли использовать атрибуты next/prev?
      • Надо ли уникализировать h1?
      • Что делать с description для пагинации?
  • Закрыть пагинацию от поисковых систем:
    • Способы:
      • Закрыть в robots.txt,
      • Закрыть мета-тегом robots,
      • Использовать canonical.
    • Вопросы:
      • А может лучше использовать X-Robots Tag?
      • Можно ли использовать несколько методов одновременно?
      • Надо ли уникализировать закрытые от индексации страницы?
  • Другие вопросы, связанные с пагинацией:
    • На что влияет кнопка «Показать еще» и AJAX подгрузка контента?
    • Важно ли наличие ЧПУ для страниц пагинации?
    • Можно ли продвигать страницы пагинации?
    • Сколько товаров выводить на странице?

Как видите, вариантов много, вопросов тоже достаточно. Я предлагаю все это подробно разобрать, в результате чего вы сможете выбрать подходящий для себя вариант. А если не сможете, то я обязательно поделюсь вариантом, который предпочитаю лично я.

Очень часто страницы пагинации становятся причиной появления дублей title у сайта. А это, как известно, нарушение, и не приветствуется поисковыми системами. Выявить наличие или отсутствие дублей заголовков вы можете любой программой-краулером, например, ComparseR. Хотя если страницы пагинации у вас закрыты от индексации, вы не увидите дубликатов при стандартных настройках программы, но их не увидит и робот ПС.

В последнее время проблем с дублями все меньше, потому что большинство свежих версий движков из коробки уникализируют заголовки, но, если у вас старая версия, провериться все же стоит.

Давайте разберем каждый из вариантов и ответим на вопрос: оставлять или закрывать страницы пагинации для индексации.

Оставить страницы пагинации в индексе

Лично мне нравится такой вариант больше всех, и я использую его на своих личных проектах.

И если мы решили оставить страницы пагинации, нам надо выполнить несколько важных условий:

  1. Надо уникализировать заголовок title у всех страниц пагинации. Первая страница, она же главная страница категории, будет иметь какой-то оптимизированный заголовок, например: «Купить холодильник в Краснодаре недорого – интернет-магазин Холодос». Тогда для всех последующих страниц, начиная со второй и далее, заголовок будет с приставкой « – страница X», вот так: «Купить холодильник в Краснодаре недорого – интернет-магазин Холодос – страница 2».
  2. Описанный выше вариант самый простой и распространенный. Но его можно модифицировать, чтобы стало еще лучше и красивее. Например, подставлять в title пагинаций не весь title целиком, а брать только название категории (часто это переменная, которая подставляется в H1), вот так: «Холодильники – страница 2». Я называю это деоптимизацией title. Это нужно, чтобы страницы пагинации никак не мешали первой странице категории, поэтому делаем заголовок неоптимизированным, менее релевантным.
  3. Если вдруг у нас есть в категории какое-то описание или seo текст, он не должен дублироваться, то есть его нельзя повторять на всех страницах, он должен оставаться только на главной странице категории.
  4. Нельзя допускать дублирования главной страницы категории по адресам типа site.ru/category/holodolnik и site.ru/category/holodolnik/page/1 (или site.ru/category/holodolnik?page=1 в зависимости от технических особенностей движка). Это решается 301 редиректом со страниц page/1 (page=1 и т.п.) на url без них.

Это действия, которые необходимо сделать если вы решили оставлять страницы пагинации в индексе.
Но есть и менее очевидные вещи, которые находятся под вопросом:

  1. Надо ли менять h1 на страницах пагинации? Вопрос интересный, но лично я этого не делаю, я дублирую на всех страницах навигации один и тот же заголовок (в отличие от дублирования title — это не есть нарушение). И в целом очень редко встречаю сайты, где в H1 добавляется приставка «- страница X». Это не хорошо и не плохо, можете делать так, как вам нравится.
  2. Надо ли использовать атрибуты
  3. и
  4. ? Раньше Google поддерживал эти теги и рекомендовал их использовать для страниц пагинации, но весной 2020 года внезапно сообщили, мол: «Мы упразднили атрибуты rel=prev/next, потому что исследования показали, что пользователи любят одностраничный контент».

As we evaluated our indexing signals, we dec >Studies show that users love single-page content, aim for that when possible, but multi-part is also fine for Google Search. Know and do what’s best for *your* users!

Это заявление не запрещает использовать данные директивы, но и поисковик их учитывать больше не будет.
Что касается Яндекса, то он никогда и не поддерживал атрибуты next и prev, о чем свидетельствует комментарий Платона от 2020 года:

Учитывая, что сама публикация, к которой оставлен данный комментарий, датирована 2015 годом и вопрос об next и prev там поднимался не раз, вряд ли что-то изменится когда-либо. Поэтому целенаправленно настраивать данные атрибуты не нужно, но и удалять, если ваш движок их выводит, нет смысла.

  • Последнее, с чем осталось разобраться, если мы решили оставить страницы пагинации открытыми для индексации – надо ли уникализировать метатег description? Лично я вообще удаляю этот метатег со страниц пагинации, чтобы его не было в коде. Как вариант – можно оставить его пустым. Еще один вариант – добавлять в него приставку «- страница X», как для title. Выбирайте то, что вам больше нравится, любой из этих вариантов приемлемый.
  • Теперь я объясню, почему я выбираю для себя вариант держать пагинацию открытой для поисковиков.

    Чтобы не оставлять страницы товаров, которые находятся не на первой странице каталога, без ссылочных связей и не портить индексацию. Конечно, ссылки на товары могут встречаться в других категориях или фильтрах, появляться в перелинковке в блоке похожих товаров, но, как правило, это неконтролируемый процесс, поэтому какие-то товары могут остаться не у дел. Если оставить пагинацию открытой, то поисковый робот всегда сможет добраться до всех страниц и до всех товаров, которые у нас есть, так что вероятность, что товары будут выпадать из индекса из-за недостатка ссылочного веса, снижается.

    Закрыть от индексации страницы пагинации

    Данный вариант не плохой, сторонников его использования не меньше, чем первого (это как iOS vs. Android, Canon vs. Nikon и т. д.), поэтому и единого мнения на счет пагинации никогда не будет, в каждом методе есть свои преимущества.

    И если вы решили закрыть страницы пагинации, у вас есть несколько способов:

    1. Закрыть индексацию страниц через robots.txt. Например, директивой Disallow: */page/ или Disallow: /*page= (в зависимости от технической реализации в CMS). Это самый плохой способ избавиться от пагинаций, и я не рекомендую вам его использовать. Потому что тогда робот точно не будет заходить на закрытые страницы, карточки товаров в глубине каталога будут плохо индексироваться, а при всем при этом ссылки на страницы пагинации могут появляться в выдаче Google (он показывает в выдаче даже закрытые страницы, но с пометкой, что они закрыты).
    2. Закрыть страницы при помощи . Этот метод также закроет страницы от поисковиков, как и предыдущий, только Google уже не будет выводить ссылки на такие страницы, то есть все будет чисто. Но проблема с тем, что товары из глубины каталога будут страдать останется. Можно использовать сочетание директив content=»noindex,follow» при которых робот не будет добавлять страницы в индекс, но будет переходить по ссылкам, содержащимся на данных страницах, но проблему с товарами из глубины каталога это не решает.
    3. Использовать rel=»canonical» с указанием главной страницы категории для страниц пагинации. Это самый лучший вариант избавиться от пагинации в индексе. Если мы будем использовать канонический адрес, например,
    4. на всех страницах пагинации, то поисковики будут заходить на все страницы, будут обходить ссылки на этих страницах, при этом сами страницы пагинации в индекс не попадут.

    Вариант с использованием canonical является единственным приемлемым среди сторонников избавления от лишних страниц пагинации. Этим же вариантом чаще всего пользуются и ребята в нашей студии при работе с клиентскими сайтами.

    У Яндекса есть публикация в блоге для вебмастеров от 29 декабря 2015 года «Несколько советов интернет-магазинам по настройкам индексирования» и в ней раздел «Что делать со страницами пагинации товаров», где рекомендуется использовать каноникал:

    Если в какой-либо категории на вашем сайте находится большое количество товаров, могут появиться страницы пагинации (порядковой нумерации страниц), на которых собраны все товары данной категории. Если на такие страницы нет трафика из поисковых систем и их контент во многом идентичен, то советую настраивать атрибут rel=»canonical» тега
    на подобных страницах и делать страницы второй, третьей и дальнейшей нумерации неканоническими, а в качестве канонического (главного) адреса указывать первую страницу каталога, только она будет участвовать в результатах поиска.

    Например, страница сайт.рф/ромашки/1 — каноническая, с неё начинается каталог, а страницы вида сайт.рф/ромашки/2 и сайт.рф/ромашки/3 — неканонические, в поиск их можно не включать. Это не только предотвратит возможное дублирование контента, но и позволит указать роботу, какая именно страница должна находиться в выдаче по запросам. При этом ссылки на товары, которые находятся на неканонических страницах, также будут известны индексирующему роботу.

    Но не стоит забывать, что указание канонической страницы – это не строго правило, а лишь рекомендация для поискового робота. Если страницы полные дубли друг друга, то склейка неканонической страницы с канонической произойдет, а если есть различия, то поисковик сможет поступать так, как посчитает нужным, и результат будет непредсказуемым.

    Так что в последнее время появляется все больше вопросов, когда неканонические страницы попадают в индекс и ранжируются. Подтверждением тому служит пост Яндекса «Неканонические страницы в Поиске»:

    Часто на сайтах присутствуют страницы с разными URL, но с одинаковым или очень похожим содержанием. С помощью атрибута rel=«canonical» вебмастера могут указать, какая страница является «канонической» — предпочтительной для индексации и появления в результатах поиска. Остальные, неканонические версии как правило в поиск не попадают.

    Наши исследования показывают, что страницы, размеченные как неканонические могут быть полезны, а их наличие в поиске может влиять на качество и полноту ответа на запрос пользователя.

    В результате сайт не находится по запросу-цитате, соответствующей тексту за пределами первой странице. Поэтому теперь в поиске неканонические страницы будут появляться чаще.

    Они будут показаны в том случае, если они более релевантны запросу и их контент существенно отличался от канонической версии во время сканирования роботом.

    Несмотря на это, использование каноникала для страниц пагинации остается самым приемлемым вариантом для исключения их из индекса.

    Есть и еще один метод закрыть страницы от индексации, который я не указал в своем списке выше – это заголовок X-Robots Tag. По результатам он полностью идентичен использованию метатега robots и имеет аналогичные директивы: noindex, nofollow, nosnippet и т. д., однако робот узнает о правилах не в момент посещения страницы и изучения ее кода, а на уровне ответа сервера, когда только идет обращение к url-адресу. Данный метод самый сложный в реализации и отслеживании, поэтому практически никто им не пользуется для решения задач, типа нашей.

    Можно ли использовать несколько методов одновременно?

    Нельзя! Каждый из перечисленных выше методов – robots.txt, meta robots, canonical, x-robots – исключают использование друг друга, а срабатывать будет более строгое правило.

    Метатеги robots и HTTP-заголовки X-Robots-Tag обнаруживаются при сканировании URL. Если сканирование страницы запрещено файлом robots.txt, то директивы, касающиеся индексирования или показа контента, будут проигнорированы. Чтобы обеспечить обязательное выполнение директив, не следует запрещать сканирование URL, для которых они заданы.

    По аналогии: Если в коде одновременно будут meta robots noindex и canonical, то страница просто не будет индексироваться и дело до учета канонического адреса страницы не дойдет, так как meta robots – это правило, а canonical – всего лишь рекомендация.

    Надо ли уникализировать закрытые от индексации страницы?

    Не надо. В этом просто нет смысла. Если у страниц, которые вы запретили к индексации дублируются title заголовки, то нет смысла делать их уникальными, робот все равно не проиндексирует страницы, а значит не возникнет и проблем.

    Если вы будете уникализировать страницы, которые хотите склеить с помощью canonical, то они станут еще более отличные друг от друга и вероятность того, что они не будут склеены, повышается. Так что не надо этого делать.

    Пагинация на JS, кнопка «Показать еще» и AJAX подгрузка контента

    Замена классической системы навигации с перечнем страниц 1, 2, 3 … N встречается часто, вместо нее может быть одна кнопка «Показать еще», «Еще товары», «Следующая страница» и т. д. Согласен, что это довольно удобно с точки зрения юзабилити, особенно при работе с мобильных устройств. Кроме того, скорость отдачи контента выше, ведь приходится загружать только блок с карточками товаров вместо перезагрузки все страницы, как это происходит при классической пагинации.

    Не зря крупные сайты типа Яндекс.Маркета и других используют такую систему:

    Но обратите внимание, что кроме кнопки «Еще» дублируется и классическая навигация по страницам.

    Вот что сам Яндекс говорит на этот счет:

    Часто вместо пагинации сайты используют динамическую прокрутку, когда для посетителя, пролиставшего каталог до определённого момента, с помощью JavaScripts загружаются другие товары в данной категории. В такой ситуации необходимо проследить, чтобы весь контент таких страниц отдавался индексирующему роботу (например, с помощью инструмента в Яндекс.Вебмастере), либо чтобы роботу становилась доступна статическая пагинация товаров.

    То есть необходимо совмещать приятное (кнопка «Показать еще» для пользователя) и полезное (постраничная навигация для робота). Если же по какой-то причине классическая пагинация не вписывается в дизайн вашего сайта или есть другие причины ее не показывать, есть решение – оставить классическую пагинацию в коде страницы, а с помощью стилей “display:none” скрыть ее в дизайне. И все будут довольны 🙂

    Важно ли наличие ЧПУ для страниц пагинации?

    Нет. Не важно. На этот счет можно не заморачиваться и оставить все как есть, принципиальной разницы между:

    site.ru/category/holodolnik/page/2
    site.ru/category/holodolnik/?page=2
    site.ru/category/holodolnik/?PAGEN_1=2 и т. д.

    Нет никакой! Главное, чтобы и робот, и посетитель понимали, что это пагинация.

    Можно ли продвигать страницы пагинации?

    Технически можно, но вот нужно ли? В сети было несколько кейсов на этот счет, когда бралась какая-то категория магазина, кластер запросов для посадки на одну страницу был слишком большой и его разбивали на несколько кластеров и вели на страницы пагинации этой категории.

    Мое мнение – это из разряда каких-то извращений или «а смотрите, как я могу!». Во-первых, технические заморочки, чтобы обеспечить на страницах навигации настройку уникальных title, h1 и seo-текста. Во-вторых, чем плохи подкатегории, тегирование и seo-фильтры? Ничем не хуже, они даже лучше, так как более предсказуемы по содержанию и лучше отвечают на запросы пользователя, который попадает на главную страницу подкатегории/фильтра, а не на энную страницу общей категории.

    Сколько товаров выводить на странице?

    Вопрос и относится, и не относится к теме одновременно. Главным аргументом в данном вопросе будут результаты проведения коммерческого аудита сайта и сравнение с конкурентами. Можно изучить конкурентов по своим ВЧ-запросам из топа и посмотреть, сколько товаров на странице выводят они. Чтобы сильно долго не думать, можно взять медианное значение.

    Все вышесказанное относится не только к интернет-магазинам, на примере которых я вам рассказывал, но и к каталогам, доскам объявлений, агрегаторам, порталам и т. д., даже к информационным сайтам. Везде, где есть пагинация – данная информация будет применима!

    На этом все, друзья. Если у вас остались какие-то вопросы, задавайте их в комментариях.

    Как найти дубли страниц на сайте

    Одна из основных причин, по которой сайт может терять позиции и трафик — возрастающее количество дублей страниц на сайте. Они могут возникать в результате особенностей работы CMS (движка), желании получить максимум трафика из поиска за счет шаблонного увеличения количества страниц на сайте, а также из-за сознательного или несознательного размещения ссылок третьими лицами на ваши дубли с других ресурсов.

    Проблема дублей очень тесно перекликается с проблемой поиска канонического адреса страницы поисковым анализатором. В ряде случаев робот может определить канонический адрес, например, если в динамическом URL был изменен порядок параметров:

    По сути, это та же страница, что и

    Но в большинстве случаев, особенно при использовании ЧПУ , каноническую страницу определить сложно, поэтому, полные и частичные дубли попадают в индекс.

    Что интересно, для Яндекса дубли не так страшны, и даже на страницы результатов поиска по сайту (которые являются частичными дублями друг друга) он может приносить хороший трафик, но вот Google к дублям относится более критично (из-за борьбы с MFA и шаблонными сайтами).

    Основные методы поиска дублей на сайте

    Ниже описаны основные методы, с помощью которых можно быстро найти дубли страниц своего сайта. Используйте их периодически.

    1. Гугл-вебмастер

    Зайдите в панель Google для вебмастеров. Найдите раздел меню «Оптимизация» – «Оптимизация HTML». На этой странице можно увидеть количество повторяющихся мета-описаний и заголовков TITLE .

    Таким способом можно найти полные копии страниц, но к сожалению, не определить частичные дубли, которые имеют уникальные, однако, шаблонные заголовки.

    2. Программа Xenu

    Xenu Link Sleuth — одна из популярных программ оптимизаторов, которая помогает проводить технический аудит сайта и, в том числе, находить дублирующиеся заголовки (если, например, у вас нет доступа к Google-Вебмастеру).

    Подробней об этой программе написано в обзорной статье по этой ссылке. Просто просканируйте сайт, отсортируйте результаты по заголовку и ищите визуальные совпадения заголовков. При всем удобстве, данный способ имеет тот же недостаток — нет возможности найти частичные дубли страниц.

    3. Поисковая выдача

    Результаты поиска могут отразить не только сам сайт, а также некое отношение поисковой системы к нему. Для поиска дублей в Google можно воспользоваться специальным запросом.

    Где составляющими являются:

    site:mysite.ru — показывает страницы сайта mysite.ru, находящиеся в индексе Google (общий индекс).

    site:mysite.ru/& — показывает страницы сайта mysite.ru, участвующие в поиске (основной индекс).

    Теперь, когда вы нашли все дубли страниц, можете их смело удалять, откорректировав движок сайта или добавив тег rel=canonical в заголовки страниц.

    Читайте также

    288 ответа (оставить свой)

    Спасибо Сергей. Узнал что то новое. Не знал про запрос site:mysite.ru/& Раньше думал все что в индексе участвует в поиске ��

    Если верить этому коду у меня дублей нет, вроде ничего не делала

    А на всех ли ЦМС ках дубли есть? К примеру, на Word Presse есть?

    Дубли есть во всех CMS так как в них по умолчанию создаются дополнительные страницы. Например, страницы тегов, последних новостей, версии для печати, ТОП -новости, Архивы, Закладки пользователей – все это дубли. Не говоря уже о динамических УРЛ ах, кишащих дублями. Если все это не отсеять в Роботс или в поисковиках, они могут пройти в выдачу и подменить главные страницы с контентом.

    На вордпресс есть отличный плагин Clearfy. Установил, по галочкам пробежался и все. После этого плагина дублей просто не остается. Проверено на десятке проектов.

    Спасибо за хорошую статью. Хотелось бы подробнее про методы борьбы с дублями.

    Анатолий, на вордпресс в первую очередь и очень много, не зря же сео плагины позволяют почистить половину индексируемых страниц с помощью нофоллоу

    Да, сколько работаю с Вордпрессом, дублей там действительно много, их нужно устранять либо роботсом, либо плагинами…

    И в WordPress и в Joomla много дублей. Да и в других cms немало. Поэтому нужно тщательно составлять robots.txt, ставить плагины избавляющие от дублей, использовать тег rel=“canonical” или 301 редирект. А за статью спасибо, освежил память.

    Проверил свой сайт на вордпрессе последним методом, обнаружились только страницы запрещенные robots.txt, и они так же находятся в основном индексе гугла. Может знает кто, как их убрать из основного индекса, буду премного благодарен. Или это не так критично?

    По началу не придавал значения дублям страниц, затем получил АГС и полностью пересмотрел сайтостроение. теперь в индексе только нужные страницы.

    Спасибо, очень познавательный материал для меня, не знал, что в гугл мастер такую информацию можно почерпнуть

    Зашел в панель вебмастера и получил вот такое сообщение:

    Оптимизация HTML Последнее обновление 25.10.2012 Мы не обнаружили никаких проблем с содержанием вашего сайта.

    Это значит, что я могу спать спокойно?

    А как же сервисы?
    сайтрепорт.рф
    audit.megaindex.ru

    Ок. А что если rel=canonical прописан, явно мусорные хвосты отсекаются в htaccess, в robots.txt наглухо закрыто лишнее, но они все равно висят в выдаче уже полгода? Причем более 30% уже ФИЗИЧЕСКИ удалено и выдают при клике с гуглового серпа просто 404 (заголовок проверен – нормальный 404). Вот и как тут быть?

    Очень полезная и правильная статья. Но с одним хочу не согласиться. Для Яши дубли еще опаснее. В результате сбоя нашей CMS на одном из сайтов статьи стали доступны по нескольким адресам без параметров …/x-page и …/admin/x-page Тут же получили АГС . После устранения дефекта из-под АГС вышли. Просто Яша практически не индексирует страницы с параметрами и не замечает дублей, зависящих от параметров

    >>для Яндекса дубли не так страшны

    Не всегда так. У меня на одном из продвигаемых сайтов часто вылетали из индекса страницы из-за дублей.

    А на мою CMS google выдает 0 шибок сканирования и дублей, все потому что лучшая CMS это та которую написал сам. И вообще использование ЧПУ и ноиндексом всего остального выход.

    Что-то тяжеловато мне разобраться в этом.

    А ели яндексбар показывает, что загружено 255, а в индексе 65 страниц – это нормально, или лишние нужно удалять. И в индексе показывает такие страницы, как Название сайта- Part 2 . Я так понимаю их делает плагин постраничной навигации. Эти страницы считаются дублями?

    Перевожу один из статических сайтов на джумлу, статические страницы все яндекс выдаёт на первых местах, а вот страницы из длжумлы вообще не находит. Правда пока не ужалил полностью статические страницы. Спасибо за статью, в будущем поможет.

    часто дубли бывают очень серьёзной проблемой для сайта и никогда точно не знаешь есть они у тебя или нет.

    После проверки в гугле, выдались повторяющиеся заголовки типа проект3, проект4, и т.д. Вроде ж не страшно?

    Пользовался раньше Ксену, но вариант с site:mysite.ru -site:mysite.ru/& – это конечно куда элегантнее)

    Поставил на wordpress один знаменитый сео плагин и теперь все что пишу,все страницы сразу уходят в сопли гугла.Хорошо я вовремя обратил внимания на тот факт что страницы индексируются не в основную выдачу гугла и снес плагин.Теперь веду только ручные работы по оптимизаций сайта во избежании дублирования страниц

    ХЕЛП !
    У меня такая проблема с моим сайтом.
    Заплачу умельцу, который поможет решить эту проблему.
    Если таких знаете, передайте пожалуйста мой емейл: vipicГАВmail.ru


    Кстати, в google.com/webmasters -> Оптимизация -> Удалить URL
    можно и почистить индекс, можно как отдельные страницы так и целые коталоги

    Можно еще через лапки искать “”.

    site:site.com.ua “часть искомого текста для поиска дублей”

    У владельцев блогов на блогспоте такие проблемы с дублями могут возникнуть из-за ввода Гуглом национальных доменов. Хоть Гугл и сделал их каноническими…

    Работаю в WordPress. Дубли действительно появляются и их много… Раньше пользовался site:_ -site:_/&, теперь попробовал сервис гугл. Действительно удобно. Спасибо.

    Ерунду пишет. Первым же пунктом вылезает полностью уникальная страница с товаром – неуником можно признать только тэги TITLE и H1, которые дублируются тэгом A со страницы категории

    а canonical всегда правильно интерпретируется поисковыми ботами? у меня был случай, когда в выдачу попали страницы комментариев, на которых происходило дублирование контента поста, хотя канонической была помечена страница с постом. правда потом все вернулось в прежний вид, но дубли в выдаче некоторое время висели

    Только недавно сам обнаружил что можно использовать Гугл-вебмастер.
    Вообще хочу сказать огромное спасибо.
    Думаю много кто согласится, что обязан успехом автору.

    Пользуюсь RDS -баром. Показывает “сопливый” индекс Гугла. И начинаешь просматривать все страницы ища подозрительные. Нашел и в панели вебмастера – на удаление. Но, это все борьба с ветряной мельницей “Гугл”. Роботс ему не указ – сосёт всё, по делу и без!

    Всё верно, только можно много проще “ RDS bar”

    даже не думал что дубликат странички может влиять на трафик

    Гугл – и Вебмастер, и через поиск – не указывает ВСЕ полные (или частичные) дубли – если часть страниц не проиндексирована.

    Полные дубли удобно искать Вебмастером, частичные через поиск. Но в поиске не удобно искать… Была бы ещё возможность получить rss-фид результатов поиска, или просто список юрлов в файле – цены бы гуглу не было б.

    Часто дубли не удается убрать из индекса с помощью панели вебмастера. Это происходит потому что нет 404 ответа сервера. Дубли ведь существуют на самом деле! Мало того, их бесконечное количество! Попробуйте в джумле сослаться так: ……& >

    буквально на днях использовала для аудита эту программу www.screamingfrog.co.uk/seo-spider/
    условно-бесплатная до 500 урлов.
    она подсчитывает hash value для всех страниц сайта, поэтому полные дубли найти легко, даже если их не видно в индексе по запросу site:

    Да, дубляж – это плохое дело. Но в Вордпрессе с этим злом проще бороться, а вот joomla вообще странная в этом вопросе, тяжело убрать дубли

    А как в вордпрессе с этим бороться? Плагин есть какой-то?

    Platinum SEO pack. В настройках указывается, что индексировать, а что нет. По крайней мере у меня все отлично работает

    Потихоньку развиваю несколько проектов, до прочтения этой статьи вообще не знал о существовании дублей страниц, тем более о том, что они могут быть причиной падения позиции. Спасибо за статью, буду дальше расшаривать инфо по этой теме.

    Пошла проверять свои сайты!
    Последнее время нас что-то Яндекс не любит…(

    Дубли необходимо постоянно “лечить”, а еще лучше настраивать движок так, что бы они не попадали в индекс, особенно больная тема это у интернет-магазинов.

    я никогда не парился на счёт дублей страниц. всегда использовал движок дле, у него с дублями страниц проблем нет.

    А как быть с дублями типа replytocom в WordPress, которые от древовидных комментариев? Они же в выдачу не попадают, но есть в дополнительном индексе. Стоит ли отказываться от древовидных комментариев.

    Да такая проблема есть на сайте , кто поможет решить ? стучите мне в асю.. 55070060семь

    На счет дублей могу сказать одно…
    Для всех цмсок в сети полно готовых роботсов и плагинов, тк тема старая и уже давно люди ей занимаются.
    Могу порекомендовать новичкам погуглить эту тему под свою цмс и будет счастье.

    ну меня эта проблема еще не коснулась, либо я просто о ней не знаю, надо будет проверить глянуть

    Xenu рулит. Всегда ей пользуюсь, никогда не подводила.

    Как сказать с проблемой такой не сталкивался, но мне посоветовали проверить. Не помню но проверял какой то прогой и после проверки был в шоке сколько дублей.

    У гугля в GWT можно задать значения переменных для сайта, то есть сказать что игнорировать, удалить дубли.

    Обезательно проверб свой сайт на дубли, а то никогда раньше не делал этого!

    Хороший способ, а главное простой, как-то не пользовался раньше в вебмастере этим инструментом.

    и не мучаться с дублями т.е. просто выбрать у себя главную страницу, остальное он сделает сам. Это явно проще чем отлавливать несколько неправильных и убирать их, а Яндекс вроде так и будет их есть как ел

    Воля ваша, как по мне поиск таких дублей – лишний перевод времени.
    Есть описанные роботсы для всех популярных движков, там лишние урлы сразу закрыты, всё что сверх того – от лукавого.

    Версии для печати, помню, раньше частенько выскакивали для многих сайтов, на так называемые “облегченные” версии веток некоторых форумов и сейчас обнаруживаю в выдаче параллельно с основными версиями.

    Я ради эксперимента делал сайт на wordpress с дублированием страниц. Уже больше года тому сайту. ТИЦ 20, PR 2 у главной, а у некоторых внутренних PR 3 и посетителей примерно 100 в сутки. В основном с гугла. Так что может и не такая проблема эти дубли.

    для чего нужны дубли?

    serg, дело как-раз в том, что они не нужны! От них нужно избавиться!

    Дубли проблема. Еще какая, страницы вылетают из поиска только успевай замечать. Страшнее правда когда они появляются вообще на других сайтах. Тогда речь уже идет о конкурентной войне.
    Спасибо за материал. Кстати, я тоже использую Xenu правда ее интерфейс как ни радовал, так и не радует.

    Очень интересная статья нашел для себя много полезного.

    Справляюсь с google вебмастером. У вордпресс есть проблема с дублями.

    А дупли сильно ухудшают позиции сайта или не на что не влияет?

    Как раз столкнулась с данной проблемой. В один прекрасный день 2 сайта сильно просели в выдаче. Долго билась в догадках, искала причину. А проблема оказалась в огромном количестве дублей( Позакрывала дубли – жду продолжения)

    У меня все наоборот. Есть два сайта, которые за дубли яндекс жестоко наказывает. А гугл относится к этому вполне снисходительно и дает на дубли неплохой трафик.

    У кого как, кому то дубли сильно вредят, кому то не очень, но я считаю, что следить за этим всё таки надо.

    Не знала, что это так критично. У самой есть – устраню.

    Очень интересная статья нашел для себя много полезного. Cool

    Так ли вредны дубли как про них говорят? Мне кажется, поисковые системы сами могут их прекрасно склеивать.

    Вообще в таких случаях надо искать причину, почему возникают ссылки на дубли страниц, нормальная ЦМС не будет создавать подобные ссылки, программо надо таки ошибки править, потом такие ссылки поисковики забудут.

    Здравствуйте, прочитал Вашу статью и у меня возник вопрос. Допустим я на своем сайте нашел дубли страниц, при этом я обнаружил дубли главной страницы, и несколько дублей внутренних. Проверил наличие этих страниц в яндексе и гугле тем способом, который вы описали в статье, через site: . Просмотрев все страницы, находящиеся в выдаче этих ПС, я не нашел в индексе найденных мною дублей страниц. Стоит ли мне копаться в движке что бы удалить эти страницы и даже если я их удалю, что я улучшу, если дубли и так не проиндексированы, да и ссылок со страниц в индексе на дублирующие нету? Спасибо

    Xenu рулит! Постоянно пользуюсь. Незаменимая программка.

    В интернете полно сайтов, которые делают такие задачи, как поиск дублей, битых ссылок и т.д. Нужно только погуглить)))

    Вообще дубли желательно то всегда удалять, но я в 95% случаев ленюсь это делать)

    А если сайт очень большой, порядка 500 000 страниц, сделан на Битриксе, как отследить дубли лучше всего? Руками через Гугл просто не вариант.

    нужна помощь, сайт пессимезируется гуглом из-за большого кол-ва дублей, контент уникальный(авто тематика), движок ВП, стандартные постоянные ссылки. Нужна помощь ребят. пишите – [email protected]

    stewe, а ты не думаешь, что причиной может быть отсутствие текстового контента в видеообзорах.

    Kiovo, как раз таки там есть текст. Это во-первых. А во-вторых есть и чистые статьи, которые все равно пессимизируются, т.к. дубли находит.

    Самое удобное, как оказалось – это гугл.

    «Таким образом, можно определить малоинформативные страницы и частичные дубли, которые не участвуют в поиске». Страницы с «этого» индекса, удачно участвуют в поиске, и занимают, да не но вторые места по «конкурентным» запросам — не вводите людей в заблуждение!

    Согласен с автором, что проблема дублей страниц может негативно отображаться на поисковой выдаче сайта.

    Еще бы Xenu Link Sleuth кроме технического анализа хотя бы рекомендации давала, тогда было бы толку от нее намного больше.

    в wordpress есть плагины специальные. вручную замучаешся все это делать

    Это может стать серьезной проблемой, надо бороться с дублями. Может, кто посоветует какую нибудь “прогу”? А то стольео мнений об этом прочитал…..

    Мне всегда было интересно, зачем блоггеры сами делают дубли на сайте? То есть добавляют статью сразу в несколько рубрик. Если можно добавить статью в одну рубрику, тем самым избежать дублирование контента. Или я чего то не понимаю? (Увеличение количества страниц в индексе для продажи ссылок в счет не берем)

    Большое спасибо, благодаря вашим урокам я стала “чуть-чуть” умнее . Можно сказать что рождение моего сайта-это ваша заслуга.

    Честно сказать не придавал особого значения дублям (хотя знал про их существование), но вот яша включил агс и начал искать причины. Попробую убрать, может поможет… Что-то я все больше разочаровываюсь в яше.

    Самый просто способ найти дубли – не создавать их. Причем ничего сложного нет, нужно просто не придумывать невменяемую перелинковку на сайте.

    пользуюсь вордпресом на блогах и про перелтнковку первый раз читаю тут =) не думаю что это такая уж страшная проблема хотя по линкам в гугл схожу проверюсь, авсь зараза прицепилась.

    А если сайт написан без применения каких либо движков, в таком случае дубли могут появиться?

    vista, правильный вопрос задал. Я как раз то же самое хотел спросить. Я сейчас делаю сайт без движка, дак вот, дубли могут появится?

    могут, если их ручками по создаешь, в отличии от CMS , которая их автоматом лепит

    На обычном HTML не бывает дублей. А вот вопрос ещё, какая CMS меньше дублей плодит, очень хотелось бы знать?

    Вот прочитал отзывы и сомнения появились, а может и у меня на сайте есть дубли, пойду проверять сайт.

    Да, помню программу Xenu – удобная вещь для поиска дублей

    даже не верится что это уже есть, обычно это приходит не сразу)

    У меня на сайте после добавления коммента появляется дубель ��
    Но все эти штуки в роботсе закрыл и не жалуюсь. ��

    Ха,не знал что такое может быть.Проверю!

    Да, недавно столкнулся с проблемой ненужных страниц. В Яше обнаружил части страниц и страницы Page. Тоесть есть урлы с директорией / attachment / – вложения. По переходу обнаруживаю страницу блога с картинкой. Page- это видимо от плагина постраничной навигации. Сначала мучился с ручным удалением, пишет, что невозможно, не настроена 404 ошибка. Короче – Все это в роботс запихнул))) Дальше погляжу…

    Xenu просто отличная программа, жаль что я о ней раньше не знал.

    Конечно, в WordPress есть дубли. Есть замечательный плагин find-duplicates, который сам анализирует записи в БД и предлагает вам различные варианты, что делать с дублированными записями.

    А плагин для WordPress какой-нибудь существует? Который работает через админку…

    А я только розбираюсь, что это такое( Какие говрите на wordpress плагины?

    А я ищу дубли таким способом: выбираю кусочек текста и потом копирую его в кавычках в поиск Гугла. Если на сайте такой текст дублируется – Гугл покажет все дубли.

    Если вводить “site:mysite.ru -site:mysite.ru/&” то как я понимаю в разных окнах и выискивать таким образом отличие по количеству страниц основного индекса от общего. Как я понимаю задача трудоемкая. А вот скрытые страница из поиска как понимаю вылетят через пару месяцев. ��

    Недавно обнаружил дубли на подавляющем количестве своих джумла – сайтов. Джумла генерирует бесконечное количество дублей своим стандартным чпу. Пример:
    Одна и та же страница будет открываться по
    site.ru/category/334-url
    site.ru/category/334-
    site.ru/category/334-sample_text
    То есть по любому юрлу, заполненному с помощью ID материала (в данном случае 334).
    Решние данной проблемы – использовать сторонние компоненты, либо специальный плагин, создающий 301 редирект дублей на оригинальный ЮРЛ .

    Пользуюсь CMS DLE , просто роботс грамотный сделать и все ок…

    У меня стоит вордпресс были активированы рубрики и тэги ,таким образом у меня получилось куча двойных страниц ,сейчас вообще всё по удалял и делаю сайт заново.Где то читал про плагины чтобы небыло склейки страниц а где не помню.

    А что делать, если теги(метки) на русском языке, прописанные в статьях, становятся отдельными страницами в Яндексе – 404 -ми ? Как с этим бороться?

    Xenu Link Sleuth отличная программа, частенько пользуюсь ей, рекомендую!

    Использую CMS LiveStreet, где количество повторов достаточно большое. Вопрос к автору, нужно ли исключать по маске из индекса такие вещи? Не убьёт ли сайт поисковые системы?

    а как бороться с дублями на Joomla. если ссылки есть дайте

    Я в свое время так намучился с дублем страницы. Участвова в одном из конкурсов и нужно было разместить изображение – я разместил на дублированных страницах, в результате страница которая должна была отображаться с картинкой – она не отражалась, а та что без картинки отражалась… обошлось тем что погрозили пальчиком, да и ПС не любят дублей – буду теперь исправлять ошибки

    Подскажите, а через какой промежуток времени дубли исчезают? /Не задавался никто таким вопросом. А то я уже скрыла все дубли в robot.txt, прошел месяц, а рузультат все тот же. Все выводиться

    В общем, гугл понимает только META ROBOTS NOINDEX , проверено.
    До этого сразу сделал в robots.txt, потом многое закрыл через htaccess, потом пробовал GWT сервис Remove URL s – сработала только META . В яндексе не наблюдал.

    Люди, а стоит ли писать анонсы на главной странице, по другому, те начало самой статьи обычно лепится в анонс is not good?

    Да вот с этими дублями совсем беда, особенно на друпале вылазит все что нужно и не нужно… Может кто подскажет как спрятать страницы перелистывания по типу “/portfolio?page=1”, они имеют одинаковое мета-описание и в вебмастер-панели пишет что копии метатегов и тайтлов получаются. Как скрыть их так что бы основная ссылка “/portfolio” на сайте осталась индексируемой?

    Привет, Админ. Отличный блог. Скажи, а как ПС относятся к некликабельным ссылкам? Допустим кто-то написал URL в форуме, а сам форум выводит такие ссылки как обычный текст, ничем неотличимый от другого текста на странице. ПС его проигнорирует, или попытается как-то обработать? Спасибо.

    Практически все мощные и громоздкие CMS создают кучу дубликатов и еще много всякого ненужного хлама,я использую обычно плагины

    Когда после анализа блога на движке WordPress увидел кучу дублей, срочно переделал robots.txt, а что-то закрыл тегом noindex, посмотрим что будет.

    В robots.txt пропиши
    Disallow: /portfolio*

    вовсе есть движки идеально созданные для сео если хотите могу написать список

    @Артем:

    а как ПС относятся к некликабельным ссылкам? ПС его проигнорирует, или попытается как-то обработать?

    2-ой вариант: ПС попытается их как-то обработать…

    Дубли чаще всего вылазят на фришных ЦМС ках, но можно хорошо поработать с роботс.тхт и всё будет ок, сервис Гугла – отличный помощник.

    Так же присоединяюсь к вышесказанному комментарию. Поработайте ручками в Робот тхт и будет вам счастье. Скажу честно с дублями страниц на своем сайте не сталкивался. Но сейчас зашел и посмотрел в гугле что есть дубли.
    А как быть если к примеру, если вы добавили статью. Теперь вы ее сможете увидеть нажав на новость.
    Но эта новость будет показываться и при нажатии на категорию в которой она находится, гугл считает это дублями и как с этим бороться то?

    У меня сайт на DLE : zep.com.ua google его не хочет индексировать:(((

    А пробовали добавлять карту сайта (xml) ?

    В общем-то карта сайта – это неплохое решение проблемы. Робот топаем именно по ней и не берет ничего лишнего.

    Вообще, чаще всего известно, какой движок какие дубли предпочитает генерировать, а посему это довольно легкий вопрос – закрыть через роботс и все

    На сайте с joomla есть и sitemap, и robots.txt – у яндекса все хорошо, а вот google не соблюдает эти правила

    соблюдает просто есть разница

    Что касается WordPress и Drupal, то как у них обстоят дела с этим?

    Да интересно расписано. Полезная статья. Вот только как себя заставить все это сделать и перебороть лень )))

    А я все в ручную убираю

    Спасибо автору. За эти выходные, будь они неладны, перерыл кучу блогов. Бьюсь с поисковиками почти безрезультатно. Что интересно – Яндекс упорно продолжал выдавать в списке проиндексиррованных, страницы давно удаленные с сайта (используется жумла) и не хотел помещать их в список на удаление, пока через robot.txt ему явно не указал – не сдавался. В связи с чем вопрос. У жумлы для каждого материала есть параметр, указывающий сроки публикации. Существует ли возможность автоматического удаления страниц из индекса по истечению этого срока? Спасибо.

    У меня сайт на WP. Проблему с дублями решаю исключительно через robots.txt.Тем более в интернете есть куча готовых решений.

    изначально при настройке вордпрэс избавился от дублей и в поиске чистая выдача

    Ничего себе, никогда так дубли не искал. Сейчас с помощью Xenu один из сайтов проверил, столько дублей нашел…

    Спасибо за статью! Вообще -то в Блогспоте мы боремся с дублями , закрывая страницы от индексации в robots.txt.
    У Вас , Сергей, замечательный блог – который меня многому научил.Еще раз спасибо.С уважением, Вадим.

    Максим написал:
    У меня сайт на WP. Проблему с дублями решаю исключительно через robots.txt.Тем более в интернете есть куча готовых решений.
    Если не сложно – хотя бы один из примеров, потому как дублей действительно много.

    Эх ребята.. жалею что поздно я эту статью прочитал, я из-за дублей словил пингвина месяц назад ((( и выйти – почти невозможно. Поэтому убирайте дубли от греха подальше, пользы от этого никакой, только вред (

    —>> Кстати, в google.com/webmasters -> Оптимизация -> Удалить URL
    У яндекса что то подобного не нашёл.. и вообще с яндексом одни заморочки (то документ неканонический, то ещё что то..), а в гугле при этом всё хорошо.

    Ребята, на ipb дублей не заметил. Движок-форум и то повторов нет. Гуглу это нравится

    Вы не подскажите сканирую свой сайт через гугл вебмастер выдаёт 0 ошибок, просканировав другим сервисом выдаёт 10 кому верить ?

    На мой взгляд гугл-вебмастер наилучший вариант. Просто мне не нравится, когда много всяких причендал, а работа не на 100%.

    Как то не задумывался раньше про дубли страниц, но теперь обязательно проверю.

    Очень интересный материал. Как оказалось я еще совсем мало знаю. ��

    Я просто делаю всегда: на сайте стоит поиск от яндекса, вводишь название статьи любой с сайта и сразу видишь – есть дубли или нет.

    однако этот способ(site:devaka.ru -site:devaka.ru/&), либо уже не работает, либо я что-то делаю не так https://www.google.ru/search?num=20&hl=ru&q=site%3Adevaka.ru+-site%3Adevaka.ru%2F%26

    Дубли действительно очень опасная штука, а особенно на вордпресс, когда по умолчанию на свеже установленном движке начинают индексироваться сами статьи, они же в рубриках, архивах и поиске…

    Первый раз услышала про проблему дублирования страниц. Вы меня озадачили. Буду разбираться. Я еще новичок, не совсем все понимаю. Может подскажете, если у меня в RDS баре написано, что гугл проиндексировал в 2 раза большее количество страниц, чем яндекс (и тот и другой проиндексировал все статьи), это как раз и значит, что есть дубли?

    У меня у самого есть дубли страниц. Это не так страшно, ведь когда добавляешь страницы в сопли пс, то никаких проблем не должно быть

    Ради интереса посмотрел свой интернет-магазин в вебмастере. Там конечно полный разгром. Но что делать если в одной и той же категории есть товары с одинаковым названием? Пронумеровать их что ли?

    А, если по запросу: site:mysite.ru -site:mysite.ru/& , не показывается ни одной ссылки на мой сайт, то не ссылок в доп. индексе что ли ?

    Проблема с дублями, как правило, появляется из-за большого кол-ва комментариев и использовании меток. При закрытии nofollow в файле htaccess и NOINDEX в robots.txt, а так же небольшого хака в шаблоне, все исправляется очень быстро.

    Вот такой вопрос возник, будут ли такие дубли влиять на то, что google будет их изменять так, чтобы они были различными. К примеру на странице один тайтл, а в выдаче то родной, то подстановочный?

    Все, убил гугл опереторы site:drezex.com.ua -site:drezex.com.ua/&
    Выдает пустое((((

    А можно ли вообще предотвратить возникновение дублей, а не постоянно бороться с ними?

    дубли просто найти, анализируете сайт с помощью pageweight, смотрите что лишнее, заносите все это в роботс, снова анализируете..чтобы в конечном итоге только статьи и разделы остались )

    а если у меня во вкладке “Оптимизация HTML ” ничего нет, тогда что это значит? а дубли точно есть! гугл их пока не зафиксировал или как?
    и ещё меня очень интересует: если я удаляю дубли вручную, т.е. делаю запрос на удаление, то есть ли вероятность, что они опять появятся.

    Куча – не куча, а то что по некоторым проектам были дубли заголовков это точно..

    Никогда проблем с дублями не было. Дубли часто встречаются на крупных сайтах на wp или dle и это совсем не мешает им быть в топе. Для себя проверил все же существование дублей с помощью инструмента Xenu – все хорошо.

    Использую Linkoscope – тоже неплохо проверяет – а насчет дублей из-за таких промахов польем идет с небольшой задержкой…

    Да, тоже пользуюсь Xenu, очень хорошая программа

    Категорично приветствую Всех ��

    Обращаюсь к автору, работает сейчас rel=canonical в Яндехе или нет?

    Мой опыт показал (месяц назад), что добавление этого тега выбило 3 четверти страниц из индекса, сейчас убрал тег и страницы потихоньку входят обратно. Это справедливо для Joomla и Virtuemart в моем случае.

    Дубли в Блогспоте постоянно появляются – то облако тегов проиндексирует, то ссылки топа комментаторов по два раза Гугл покажет в дублях.Теперь буду бороться с дублями.
    С уважением, Вадим.

    Смотрю, автор не очень отвечает, или что-то пропустила? Но зато отвечают читатели. Это тоже хорошо.
    Гугл присылает сообщения о том, что страницы закрыты – роботы получают 403 ошибку. Смотрю который раз, а там не индексируются дубли – replytocom, feed, tag. Тема немного не та. Проверила, согласно статье, повторяющееся метаописание – 14, тайтлов – 16. А внизу на странице “Мы не обнаружили проблем”. Может, вообще не трогать эти 14/16, раз не проблема?

    Надежда, можно и не трогать, а можно постараться избавиться от дублей, хотя бы с помощью rel=canonical для “replytocom”. Подумайте также, что можно сделать со страницей с тегами, может они тоже могут оказаться полезными для привлечения трафика. К примеру, можно к каждому тегу добавить небольшое уникальное описание (заголовки само собой), которое будет показываться на странице tag. А по поводу фида я предпочитаю редиректить его на FeedBurner (с проверкой юзерагента, чтобы случайно не закрыть фидбернеровскому роботу доступ), так как пропадает у вас аналитика по использованию RSS .

    Если добавить карту сайта в вебмастер яндекс, то при индексации он проиндексирует именно их, ну и дубли тоже проиндексирует, только вот дубли он выкинет из поисковой выдаче и все. как мне кажется, а в индексе останутся только те страницы, которые указаны в карте сайта sitemap.xml

    Про Яндекс ничего пока не могу сказать, потому что он месяц страницы возвращает, и еще где-то четверть не возвращена. Полной картины нет. До ЧП все было нормально. Но в Гугле всегда страниц показывается больше, потому и решила найти, что он дважды индексирует. Спасибо Вам, Максим!

    >>>Смотрю, автор не очень отвечает


    Да, нет, Max, все в порядке. Отвечает. Просто комментариев много – мимо проскочила. В принципе, в справках Яндекса и Гугла много чего нашла, если бы не ответил.

    Как знаю дублирование страдает joomla. Я с этим столкнулся. вот пытаюсь настроить robots.txt, пока на стадии экспериментов. А вот блог на wordpress пока проблем нету. а там дальше видно будет) А так по вашим советам поищу, не помешает)

    да, с дублями нужно бороться всеми возможными средствами.

    Очень познавательная статья, даже не задумывался об этом… Когда будет свободное время, проанализирую свой блог)

    Так и не нашел в комментариях, как же избавляться от нажитых дублей и не прикупать новых.
    А здесь, похоже, вряд ли кто ответит.

    Я вот на сайте у себя, в каталог файлов заливаю и некоторые скрипты но уже с другим описанием, только код скрипта остается идентичен. Эту будит считаться дублем?

    Пробую запрос на разных сайтах site:drezex.com.ua -site:drezex.com.ua/& и на других. Уже не работает этот запрос. Как теперь их определить эти сопли?

    Ну наконец нашел вразумительную статью, а то только и вижу на просторах инета“ДА ДА дубли это плохо, удаляйте их”, а как их искать, а главное как удалить никто не знает (или просто не хотят говорить). Будем истреблять, кстате на своем блоге нашел около 5 дублей, безжалостно уничтожаю.

    Дубли о обнаружила, но не совсем поняла как их удалять. Можно поподробней?

    Да у меня все дублированные страницы закрыты файлом robots.txt

    Если не работаешь под какой-нибудь CMS , то дублям, теоретически, взяться неоткуда. Я правильно понимаю? (Только если я сама страницы не накопирую)

    у меня в вебмастере пишет все нормально

    В сайтах на Вордпресс нужно обязательно закрывать страницы с помощью robots.txt или плагинами (для тех, кто умеет). Иначе яндекс будет сердиться.

    У меня на сайте интернет-магазина несколько сотен дублей и коротких/повторяющихся метаописаний. Вручную такую кучу трудно перемолотить. Тут главное, в процессе создания и первичного наполнения сайта смотреть, что и как создается и постараться с помощью сео-компонентов настроить все правильно. ну или на худой конеч обратиться к толковому программисту)

    Автору молодец, но следует подучить матчасть в области парсинга контента.

    Понятия “дублированные страницы”, и “дублированный контент” – в корне разные понятия.
    Дублированная страница – это лямбда (погрешность) контрольной суммы всего кода страницы, возвращаемого с ответом 200 ОК.
    Иными словами, чтобы получить дублированную страницу, необходимо тот же самый код сохранить под разными названиями страниц.

    Дублированный контент – это сравнение суммы количества каждого слова в отдельности, деленная на общее количество слов (без HTML тегов).
    То есть берем одинаковый текст, вставляем его в блог на нашем сайте, а потом в комментарий совершенно другого блога на нашем сайте – и это называется дублированный контент (при условии если результат совпадения будет больше 50%).

    Ни то, ни другое на вес страницы ПРЯМО НЕ ВЛИЯЕТ , то есть поисковые системы сознательно вес страницы не понижают.

    А вот далее пример косвенного влияния на вес страницы.

    Например, есть две страницы, одинаковые, или с одинаковым контентом – неважно. Обе страницы – проиндексированные в поисковой системе (Google, Bing, Yandex – неважно).

    Соответственно, эти страницы имеют ключевые слова, на основе которых вычисляется релевантность страницы.

    В вычислении релевантности страницы в глазах робота, играет некоторую роль ее посещаемость, то есть количество кликов, которые были сделаны по ссылке содержащей набор ключевых слов.

    Следовательно, введя один-два-три раза (пока еще релевантность не вычислена), некую комбинацию ключевых слов в поисковик, мы получим список ссылок, более менее соответствующих нашему запросу. Среди этих ссылок, будут ДВЕ ссылки на наш сайт с нашим контентом. Но мы (в роли пользователя) разве кликнем на две ссылки с одинаковым контентом сразу ?
    Конечно нет, мы выберем одну. И она станет релевантной (нет, после 1.5 человека конечно не станет, а вот после 10-12 – да), и будет отображаться повыше, следовательно привлекать новых пользователей, и набирать вес.

    Эксперимент проводился мною лично при помощи проекта на протяжении почти года.

    Терзают смутные сомнения: у меня на Joomla тьма-тьмущая дублей (скажем, со слешом и без, с приставкой html и без). По-хорошему их надо все искать и закрывать, 301 ставить, что ли… НО: в индексе ни у яндекса, и у гугла этих страниц нет, ибо ссылки на них ниоткуда не ведут. Может, не заморачиваться с закрытием?

    А вот после того, как я нашла кучу дублей в общем индексе Гугла, нужно ли их удалять из индекса через панель веб-мастера? или лучше ждать когда они сами отвянут?

    Вы описали как их найти, но не написали как броться с ними и как их удалить!

    Даа… Полезно и страшно даж, не занимался поиском дублей ан вон можно и под АГС попасть…

    Через админку не могу поставить noindex, т.к. такой страницы в реале нет, а оно просто в категорию кидает с этим адресом (

    Подскажите, а если у меня страница с русскими буквами в URL , как присвоить ей код ответа сервера 404?
    Прописывал редирект на /404 в .htaccess , код ответа 302 ((
    Пробовал добавить в robots.txt ссылку. При проверке файла robots говорит: Возможно, был использован недопустимый символ.
    Как удалить страницу из индекса? 404 ответ необходим для гугла (

    Добрый день Сергей. Перебрал все методы обнаружения дублей страниц и все равно ничего не помогло. В отчаянии обращаюсь к Вам. Есть сайт (в моей подписи). Страниц проиндексрованных яндексом 570 а вот гуглом 5000. Откуда взялась такая цифра ума не приложу. Лопатил выдачу гугла, нашел только 350 страниц, где остальные «тысячи» никак не пойму. Гугл вебмастер показывает резкий спад количества запрещенных к индексации страниц в robots.txt с 2000 до 4. При этом никаких изменений в этом файле не выполнялось. Сайт правда на укоз. Подскажите хоть чем-то, сервис какой-нибудь посоветуйте или что-то ещё, так как перепробовал уже все что знал и xenu, и выдачу. и вебмастер, и ручной поиск.

    Саша, видимо это глюк Google. Не стоит волноваться (особенно, если это не сказалось на трафике). Подождите какое-то время, посоветуйтесь с теми, кто использует ucoz, были ли у них подобные наблюдения.

    К сожалению, новичкам в данной статье похвалиться нечем. Я, к примеру, в инструментах Г. даже раздела “Оптимизация” не нашел…

    Сергей, спасибо за совет! Как выяснилось дела с этим сайтом обстоят куда более интересней. На этом сайте траф с гугла упал на 50% после горького фильтра в конце апреля прошлого года. После того никаких мер по возобновлению позиций и трафика на сайте не предпринималось и в итоге траф продолжал стремительно падать. Сначала подозрения пали на не уникальный контент, но как оказалось, весь контент на сайте уникальный, даже изображения на сайте 90% авторские! Правда сайту уже больше 3 лет и с него уже неоднократно копипастились статьи и размещались на сторонних ресурсах. Но я не думаю, что гугл из-за размножения дублей статей сайта в интернете стал считать оригиналы как не уникальный контент. По этому скорее всего проблема не в контенте. Дубли страниц конечно и могут навредить продвижению сайта, но чтобы слетели все позиции глубоко за ТОП 100, то это врят ли из-за дулей, тогда бы все сайты на укозе слетели или по крайней мере большая их часть. Остаются ссылки. Сайт продвигался и на него было закуплено не мало ссылок, причем все с прямым или разбавленным вхождением. Допустим проблема в анкорах, ну тогда не понятно почему слетели все позиции, даже те на которых ссылки не закупались? Сергей, как считаете, проблема может заключаться именно в этом или такое существенное занижение позиций может быть связано с чем-то ещё? Извините за много текста)

    Саша, причин наложения санкций на сайт может быть много. Читайте статью про завоевание доверие робота. Ищите проблему в контенте, входящих и исходящих ссылках.

    182 Станислав, это от того, что статья уже устарела – там в ГуглеВебмастере всё поменялось. Я тоже пытался сделать всё по первому примеру – не разобрался.

    Правильно ли я понимаю, что если
    1. В коде WP поста есть

    2. При переходе в этот пост из Категорий, Тегов, Результатов поиска, Архива – УРЛ в адресной строке всегда одинаков и равен тому canonical, что выше,

    то беспокоиться мне не о чем?

    По запросу “site:мойсайт.ru -site:мойсайт.ru/&” в Гугле ничего не найдено.

    PS: спасибо автору за действительно классный сайт, я теперь часто ищу ответы на свои вопросы по блогу не в гугле, а сразу тут.

    ничего не понял

    Статья полезная. Как найти дубли понятно.Но для себя не нашла ответ на вопрос: как конкретно удалить дубли страниц.

    Если я пишу несколько статей с одним и тем же ключевым запросом, но с уникальным текстом и заголовками, а гугл ранжирует одну статью выше другой, такие статьи мешают друг-другу в продвижении?? Это не будет считаться дублем информации? К примеру хотя бы по смыслу?
    > Можно определить малоинформативные страницы и частичные дубли, которые не участвуют в поиске и могут мешать страницам из основного индекса ранжироваться выше.

    ну нашел я их, а дальше что…

    Я тоже нашла, а что делать с ними не пойму?

    как что…прописать для этих страниц каноническую либо сделать редирект на основную страницу с этим контентом (.htaccess) либо закрыть в robots.txt эту страницу

    Неудобно очень, когда все комменты распахнуты. А за статью спасибо, начинаю разбираться в Seo, уже успел с дублями накосячить

    Ты считаешь это косяком ? Очередной начитавшийся про SEO ��
    Запомни: поисковая система ничего не знает о понятии “дубль страниц”. Для нее это список URL , каждая со своим контентом, в пределах одного доменного имени. Даже если контент одинаковый – это не считается плохим.
    Или ты считаешь, что разместив ссылку “/mysite/stishok.php” с именем “Муха-цокотуха” на главной, и “/mysite/stishok.php” с именем “Стишки про насекомых” на контактной – это будет считаться ДУБЛЕМ ? лол )
    Поисковик проиндексирует это как две ссылки, по которым расположен контент.
    А вот при поисковом запросе он будет выводить первее те ссылки, на которые ссылается большее количество ресурсов. Независимо от содержимого.

    Лучше бы вы создавали полезный контент, чем пытались оптимизировать то, чего еще и в помине нет ��

    Mr. Vitaliy, да вы просто кэп! ))))
    Вот только практика и ваша теория расходятся в разные стороны. Для начала учим матчасть, потом с умным видом даем советы ��

    Mr. Vitaliy – “Даже если контент одинаковый – это не считается плохим.”
    И где он такое вычитал? Сам гугл пишет – все должно быть уникальным. Ему нет смысл хранить в индексе 2 одинаковые страницы, также как и вам забивать БД мусором. Нужно сделать одно, но наиболее полное и точное теме.

    А что делать со следующим: висят дубли метатега Title в панеле вебмастера Google. Этих страниц уже нет. Перейти на них ни из карты сайта ни из других страниц невозможно, потому что не ссылаются на них. Т.е. фактически робот уже не перейдет на нее. Она не в индексе. Как ее удалить?

    “…а также из-за сознательного или несознательного размещения ссылок третьими лицами на ваши дубли с других ресурсов”.
    Получается, если на сайте/странице не используется rel=canonical, то недоброжелатели могут навредить ресурсу в плане потери позиций.
    Сразу же проверил – в последних версиях WordPress rel=canonical используется по-умолчанию.
    Спасибо. Ценная информация.

    Надо найти время и срочно проверить дубли, очень полезная информация, будем работать

    Спасибо, реально иногда и не заметишь как добавишь тоже самое.

    Как найти дублирующие страницы в ДЛЕ ?

    Очень интересная статья, которая заставила и меня немножко задуматься. Например: у меня блог на движке WordPress, который без моего ведома делает анонс всех статей. Возникает вопрос, так может быть этот анонс закрыть от индексации мета тегами и дело с концом.

    У меня тоже делет анонсы, но меня жто устраивает, идет как краткая новость.

    Спасибо, взял в закладки статью. Я делаю доску объявлений. Есть смысл в этом формате сайта бороться с дублями. По сути дела каждое объявление это страница, а люди дают объявлений много и часто одинаковых.

    Спасибо за статью, я новичок. Очень полезная информация. Подписался на фид. Буду следить за новостями.

    спасибо за статью -благодаря ей провел серьезнейшую ревизию своего портала (70000 страниц в гугле 6% всего). Заказал на сайт «сайтрепорт» теханализ -5 копеек страница, есть недостатки у этого сервиса, но в целом, анализ оказался к месту и весьма полезен. Программисты неделю вычищали косяки, системообразующие (они же 80% всего) , были удалены. Мы ставили канониклы, закрывали роботом разделы, дописывали тексты, правили ошибки хтмл и орфографию…все-все короче. На сегодняшний момент дубли есть. Есть недочеты, мелочи, отсутствие контента, но это все рабочие моменты -это в процессе.

    Вопрос такой -мы для ПС гиблое место, отмеченное множеством дублей. Как теперь рассказать гоше и яше, что мы исправились? Есть ли форсированные методы? Подскажите, кто что знает, потому что если все оставить как есть мы еще пару лет будем в отстое (xtool например показывает что в день 50 страниц «хавается» у нас всего)

    Очень познавательно. Сегодня же займусь оптимизацией.

    У меня такая проблема. В rds bar появилось цифра в два раза превышающая количество проиндексированных страниц (смотрел в янд.вебмастере). Проходя по ссылке с rds bar или других сервисов анализа сайта (кроме янд.вебмастер) на яндекс, выдает 17 страниц по 10 ответов по запросу сайта. Но, когда захожу на 13-ую страницу с ответами, остается половина страниц.
    Роботс настроен, как и раньше, когда числа совпадали, зеркало прописано, настройки wp не менял.
    Что бы это могло значить? Подскажите, что это, дубликаты страниц появились? Ведь их до недавнего времени не было.

    Вот и у меня проблема. Новый сервис Яндекса не индексирует страницы, говорит на них есть дубли.

    А что потом делать с этими дублями? Если убрать функционал ленты, сайт будет неудобный.

    УФффф, хоть что-то у меня на сайте в порядке. Пошла дальше по разделу “Новичкам”.

    Найти дубли страниц проблем не вызывает, а вот как с ними бороться это да. Пробовала и в файле robots.txt их закрывать – не помогает, и удаляла вручную. Остается только древовидные комментарии отключить, но это не удобно для общения…

    Спасибо за интересную статью. О дублях страницы на WordPress я знаю и закрываю их тегами nofollow. Достаточно ли этого?

    Кто знает как избавить от дублей в Джумле? Движок создает иногда такие дубли какие вообще не должен.

    Поигрался с главной страницей сайта и вот что получилось Ответить

    Виктор, для каждой страницы мета-теги должны быть уникальными относительно друг друга: на одной “купить бытовой фильтр такой марки”, на другой – следующая позиция из каталога. У Вас дескрипшн для всего сайта, вероятно. А скажите, пожалуйста, где Вы смотрите, что цветом выделяются слова?

    в браузере mozilla firefox когда просматриваеш исходный код страницы отображаются разные цвета текста

    Спасибо, Виктор! Вы меня прямо в какие-то дебри отправили. Пользуюсь обычно хромом, мозила для RDS -бара хороша. Код своих сайтов не посмотреть (он весь в две строки, без мет и прочего), спрятан. Но посмотрела первый пришедший на ум сайт. В description там все нормально, одним цветом, но красным выделены преобразованные в буквы кавычки, зеленым – скрипты и плагины, черным много – все, что касается внешнего вида. Интересно как!

    Благодаря этой статье я научился находить дубликаты страниц, но у меня возник второй вопрос: если у меня два – три дубликата вызванные спецификой контента (анонс и две рубрики, к которым относится статья) то стоит ли бороться с такими дубликатами. Я посмотрел в Гугл – он мне никаких претензий не предъявляет.

    Статья интересная,но вот так и не понял как удалить дубли из CMS к примеру joomla!

    Оказывается, что для удаления дублей replytocom в WordPress нельзя закрывать их в robots, так как запрет уже прописан в meta. Чтобы вообще не плодить эти replytocom надо делать как тут _http://vk.cc/2Kmahi

    Вы написали как найти дубли страниц, это хорошо, а вот как удалить дубли из поиска вы не написали.
    У меня возникла проблема, я изменил ссылки, и плагином Platinum SEO Plugin сделал редирект, чтобы не потерять своих и так мало посетителей.
    Потом оказалось что я сделал ошибку в ссылках и поменял, обратно ссылки. И теперь больше половины моих статей стали доступны по двум ссылкам. Вот пример одной страницы:
    http://chernishevigor.com/optimizaciya-sajjta/yuzabiliti-sajjta.html
    http://chernishevigor.com/optimizaciya-sajjta/yuzabiliti-sajjta/html
    Дайте совет как удалить страницы из поиска на конце /html

    Игорь, удаляйте вручную через панель для вебмастеров

    в том и проблема, что не удалялось, выходила ошибка, что нет необходимости удалить url так как адрес не выдает ошибку 404

    Как я понимаю, проверка дубликатов страниц сайта через поисковик по запросу site:mysite.ru -site:mysite.ru/& уже не работает. Или же работает и вводить на сегодняшний день требуется что-то другое?

    Важно при наличии постраничной навигации на сайте, закрыть остальные страницы от индексирования, так как они тоже попадают в дубликаты

    на моем сайте есть каталог сайтов. как сделать чтобы при добавлении нового сайта автоматически определялось – есть ли добавленный сайт в каталоге?

    В выдачу попали дубли страниц с окончанием html/105 и т.п. Выглядят они в тайтл так Part 105. На этих страницах есть прописан тег rel=“canonical”, только вот не понимаю почему они тогда попали в индекс поисковика?

    А как например влияют на продвижение страницы интернет магазинов, в которых карточки товаров отличаются только например или цветом или массой. Эти страницы считаются дублями?

    Да наверное, у меня доски объявлений, там получается тоже куча дублей. Надо как-то с этим бороться

    Здравствуйте! В таком формате гугл отказывается искать:
    site:mysite.ru -site:mysite.ru/&
    С амперсантом ищет, а в связке нет. Алгоритмы поменялись?

    Да, судя по всему инфа уже не актуальна.

    Дубли желательно удалять очень влияют на позиции

    Сейчас проверим в гоше

    Также очень полезна программа Netpeak Spider и сервис ahrefs.com. Программа бесплатная и ищет дубли по мета тегам и контенту, ахрефс аналогично но нужен платный аккаунт для крупного парсинга

    Я когда только сайт начал делать, сразу под санкции попал. Мне посоветовали, что это из-за дублей может. Потом посмотрел в индексе яндекса, а там их туча.

    Проверил через вебмастер гугл. Таблицы такой, которая приведена картинкой в статье, мне не показали. Лишь надпись : “Мы не обнаружили никаких проблем с содержанием вашего сайта. При сканировании вашего сайта мы проверяем его на предмет возможных проблем с содержанием страниц, таких как повторяющиеся, отсутствующие или некорректные теги …..”

    Лучше всего проверять через вебмастер гугл.

    Здравствуйте, решил я проверить дубли с помощью команды site:mysite.ru и вот что увидел: в основном поиске дублей не было, а вот в скрытых результатах я нашел 14 дублей, даже не дублей, а ссылок на ярлыки своего блога, скажите пожалуйста нужно ли воспринимать их как дубли, если они находятся в скрытых результатах?

    Благодаря этой статье я научился находить дубликаты страниц, но у меня возник второй вопрос: если у меня два – три дубликата вызванные спецификой контента (анонс и две рубрики, к которым относится статья) то стоит ли бороться с такими дубликатами. Я посмотрел в Гугл – он мне никаких претензий не предъявляет.

    Если движок вордпресс, то можно воспользоваться плагином Find duplicates, ищет дубли как по заголовку так и по тексту. https://wordpress.org/plugins/find-duplicates/

    Дубли достаточно противная вещь, вроде думаешь, что все правильно сделал, везде все позакрывал, а они все равно лезут и снова по новой: ищешь причину дубля, потом устраняешь.

    Проверил через вебмастер гугл. Таблицы такой, которая приведена картинкой в статье, мне не показали. Лишь надпись : “Мы не обнаружили никаких проблем с содержанием вашего сайта. При сканировании вашего сайта мы проверяем его на предмет возможных проблем с содержанием страниц, таких как повторяющиеся, отсутствующие или некорректные теги …..”

    Подскажите онлайн сайты для проверки дублей…и существуют ли такие

    Очень актуально для моего ресурса, как раз из под АГС выводить пытаюсь, мучаюсь с новыми уникальными описнаиями…

    Никогда не сталкивался с дублями. По идее отчего они возникают? Одинаковый контент создают два раза? Это же глупо…

    Отличная статья, создала сайт под интернет магазин, проверила дублей много.По сути URL разные но отличалось только одно последнее слово, ссылка получилась длинная и последнее слово скорее всего не учитывается, иначе не знаю почему яндекс исключил из индекса

    Перенес сайт с дле на wp. И не совсем удачно. Чего-то не доглядел, торопился. Теперь на многие страницы в конце адреса добавляются цифры. Адрес получается такого вида – mineraly-obshhie-ponyatiya.html/22198 . Редактирую страницу – сохранить, нормальный вид. Но всё равно существует страница с цифрами. Что и где их дописывает не могу понять. Не встречались с подобной ситуацией? А то у меня в индексе вместо 1000 страниц аж 6000 . Караул просто.

    Прочитав статью, нашла проблемы с урлами. Проблему решили, дубли удалили и сделали 301 редирект. НО в панели все та же картина: 173 повторяющихся заголовков.
    Что-то сделано не так?
    Что надо предпринять?
    Спасибо!

    Данные в ВМ панелях обеих поисков обновляются не так часто. Поэтому вам нужно просто подождать.

    Здравствуйте, у меня вот возник такой вопрос по поводу дублей.
    Расскажу на примере вашего сайта, допустим эта статья открывается по ссылке https://devaka.ru/articles/duplicates, так же она откроется по ссылке https://devaka.ru/articles/duplicates/2 и т.д. у меня такие страницы попали в индекс, как такое может быть и стоит ли с этим бороться? И что вообще генерирует такое добавление цифр к URL ?

    Александр, спасибо за вопрос.
    В данном случае с /articles/duplicates/2 дубля не будет, так как в коде указан канонический адрес (см. тег rel=canonical).
    В вашем случае можно также добавить канонические теги, либо настроить CMS . Что генерирует добавление цифр в вашем случае – сказать сложно. Попробуйте просканировать свой сайт через xenu или screaming frog, может найдете то, что раньше не замечали из внутренних ссылок.

    Спасибо за такой быстрый ответ, у меня так же стоят канонические теги, но я их поставил примерно неделю две назад, видимо дубли остались предыдущие. Нужно проследить будут ли появляться новые. Обязательно просканирую, еще раз спасибо.

    Страницы с повторяющимися заголовками (теги title),Страницы
    Emanuel 2020 – одежда и обувь,http://www.emm-a.com/ | http://www.emm-a.com/login/ | http://www.emm-a.com/signup/
    Как быть с этими страницами?

    Отличная статья, спасибо автору! Новичку сложно все сделать правильно, но вот дублей у меня точно нет) это радует)

    А мне понравилась статья. для новичков полезна

    Да. дули на сайте -это путь к АГС

    Здравствуйте, Сергей, уже много лет читаю ваш блог и пользуюсь советами. Сейчас запустила сайт, указанный выше и не могу понять почему Гугл показывает в site:mysite.ru и site:mysite.ru/& одно и тоже число страниц, тогда как в RDS -бар показывает 55(7%). Где и как искать разницу, что именно в дополнительном индексе? Подскажите, пожалуйста?

    Марина, добрый день! Сейчас оператор /& не работает в гугле как раньше. Поэтому, посмотреть разницу индексов уже, к сожалению, нельзя. Как измеряет РДС я затрудняюсь ответить. Возможно, просто используют параметр &filter в урлах.

    Большое спасибо, Сергей, за быстрый ответ и разъяснения, буду “копать “ дальше.

    при попытке проверить сайт программой Xenu появляется ошибка forbidden request, программа еще работает? Можете подсказать в чем проблема?

    Особенно тема статьи касается Joomla, вроде и приятная система по функционалу и внешнему виду, а вот с оптимизацией туговато, и дублей тьма, иногда кажется, что они берутся из воздуха….

    Здравствуйте, я бы очень хотела узнать насчет вопроса. У нас сайт идет с поддоменами на разные города, но при этом на разных городах идет разная товарная матрица. Так вот теперь вопрос, будет ли это считаться дублями?

    Если у добавляемой игры на сайт несколько категорий, то ее появление на различных страницах будет считаться дублем?
    Например, игра Дарк Орбит – браузерная, космическя, шутер. Если прописать 3 разные метки или категории, то она появится в трех местах по трем разным адресам.

    А если появляется небольшой анонс игры (картинка и 1 предложение из статьи) на этих страницах, то уже не так страшно в плане сео?

    Сергей, добрый день. Как обычно статья полезная и практичная для использования.
    Тем не менее, прочитав ее и другие источники по теме дублей не могу до конца разобраться:

    является ли дублем главная страница заканчивающаяся слешем?

    Xenu показывает как дубль , а Оптимизация HTML из Гугл сёрч — нет
    нужно ли что делать в этом случае? если да, то что?
    Буду признателен за ответ

    Михай, сейчас это не дубли для поисковиков. Можете сними ничего не делать.

    Как удалить дубли страниц WordPress?

    Страницы с одинаковыми адресами – это распространенная техническая проблема, которая довольно таки серьезно может негативно повлиять на поисковую выдачу Вашего сайта в поисковых системах.

    Что такое дубли страниц?

    Причин появления дублей на сайте может быть несколько: если страница имеет несколько подстраниц, присутствие комментариев (особенно если для них активна функция постраничного отображения или древовидный вид), прикрепленные картинки, начилие календаря в сайдбаре, и др.

    Как удалить дубли?

    Наиболее простой и универсальный способ – использовать плагины, которые корректно и безболезненно решают данную проблему.

    Удаляем дубли страниц в комментариях

    Присутствие кнопки “Ответить” в блоке комментариев порождает самый злосчастный вид дублей – replytocom. К примеру, если в одной статье 50 раз нажмут на “Ответить” и оставят свой комментарий, то на сайте будет присутствовать 50 дублей этой статьи. Чтобы обезопасить Ваш сайт от подобной беды, необходимо в админ-панели перейти Настройки -> Обсуждение и убрать галочки напротив пунктов Разрешить древовидные (вложенные) комментарии глубиной и Разбивать комментарии верхнего уровня на страницы по.

    Используем плагин Yoast SEO

    После установки и активации плагина Yoast SEO в админ-панели необходимо перейти SEO -> Возможности, в разделе Дополнительные настройки страницы перетянуть ползунок в состояние Включено и нажать кнопку Сохранить изменения. У Вас в разделе SEO появятся новые подменю, из которых нужно выбрать Дополнительно -> Постоянные ссылки. На этой вкладке необходимо поставить ползунки в положения, согласно рисунку ниже:

    Для вступления изменений в силу следует нажать кнопку Сохранить изменения.

    Если Вы используете плагин Clearfy Pro, то для удаления дублей страниц необходимо в админ-панели перейти Clearfy -> Основные -> Дубли страниц и отметить все пункты меню в этом окне.

    Страницы сортировок и пагинаций

    День добрый, Юлия.

    У многих интернет-магазинов возникает подобная ситуация с индексацией неинформативных страниц (сортировок, ряда фильтров), давайте разберемся как правильно действовать в данной ситуации. Ответим на данный вопрос как на приоритетный, так как уверены, что данная проблема волнует многих оптимизаторов.

    Страницы постраничной навигации

    Пагинацию — не нужно закрывать от индексации. Данный вопрос подробно рассмотрен в ответе на вопрос по скрытию пагинации, где указан оптимальный алгоритм действий.

    Коротко: страницы постраничной навигации должны оставаться в индексе, иметь свой уникальный тег title, meta-теги и текстовое описание (при необходимости). Если на страницы не ведут какие-либо НЧ-запросы, то текстовое описание может быть пустым.

    Страницы сортировок

    Рекомендованная сортировка по умолчанию от Яндекса: по возрастанию цены. Но, как мы знаем, для повышения конверсии на листингах часто стоит производить сортировку товаров/предложений по степени из привлекательности, которая может выражаться как комбинация таких факторов как:

    • CTR товара на листинге (необходимо использовать CTR по умолчанию для новых товаров, пример представлен ниже);
    • показатели конверсии карточки (аналогично, необходимо рассчитать средний показатель конверсии для категории);
    • маржинальности (выручки от продажи в рублях или у.е.);
    • иногда, сезонных и прочих факторов;

    Ссылки на прочие сортировки рекомендуется скрывать с помощью AJAX и закрыть от индексации посредством атрибута rel=»canonical» тега
    (делать их неканоническими, а страницу с основной сортировкой — канонической).

    Страницы изменения числа товаров на листинге

    Для страниц с выводом отличного от дефолтного числа товаров на листинге «?show=60» (или отличного шаблона для вывода «?display=block») требуется использовать аналогичное правило: скрывать ссылки на них и закрыть от индексации посредством атрибута rel=»canonical» тега
    .

    Страницы фильтрации

    Если на листинге предусмотрена возможность фильтрации выводимых товаров по ряду свойств, то здесь рекомендуется следующее:

    • Настроить ЧПУ для страниц фильтров первого, второго уровня.
    • Осуществлять переход пользователей на данные URL с ЧПУ для набора ими поведенческих факторов.
    • Прочие фильтрации — закрыть от индексации настройкой атрибута rel=»canonical» тега
    • .
    • На базе популярных настроек фильтров рекомендуется организовать систему тегирования на сайте. Далее привлекать целевой поисковый трафик за счёт их оптимизации под НЧ и, иногда даже, СЧ-запросы.

    Общее правило остаётся неизменным: все страницы доступные к индексации должны иметь уникальные тег title, meta-теги и текстовое описание.

    Как видите, для разных страниц оптимально использовать различный подход для оптимизации привлекаемого трафика.

    Удачи вам в проведении самостоятельной технической оптимизации сайта и привлечению максимального поискового трафика на страницы интернет-магазина.

    Топ-пост этого месяца:  Что такое PHP и следует ли начинающим его бояться
    Добавить комментарий