Как удалить дублирующие ссылки ведущие в одну и туже категорию


Содержание материала:

Обнаружено дублирование ключевых значений в колонках «Ссылка» в 1С 8.3

При разработке какой-либо из версий из версий конфигурации 1С и тестировании созданной программы программист 1С может столкнуться с уведомлением «Обнаружено дублирование ключевых значений в колонках «Ссылка» в 1С 8.3. Появление указанного уведомления обычно вызвано неправильным составлением запроса, и лечиться проверкой имеющейся базы данных и удалением дублирующих значений. Ниже разберём суть возникшей дисфункции и методы её решения.

Что может означать «Обнаружено дублирование ключевых значений»?

Как правило, рассматриваемая ошибка проявляет себя уже на стадии тестирования создаваемой конфигурации. Она появляется при попытке открытия какой-либо формы выбора, или работающей на управляемом приложении формы списка в 1С, при выполнении других операций и процессов.

Проблема возникает как в версии 1С 8.3, так и более ранних версиях продукта (зафиксировано её появление в более ранних версиях 8.2 и 8.1.)

При возникновении ошибки появляется уведомление « Обнаружено дублирование ключевых значений в колонке «Ссылка» (или каких-либо альтернативных колонках). Отображение данных в списке невозможно ». Программисту предлагается нажать на кнопку «Ок», после чего уведомление пропадает.

Появления указанного сообщения означает, что форма заполняется на основании динамического списка, запрос которого выдаёт дублирующие строки.

Причиной этого является неправильно настроенное соединение с основной таблицей, которое и предстоит откорректировать программисту 1С.

Также причиной указанной ошибки может выступать наличие в базе ряда элементов справочника с незаполненным кодом.

Как исправить ошибку в 1С 8.3

Решение возникшей дисфункции напрямую зависит от специфики создаваемого программистом программного кода. Рекомендуется открыть ваш динамический список, найти в его свойствах произвольный запрос, и соответствующим образом откорректировать его для того, чтобы он не выдавал дублирующих строк.

Для этого перейдите в конфигуратор базы 1С, откройте запрос динамического списка (лучше всего через конструктор запросов), и просмотрите имеющиеся связи между таблицами в запросе. После нахождения проблемы скорректируйте запрос с целью удаления дублирующих ссылок по колонке (в случае данной статьи это упомянутая в тексте ошибки колонка «Ссылка»). Для этого в большинстве случаев достаточно перейти на закладку «Группировка», и перераспределить имеющиеся поля запроса в суммируемые и группируемые поля.

В случае неудачи попробуйте также в конструкторе запросов динамического списка перейти в закладку «Дополнительно», и там поставить галочку на опции «Без повторяющихся». Довольно часто это позволяет избавиться от ошибки «Обнаружено дублирование ключевых значений» в версии 1С 8.3 (и более ранних версий).

На вкладке «Дополнительно» активируйте опцию «Без повторяющихся»

Удалите все сомнительные соединения запроса. Если отыскать корень проблемы не удаётся – тогда стоит выполнить глобальное тестирование и исправление.

В более ранних версиях 1С помогал переход в раздел «Администрирование», далее «Обслуживание», затем выбор опции «Корректировка данных». Раскройте имеющуюся панель, выберите там «Поиск и удаление дублей», а затем кликните на «Искать». Выполните поиск и удаление дублей, каждый раз заново запуская обработку по справочникам.

Заключение

В нашем материале мы разобрали, почему появляется ошибка — Обнаружено дублирование ключевых значений в колонках «Ссылка» в 1С 8.3, и как её можно исправить. В большинстве случаев причиной проблемы становится наличие дублирующих строк из запрашиваемого динамического списка. Для устранения дисфункции необходимо просмотреть имеющуюся программу (в частности, запросы динамического списка), после чего удалить дублирующие ссылки. После этого рассматриваемая нами проблема обычно бывает решена.

Удаление дубликатов

Сервис поможет Вам быстро избавиться от дубликатов в строках. Для этого необходимо ввести текст или слова. Каждое слово вводится в отдельную строку.

Введите текст, чтобы сделать его более уникальным. Каким образом? Этот инструмент удаляет повторяющиеся строки из текста и делает ваш текст новее, свежее и естественнее. Ввод слов осуществляется в каждой новой строке.

Инструмент «Удаление дубликатов» будет особенно полезен редакторам, а также копирайтерам и рерайтерам и всем остальным, кто имеет дело с текстами.

Берите смело на вооружение этот полезный инструмент, так как он может значительно упростить вашу работу и дать больше свободного времени.

Дубли ссылок. Вред или польза?

Очень часто в тех. поддержку программы для перелинковки Page Weight поступали вопросы типа:
«У меня стоят ссылки из текста страницы, но они не учитываются программой. Почему?»
Мы смотрели «проблемный» сайт, и всегда видели одну и ту же картину: Ссылка на акцептор есть в меню или хлебных крошках. Но при этом, оптимизатор ставит дополнительные ссылки из текста страницы, полагая, что тем самым увеличит вес акцептора.

Приходилось объяснять, что программа, как и поисковики, учитывают только одну ссылку с донора на акцептор.

Как правило, это ссылка, которая идет первая по коду. Т.е. как раз ссылка из меню или хлебных крошек.

Кто-то принимал это к сведению и исправлял ситуацию, кто-то пытался спорить, а иногда даже скандалить.

Но случился таки светлый день в жизни нашей тех. поддержке, выглянуло солнце в виде лучезарного Мэтта Каттса и дало разъяснения. Пруф.

Цитата:
«. если на странице вашего сайта присутствуют две ссылки, ведущие на другую страницу, — обе они передают ей PageRank. При этом общее количество PageRank, которое способна передать одна такая ссылка, равномерно распределяется между всеми исходящими ссылками. Таким образом, если 2 ссылки с одной страницы вашего сайта ведут на один и тот же документ, то количество PageRank, которое каждая из этих ссылок передаёт странице, делится на два. Анкорный текст в данном случае на передачу PageRank не влияет – сколько бы «одинаковых» ссылок не вело на страницу, она получит именно то количество PageRank, которое бы передала ей одна такая ссылка со страницы вашего сайта.. «

Давайте я попробую разъяснить, что именно сказал Мэтт.

Но начну издалека. А именно с особенности работы поисковика, как такового.

Люди, дорогие мои коллеги! Поверьте, любому поисковику глубоко насрать на ваш сайт. Основная задача любого поисковика, это удовлетворение информационной потребности пользователя. И чем он этого пользователя удовлетворит, вашим сайтом, или каким другим, поисковику совершенно фиолетово.

Задача поисковика найти страницы, которые могут отвечать на поисковый запрос. Чем больше страниц в базе у ПС, тем больше вероятность того, что пользователь останется удовлетворенным.

Для того, что бы найти те или иные страницы, у поисковиков есть краулеры (пауки), которые переходят по ссылкам, размещенным на страницах.

Что бы перейти с одной страницы на другую, роботу достаточно одной ссылки!

Все остальные ссылки, дублирующие первую, попросту забивают базу.

Для справки. Одной из основных статей расходов ПС являются. счета за электричество. Это электричество кушают сервера. Десятки тысяч серверов. И каждая вычислительная операция на сервере увеличивает эту статью расходов.

И ни кто, поверьте ни кто, даже не чихнет (читаем «добавит лишнюю операцию»), если эта операция не даст существенного вклада в улучшение ранжирования.

Поэтому для поисковиков, все ваши дубли ссылок, это попросту хлам, который увеличивает расходы на содержание базы и отрицательно влияет на скорость расчетов.

Однако, вернемся к Каттсу

Для начала напомню, что Page Rank, о котором говорит Мэтт, это статический вес страницы. Стат. вес запросонезависим, и не зависит от анкоров, текста страниц, тайтлов и прочего. Это просто цифра. И не стоит путать PR как вес страницы с тулбарным PR, который по сути является логарифмической (сильно округленной, сглаженной) функцией от PR-веса.

«. если на странице вашего сайта присутствуют две ссылки, ведущие на другую страницу, — обе они передают ей PageRank. При этом общее количество PageRank, которое способна передать одна такая ссылка, равномерно распределяется между всеми исходящими ссылками. Таким образом, если 2 ссылки с одной страницы вашего сайта ведут на один и тот же документ, то количество PageRank, которое каждая из этих ссылок передаёт странице, делится на два. ..».

Т.е. будь у вас одна ссылка с донора на акцептор, две или двести, количества передаваемого веса не изменится! И будет равно количеству веса, передаваемого по одной ссылке!

«. Система может поделить PageRank между всеми ссылками на странице, а может выбрать всего несколько или даже одну ссылку – процесс подвижен и постоянно меняется. «

Когда оптимизатор размещает дубль ссылки в тексте, он рассчитывает на то, что по этой ссылке помимо стат. веса, будет передаваться и анкорный вес (т.е. тут подключается уже динамический вес). Ок, пусть будет так.

Но что нам говорит Мэтт? Что сегодня мы считаем все ссылки (при этом если вес делится поровну, то чем больше дублей, тем меньший вес по анкору передаст каждая из них), завтра мы выберем только часть, а послезавтра мы вообще возьмем только одну. Ну а потом опять начнем играться шрифтами считать как-то иначе.

Т.е. вы, как оптимизатор, вроде как сделали перелинковку. Сосредоточили анкорный вес на заданной странице. А потом все поменялось. Пичалька.

Поэтому, что бы не рисковать и быть уверенным в своих действия, не плодите дубли ссылок!

Если у вас уже есть ссылка на акцептор в меню, хлебных крошках, или еще где, то не надо ставить еще одну ссылку из текста. Это как минимум ничего не даст. А как максимум, даст головную боль — почему вдруг позиции просели, ведь все было так хорошо.

Если все таки нужно нагнать именно анкорный вес, а не только статический, то лишние ссылки закрывайте в скрипты. Не используйте nofollow, а тем более noindex. Эти атрибуты вредят! (быть может, когда нибудь дойдут руки, и я распишу подробно почему)

И еще раз повторю. Не плодите дубли ссылок! Каждый раз, когда вы делаете дубль, в этом мире грустит одна маленькая тех. поддержка!

Устранение дублирующих записей в справочниках

Техническое решение предназначено для автоматизации процесса очистки данных в системе DIRECTUM от дубликатов записей справочников.

Топ-пост этого месяца:  OpenCart. Модуль многоуровневого меню категорий. Урок 3

Возможности

Техническое решение предоставляет следующие возможности:

  • Анализ использования дублирующих записей справочников в качестве ссылок в других объектах системы.
  • Замена ссылок с дубликатов на оригинальные записи в карточках документов, записях справочников, вложениях задач/заданий.
  • Автоматическое удаление или закрытие дублирующих записей.
  • Формирование отчетности по выполненным действиям.

Бизнес-эффект

Внедрение технического решения позволяет достичь следующих эффектов:

  • Снизить трудозатраты на выполнение рутинных действий по удалению дублирующих записей в справочниках.
  • Полноценно очистить данные справочников в системе от дублирующих записей.

Пример работы

Предварительная настройка

При работе с техническим решением выбирается справочник, с которым будет осуществляться работа и заполняются следующие параметры:

  • Итоговая запись. Указывается запись справочника, в которую будут сведены все дублирующие записи.
  • Удаляемые дубликаты. Указывается одна или несколько записей справочника, которые необходимо удалить.
  • Закрываемые дубликаты. Указывается одна или несколько записей справочника, которые необходимо закрыть.
  • Неизменяемые дубликаты. Указывается одна или несколько записей справочника, которые необходимо оставить без изменений.

Анализ изменений

Техническое решение позволяет провести анализ использования в системе выбранных дублирующих записей. По завершению анализа в диалоговом окне отображается список действий, которые будут выполнены по каждой дублирующей записи при обработке:

Выполнение изменений

При работе сценария выполняются следующие действия:

  1. Поиск ссылок дублирующей записи в реквизитах записей справочников и карточек документов системы и замену их на ссылки итоговой записи;
  2. Поиск ссылок дублирующей записи во вложениях задач и замену их на ссылки итоговой записи;
  3. Переопределяет связанные с дубликатом документы на итоговую запись;
  4. Выполняется действие с дублирующей записью, в соответствии с параметром, в котором он был указан:
    • Удаление дублирующей записи справочника;
    • Закрытие дублирующей записи справочника;
    • Оставить дублирующую запись без изменений.

Журнал выполнения

Журнал выполнения содержит информацию о результатах выполненного сценария:

  1. Список дублирующих записей справочника;
  2. Действия и результат их выполнения (Выполнено, Ошибка):
    • Замена ссылки в значении реквизита записи справочника (со ссылкой на запись справочника);
    • Замена ссылки во вложении задачи (со ссылкой на задачу);
    • Переопределение связанного документа (со ссылкой на документ);
    • Итоговая операция с дубликатом (Без изменений, Закрытие, Удаление).
  3. Ошибки, возникшие при работе сценария (если таковые имеются).

Как найти и удалить дубли страниц онлайн на сайте в WordPress

Всем, привет! Дубли страниц на сайтах – одна из серьезных и к сожалению, весьма распространенных проблем. Из-за появления в интернете повторяющихся страниц и одинакового контента, возрастает нагрузка на сервера поисковых машин.

Как удалить дубли страниц и что это такое

Естественно, поисковые компании не хотят платить лишних денег за обработку одной и той же информации два, а то и несколько раз. Поэтому сайты, имеющие дубли страниц и дублированный контент, в случае их обнаружения поисковыми системами (что часто и бывает) подвергаются различным санкциям.

В общем плане считается, что сайты с дублями, с точки зрения поисковых систем, являются менее информационно ценными и полезными для людей. Соответственно, снижаются перспективы успешного продвижения в ТОП10 и привлечения хорошего трафика.

Кроме того, поисковые алгоритмы все еще не абсолютно совершенны. Зачастую в результате канонической (основной) посадочной страницы поисковые роботы выбирают дубль, случайно оказавшийся первым в поле внимания.

В результате ошибочного назначения канонической страницы ресурс требует ссылочную массу, ухудшается поисковое продвижение. Потенциальные клиенты попадают из поиска не на сервисную или продающую страницу, а на дубль и это приводит к снижению качества продаж.

Большое число одинаковых страниц увеличивает потребление программно-аппаратного ресурса на сервере хостинг-провайдера, из-за чего нормальная работа сайта оказывается затруднена. В этом случае дубли могут привести к необходимости переходить на более дорогой тариф хостинговых услуг.

Неопрятности, возникающие из-за появления дублей на сайте, можно еще долго перечислять. Важно разобраться с вопросом – как найти и удалить дубли страниц практически?

Причины возникновения дублей веб-страниц

Приводит к появлению одинаковых или очень похожих веб-страниц могут как ошибки человеческого фактора, так и технические проблемы.

  • Баги систем управления контентом.
  • Недоработки плагинов.
  • Ошибки в работе систем автоматизации SEO-оптимизации динамических сайтов.

Больше всего нареканий со стороны веб-мастеров в отношении дублирования к самой популярной в мире CMS WordPress. В частности, при использовании функции пагинации на сайтах, движок Вордпресс оформляет страниц так, что с точки зрения поисковых алгоритмов они выглядят как дубли.

Опытные блогеры и веб-разработчики время от времени публикуют статьи, в которых рассказывается, как устранить проблему создания дублирующих страниц и контента в том или ином плагине.

Однако решить проблему дублирования для абсолютно всех плагинов Вордпресс нереально – слишком много и часто создаются расширения и дополнения для этой самой распространенной системы управления сайтами. Зачастую плагины разрабатываются независимыми программистами, а исходный код дополнения не публикуется в открытом доступе.

В итоге, задачу найти и удалить дубли на сайте приходится решать вручную либо при помощи различных SEO-приложений и онлайн-сервисов.

Способы обнаружения дублей и удаления на сайта

Для масштабных интернет-ресурсов с тысячами страниц основная задача – максимально автоматизировать процесс и избавиться от ручного просмотра всех разделов ресурса в поисках повторений.

Следует учитывать и то, что для поисковых роботов-индексаторов дублями будут являться не полные клоны (реплики) веб-страниц, но повторяющиеся мета-теги Title, Description, совпадающие фрагменты текста (низкая уникальность), похожие URL-адреса. Как вы понимаете, если все эти параметры проверять вручную – на это уйдет слишком много времени, которого веб-мастерам и администраторам сайтов и так всегда не хватает.

Поэтому чтобы найти дублированные элементы используется специальное программное обеспечение.

  • Онлайн-анализаторы, иногда отдельные инструменты в составе комплексных SEO-сервисов.
  • Устанавливаемое на компьютер программное обеспечение. Возможны варианты поиска дублей в онлайн-режиме, с запросом данных непосредственно на сервере хостинг-провайдера либо офлайн-приложения, для которых файлы сайта необходимо предварительно скопировать на локальный диск компьютера.

Здесь можно упомянуть качественный софт от авторитетного американского SEO-блогера и цифрового антрепренера Нила Пателя (Neil Patel) приложение для анализа сайтов «Screaming Frog SEO Spider».


  • Плагины для систем управления контентом. В частности, для CMS WordPress разработан плагин « Trash Duplicate ».
  • Профессиональные конструкторы сайтов обычно имеют встроенный SEO-модуль, с помощью которого можно провести комплексное тестирование (аудит) сайта на предмет поиска различного рода ошибок. В том числе найти и удалить дубли. Например, такой модуль для комплексного тестирования и автоматизации процесса исправления ошибок имеется в конструкторе сайтов Serif WebPlus.
  • Инструменты для веб-мастеров, предоставляемый поисковыми компаниями – Яндекс.Вебмастер или Google Console (ранее сервис назывался Google Webmaster Tools).
  • SEO-расширения и дополнения, плагины, устанавливаемые в веб-браузерах.

Сторонние SEO-сервисы и приложения могут только находить дублирования на сайте, но не имеют возможностей их удалять, поскольку для редактирования сайта требуются права администратора. После составления списка адресов дублей администратору предстоит вручную заняться редактированием сайта и удалением дублированный.

В этом смысле более удобны в работе устанавливаемые в CMS плагины и SEO-модули в составе инструментов конструкторов сайтов. В этих случаях поиск и уничтожение дублей может происходить «одним кликом».

Чтобы наглядно разобраться, как осуществляется проверка сайта на наличие дублей, можно рассмотреть некоторые из упомянутых в списке инструментов отдельно.

Онлайн-сервис поиска дублей, битых ссылок и прочего

Интерфейс сервиса www.siteliner.com на английском, поэтому для удобства воспользуемся Google-переводчиком . Все очень просто:

  • Вставляем тестируемый домен в поле поиска и нажимаем кнопку «Go».
  • Ждем пока закончится процесс сканирования и анализа.
  • Получаем результат теста.

Результаты исследования оформлены в виде таблицы.

В таблице указано количество сходных страниц, процент сходства, URL-адреса дублей. Полученные данные можно импортировать в различные форматы документов и скачать на компьютер для дальнейшего подробного рассмотрения.

Дается вывод относительно текущего состояния ресурса:

Состояние неплохое – если в среднем по всемирной сети сайты имеют около 14% дублирования, то наш испытуемый ресурс – всего 5%.

Кликнув по ссылке на станицу можно изучить подробности, что именно и где повторяется.

Сервис условно-бесплатный, без подписки доступно для анализа 250 веб-страниц . Для расширения возможностей необходимо зарегистрироваться и оплатить тариф Siteliner Premium.

Дополнительно сервис находит битые (неработающие, ведущие на несуществующие страницы) гиперссылки. Веб-страницы и контент, запрещенные к индексации при помощи тега Noindex и указанные в файле Robots.txt при сканировании пропускаются.

Trash Duplicate and 301 Redirect для WordPress

SEO-дополнение для движка WordPress, с помощью которого можно автоматизировать следующие задачи:

  • Поиск дублей страниц и контента.
  • Пакетное удаление дублирований одним кликом.
  • Автоматическая расстановка редиректов 301. Удаление нежелательных переадресаций.

Для установки этого плагина требуется подписка на Бизнес-тариф сервисов Вордпресс. В реальности, пресловутая «бесплатность» здесь очень ограничена и создаваемые за 5 минут сайты на WordPress годятся разве что для персонального блога с нулевой посещаемостью.

Если вы хотите по-настоящему заниматься цифровым бизнесом на сайте Powered by WordPress, в любом случае придется инвестировать в п рофессиональные темы, плагины, и прочие возможности.

Чтобы установить плагин Trash Duplicate нужно перейти в раздел «Plagins Manage».

Ввести в строку поиска название расширения и кликнуть по значку для запуска процесса инсталляции.

После установки запускается сканирование и по результатам формируется список.

Теперь можно отметить галочками нежелательные или ошибочные публикации и сразу все удалить.

Поиск и удаление дублей в Яндекс.Вебмастере

В раздел «Статистика индексации» можно посмотреть отчет о страницах, которые были по каким-то причинам исключены из поиска. В одном из столбцов таблицы указана причина отказа от включения веб-страницы в базу поисковой системы.

Часть страниц обозначена как «неканонические», а часть прямо отмечена как «дубли».

Теперь дублированные посты можно либо удалить, либо установить на них редиректы. В разделе «Инструменты» имеется возможность указать URL нежелательных публикаций и пакетом их удалить из поиска. Следует понимать, что на сайте эти страницы останутся, просто перестанут индексироваться и участвовать в поиске по запросам.

Альтернативно можно указать для поисковых роботов канонические страницы при помощи атрибута rel=»canonical». Вот как эта процедура описана в Помощи к Яндекс.Вебмастеру:

Исследуемый сайт у нас как раз на WordPress и выше мы рассмотрели, как найти и удалить дубли страниц онлайн при помощи инструментов, предоставленных поисковой системой.

Заключение

Как видите, возможностей и способов найти и удалить дубли страниц онлайн на сайте в WordPress существует много. Конкретный выбор инструментов зависит от особенностей интернет-ресурса и предпочтений веб-мастера.

Наиболее удобные возможности для выявления и удаления дублей страниц, имеются в функционале профессиональных конструкторов сайтов , где действительно можно решить проблему дублей «одним кликом».

А на этом я буду закруглятся. А вы как ищите и удаляете дубли страниц у себя на сайте? Напишите своё решение проблемы в комментариях. И конечно, если хотите быть профессиональным веб-мастером, обязательно подпишитесь на обновление моего блога. До встречи, друзья.

Как быстро найти и удалить все дубли страниц на сайте: 8 способов + лайфхак

Дубли — это страницы с одинаковым контентом. Они могут появиться при автогенерации, некорректных настройках, вследствие изменения структуры сайта или при неправильной кластеризации. Дубликаты негативно влияют на SEO-продвижение, так как поисковые системы хуже ранжируют страницы с похожим контентом. Кроме того, большое количество слабых, несодержательных или пустых страниц понижают оценку всего сайта. Поэтому важно своевременно отслеживать и устранять подобные проблемы.

В данной статье подробно рассмотрим, как найти и удалить дубли, а также предотвратить их появление.

Топ-пост этого месяца:  Советы по поводу PWA iOS решение проблем с поддержкой и других трудностей

Виды дублей

Дубликаты бывают 3-х видов:

  1. Полные — с полностью одинаковым контентом;
  2. Частичные — с частично повторяющимся контентом;
  3. Смысловые, когда несколько страниц несут один смысл, но разными словами.

Зачастую при анализе обращают внимание лишь на полные совпадения, но не стоит забывать про частичные и смысловые, так как к ним поисковики тоже относятся критично.

Полные

Полные дубли ухудшают хостовые факторы всего сайта и осложняют его продвижение в ТОП, поэтому от них нужно избавиться сразу после обнаружения.

К ним относятся:

  1. Версия с/без www. Возникает, если пользователь не указал зеркало в панели Яндекса и Google.
  2. Различные варианты главной страницы:
    • site.net;
    • site.net/index;
    • site.net/index/;
    • site.net/index.html;
  3. Страницы, появившиеся вследствие неправильной иерархии разделов:
    • site.net/products/gift/
    • site.net/products/category/gift/
    • site.net/category/gift/
  4. UTM-метки. Метки используются, чтобы передавать данные для анализа рекламы и источника переходов. Обычно они не индексируются поисковиками, но бывают исключения.
  5. GET-параметры в URL. Иногда при передаче данных GET-параметры попадают в адрес страницы:
    • site.net/products/gift/page.php?color=red
  6. Страницы, сгенерированные реферальной ссылкой. Обычно они содержат специальный параметр, который добавляется к URL. С такой ссылки должен стоять редирект на обычный URL, однако часто этим пренебрегают.
  7. Неправильно настроенная страница с ошибкой 404, которая провоцирует бесконечные дубли. Любой случайный набор символов в адресе сайта станет ссылкой и без редиректа отобразится как страница 404.

Избавиться от полных дубликатов можно, поставив редирект, убрав ошибку программно или закрыв документы от индексации.

Частичные

Частичные дубликаты оказывают не такое сильное влияние на сайт, как полные. Однако если их много — это ухудшает ранжирование веб-ресурса. Кроме того, они могут мешать продвижению и по конкретным ключевым запросам. Разберем в каких случаях они возникают.

Характеристики в карточке товара

Нередко, переключаясь на вкладку в товарной карточке, например, на отзывы, можно увидеть, как это меняет URL-адрес. При этом большая часть контента страницы остаётся прежней, что создает дубль.

Пагинация

Если CMS неправильно настроена, переход на следующую страницу в категории меняет URL, но не изменяет Title и Description. В итоге получается несколько разных ссылок с одинаковыми мета-тегами:

Такие URL-адреса поисковики индексируют как отдельные документы. Чтобы избежать дублирования, проверьте техническую реализацию вывода товаров и автогенерации.

Также на каждой странице пагинации необходимо указать каноническую страницу, которая будет считаться главной. Как указать этот атрибут, будет рассмотрено ниже.

Подстановка контента

Часто для повышения видимости по запросам с указанием города в шапку сайта добавляют выбор региона. При нажатии которого на странице меняется номер телефона. Бывают случаи, когда в адрес добавляется аргумент, например «wt_city_by_default=..». В результате, у каждой страницы появляется несколько одинаковых версий с разными ссылками. Не допускайте подобной генерации или используйте 301 редирект.

Версия для печати

Версии для печати полностью копируют контент и нужны для преобразования формата содержимого. Пример:

  • site.net/blog/content
  • site.net/blog/content/print – версия для печати;

Поэтому необходимо закрывать их от индексации в robots.txt.

Смысловые

Смысловые дубли — это статьи, написанные под запросы из одного кластера. Чтобы их обнаружить, нужно воспользоваться результатом парсинга сайта, выполненного, например, программой Screaming Frog. Затем скопировать заголовки всех статей и добавить их в любой Hard-кластеризатор с порогом группировки 3,4. Если несколько статей попали в один кластер – оставьте наиболее качественную, а с остальных поставьте 301 редирект.

Варианты устранения дубликатов

При дублировании важно не только избавиться от копий, но и предотвратить появление новых.

Физическое удаление

Самым простым способом было бы удалить повторяющиеся страницы вручную. Однако перед удалением нужно учитывать несколько важных моментов:

  • Источник возникновения. Зачастую физическое удаление не решает проблему, поэтому ищите причину;
  • Страницы можно удалять, только если вы уверены, что на них не ссылаются другие ресурсы. Проверить это можно с помощью условно-бесплатного инструмента.

Настройка 301 редиректа

Если дублей не много или на них есть ссылки, настройте редирект на главную или продвигаемую страницу. Настройка осуществляется через редактирование файла . htaccess либо с помощью плагинов. Старый документ со временем выпадет из индекса, а весь ссылочный вес перейдет новой странице.

Создание канонической страницы

Указав каноническую страницу, вы показываете поисковым системам, какой документ считать основным. Этот способ используется для того, чтобы показать, какую страницу нужно индексировать при пагинации, сортировке, попадании в URL GET-параметров и UTM-меток. Для этого на всех дублях в теге прописывается следующая строчка со ссылкой на оригинальную страницу:

Например, на странице пагинации главной должна считаться только одна страница: первая или «Показать все». На остальных необходимо прописать атрибут rel=»canonical», также можно использовать теги rel=prev/next.

Для 1-ой страницы:

Для второй и последующей:

Для решения этой задачи на сайтах WordPress используйте плагины Yoast SEO или All in One SEO Pack. Чтобы все заработало просто зайдите в настройки плагина и отметьте пункт «Канонические URL».

Запрет индексации файла Robots.txt

Файле robots.txt — это своеобразная инструкция по индексации для поисковиков. Она подойдёт, чтобы запретить индексацию служебных страниц и дублей.

Для этого нужно воспользоваться директивой Disallow, которая запрещает поисковому роботу индексацию.

Disallow: /dir/ – директория dir запрещена для индексации

Disallow: /dir – директория dir и все вложенные документы запрещены для индексации

Disallow: *XXX – все страницы, в URL которых встречается набор символов XXX, запрещены для индексации.

Внимательно следите за тем какие директивы вы прописываете в robots. П ри некорректном написании можно заблокировать не те разделы либо вовсе закрыть сайт от поисковых систем.

Запрет индексировать страницы действует для всех роботов. Но каждый из них реагирует на директиву Disallow по-разному: Яндекс со временем удалит из индекса запрещенные страницы, а Google может проигнорировать правило, если на данный документ ведут ссылки.

Причины возникновения

Обычно при взгляде на URL-адрес можно сразу определить причину возникновения дубля. Но иногда нужен более детальный анализ и знание особенностей CMS. Ниже приведены 6 основных причин, почему они могут появляться:

  1. >Joomla создаёт большое количество дублей, в отличие, например, от WordPress .
  2. Ссылки с GET-параметрами.
  3. Страницы комментариев.
  4. Документы для печати.
  5. Документы с www и без www.

Некоторые ошибки могут появиться и по другим причинам, например, если не указан редирект со старой страницы на новую или из-за особенностей конкретных скриптов и плагинов. С каждой такой проблемой нужно разбираться индивидуально.

Отдельным пунктом можно выделить страницы, дублирующиеся по смыслу. Такая ошибка часто встречается при неправильной разгруппировке. Подробнее о том как ее не сделать читайте по ссылке.

Как дубликаты влияют на позиции сайта

Дубли существенно затрудняют SEO- продвижение и могут стать препятствием для выхода запросов в ТОП поисковой выдачи.

Чем же они так опасны:

  1. Снижают релевантность страниц. Если поисковик замечает несколько url-ов с одинаковым контентом, их релевантность снижается и оба документа начинают ранжироваться хуже.
  2. Уменьшают процент уникальности текстов. Уникальность будет разделена между дублирующими документами, а значит копия будет неуникальной по отношению к основной странице. В итоге общая уникальность сайта понизится.
  3. Разделяют вес. Поисковик показывает по одному запросу только 1 станицу сайта (если он не витальный), поэтому наличие нескольких документов снижает вес каждого урла.
  4. Увеличивают время индексации. Поисковый робот дольше сканирует веб-ресурс из-за большого количества документов.


Инструменты для поиска

Как найти дублирующие ся документы? Это можно сделать с помощью программ и онлайн-сервисов. Часть из них платные, другие – бесплатные, некоторые – условно-бесплатные (с пробной версией или ограниченным функционалом).

Яндекс.Вебмастер

Чтобы посмотреть наличие дубликатов в панели Яндекса, необходимо:

  • выбрать вкладку «Индексирование»;
  • открыть раздел «Страницы в поиске»;
  • посмотреть количество «Исключенных страниц».

Страницы исключаются из индекса по разным причинам, в том числе из-за повторяющегося контента. Обычно конкретная причина прописана под ссылкой.

Netpeak Spider

Netpeak Spider – платная программа с 14-дневной пробной версией. Если провести поиск по заданному сайту, программа покажет все найденные ошибки и дубликаты.

Бесплатным аналогом этих программ является Xenu, где можно проанализировать даже не проиндексированный сайт.

При сканировании программа найдет повторяющиеся заголовки и мета-описания.

Screaming Frog Seo Spider

Screaming Frog Seo Spider является условно-бесплатной программой. До 500 ссылок можно проверить бесплатно, после чего понадобится платная версия. Наличие дублей программа определяет так же, как и Xenu, но быстрее и эффективнее. Если нет денег на покупку рабочий ключ можно найти в сети.

Сервис-лайфхак

Для тех кто не хочет осваивать программы, рекомендую воспользоваться техническим анализом от Wizard.Sape. Аудит делается в автоматическом режиме в среднем за 2-4 часа. Цена вопроса — 690 рублей. В течении 30 дней бесплатно можно провести повторную проверку.
Помимо дублированного контента и мета-тегов инструмент выдает много полезной информации:

  • показывает все 301 редиректы;
  • обрабатку заранее ошибочных адресов;
  • страницы на которых нет контента;
  • битые внешние и внутренние ссылки и картинки.

Вывод

Полные и частичные дубли значительно осложняют продвижение сайта. Поэтому обязательно проверяйте ресурс на дубликаты, как сгенерированные, так и смысловые и применяйте описанные в статье методы для их устранения.

Как удалить дубли страниц

Здравствуйте уважаемые читатели и подписчики. Как проходит лето? Надеюсь, более чем насыщенно. В сегодняшнем посте мы опять поговорим о продвижении сайта, а если быть более точным, то уделим внимание поиску и устранению дублей страниц.

Прежде чем начать, хотелось бы рассказать новичкам, что вообще такое дубли и как они могут препятствовать продвижению. Дубли страниц возникают из-за того, что один тот же контент доступен по разным адресам. Например: sayt.ru/statja и www.sayt.ru/statja. Это приводит к тому, что контент на сайте становится неуникальным и позиции в поисковых системах падают. Чаще всего дубли возникают из-за особенности той или иной CMS (движка блога), а также из-за неопытности и невнимательности вебмастера.

Дубли можно разделить на 2 категории: полные и не полные. В перовом случае дублируется вся страница, во втором, только ее часть, например, после анонса в RSS.

Если на своем сайте Вы обнаружили дубли контента, то вот с какими проблемами Вы можете столкнуться при продвижении:

  • Потеря внутреннего ссылочного веса. Это может произойти из-за того, что ссылки ведут на дублированные страницы, вместо того чтобы увеличивать вес продвигаемой. Простой пример: при внутренней перелинковке, Вы можете случайно ошибиться и сослаться на дублированную страницу, в таком случае вес страницы пропадает в пустую.
  • Подмена основной страницы в индексе. Дублированная страница может быть расценена поисковиками как оригинальная и свободно попасть в основной индекс. Если такое произойдет, то все усилия по ее продвижению будут напрасны и соответственно позиции по нужным запросам просядут.
  • Если дублей очень много, то есть риск попадания под фильтр Яндекса АГС.

Теперь, когда мы узнали определение и последствия дублей, можно приступать к их поиску и устранению. Устранение сводиться к тому, чтобы запретить дублям индексироваться

Устранение самых распространенных дублей

Сайт доступен с www и без www

Откройте главную страницу сайта. У меня это life-webmaster.ru (без www, но у Вас может быть наоборот). Теперь уберите или допишите к адресу www. Если дубля нет, то Вас будет автоматически перебрасывать на основное зеркало. Если сайт доступен и с www и без него – это дубль и от него нужно избавляться.

Делается это очень просто. Если вы хотите сделать сайт доступным без www, то в конец файла .htaccess пишем этот код:

Топ-пост этого месяца:  Как происходит в TypeScript объявление переменных синтаксис, присвоение типа, примеры кода

Options +FollowSymLinks RewriteEngine On RewriteCond % ^www.domain\.com$ [NC] RewriteRule ^(.*)$ http://domain.com/$1 [R=301,L]

Если с www, этот:

RewriteEngine On RewriteCond % !^www\.(.*) [NC] RewriteRule ^(.*)$ http://www.%1/$1 [R=301,L]

В индексе присутствуют страницы с параметрами page=1; .php и т.д.

Эта проблема наблюдается в основном у тех, кто использовал движок WordPress для создания своего сайта. Дело в том, что URL, который использует данный движок для записей, выглядит следующим образом: sayt.ru/?p=1. Это не очень хорошо, но решается тегом rel=”canonical”, который есть в любом seo плагине. Если у Вас другая CMS, то зайдите в файл index.php и добавьте этот тег вручную. Если тег rel=”canonical” уже прописан на Вашем сайте, this is хорошо.

Дубли со слешами на конце

Суть в том, что страница доступна по ссылке со слешем (/) и без него. Проверяется следующим образом:

  • Открываем статью сайта
  • Например, у меня открылась sayt.ru/statja/ (т.е. со слешем)
  • Теперь убираем слеш, получиться sayt.ru/statja

Если одни и те же страницы будут открываться со слешем и без него, то это дубль:

Устранить эту проблему можно прописав в конец файла .htaccess следующее правило:

RewriteBase / RewriteCond % (.*) RewriteCond % /$ [NC] RewriteRule ^(.*)(/)$ $1 [L,R=301]

Оно уберет слеш на конце ссылки и будет перенаправлять пользователя на правильную страницу. Например, человек ввел в адресную строку адрес sayt.ru/statja/ и его тут же перебросит на sayt.ru/statja

Этими действиями мы предотвратили появление в индексе дублированного контента, но что делать, если таковой уже имеется в выдаче? В таком случае нужно отыскать, и избавится от него вручную.

Поиск дублированного контента в индексе

Есть множество способов найти дублированный контент, давайте рассмотрим самые основные:

Расширенный поиск Яндекса. Заходим в этот поисковик и жмем “расширенный поиск”:

Берем кусок текста из старого поста, заключаем его в кавычки и вставляем в строку поиска. Далее вводим адрес блога и жмем “Найти”:

Если по таким запросам показывается несколько страниц, то это дубли. Заметьте, что нужно брать текст из середины или конца поста, потому как первые предложения могут встречаться на главной странице или в рубриках блога.

Если найдены дубли, то удалите их с помощью инструмента из Яндекс Вебмастера.

Конечно, если на Вашем сайте тысячи страниц то проверять его ручками можно вечно, поэтому для упрощения работы придумана программа XENU.

Проверка с помощью программы Xenu. Эта программа проанализирует все ссылки Вашей площадки и укажет на возможные ошибки. Программка на английском, но разобраться в ней несложно.

Итак, скачиваем ее отсюда (жмем кнопку Download) и устанавливаем на компьютер. После установки запустите программу, перейдите в раздел “file” и выберите подраздел “check URL”:

Здесь введите адрес нужного сайта и нажмите ok. Начнется процесс проверки ссылок. Прошу заметить, что полная проверка может длиться достаточно долго, поэтому не переживаем.

Все ошибки будут подсвечены красным цветом, поэтому распознать проблемные страницы будет несложно. После анализа, программа предложить сделать карту сайта, но этого делать не нужно.

Еще одним удобным способом проверки дублированных страниц является инструмент в Google Webmaster. Если Ваш сайт добавлен туда, то перейдите в раздел “оптимизация”, а затем в “оптимизация html”. Здесь будут показаны одинаковые тайтлы и description, что говорит о дублированном контенте. Если все good, то ы увидите следующие:

После нахождения дублей анализируйте их появление, и устраняйте вышеперечисленными способами. Если найдены дубли с непонятными адресами, то закрывайте их от индексации через robots.txt. Также если на Вашем сайте есть архив записей, то его тоже лучше закрыть от индексации в robots.txt либо через All in One Seo Pack.

На этом все, надеюсь, Вы выявили все проблемные страницы Вашего сайта и с успехом удалили их. Если возникли вопросы по поводу дублей, не стесняйтесь, я всегда открыт для общения.

Песенка на закуску

Буду благодарен за подписку и за репост в социальных сетях. Удачного лета друзья.
p.s. Стал писать реже, потому что уехал в Крым :3

Подпишитесь на обновления блога Life-Webmaster.ru и получайте в числе первых новые статьи про создание блога, раскрутку и заработок на нем!
Подписка по RSS

Лично у меня с Яндексом вообще проблем нет, в индексе всего 145 страниц, как и должно быть. Это я добился тупо через файл robots.txt. Прописал там необходимые для меня параметры и забыл.
А вот google не хочет его брать. точнее он его индексирует но не принимаем в серьез. Уже около 2000 страниц в индекса. Я заметил что так почти у всех, но есть люди у которых также как и у Яшки, то есть, google лишнее не забирает. Пытался у них разузнать что да как. но бело в том, что они сами не знаю. Беда.
Уже столько различных статей прочитал и у самого google спрашивал, но итога нет. Вот я и думаю. стоит мне все это проделывать, если в Яншку лишнее не лезет. Мне нужно на google повлиять. Поможет то, о чем ты в статье написал? Как думаешь? Или знаешь?

Я вот у тебя поглядел через анализатор, в индексе google более 2000 страниц. То если если ты на своем блоге все о чем написал применяешь, значит это не поможет. Тогда может ты можешь подсказать где найти то что мне надо?

Кстати, я у себя конкурс запустил. Забегай поучаствуй. Думаю, будет весело. Такого конкурса я еще ни у кого не видел. Моя, так сказать, собственная мысля. Придешь? Ну, я тебе на почту на всякий случай написал.

P.S. Хочу у тебя одну статейку попросить. Ну, если ты разбираешься в этом. Как можно рекламное объявление в Яндекс.Директор заказать чтобы продавать инфопродукты. Я слышал, у тебя был опыт хороший. Ну, помнишь ты говорил что как-то продавал через яндекс директор продукт про похудание, вреде. Купил рекламу на 300 и получил чистой прибыли , вроде 900 рублей. Хочу попробовать повторить. Ну не то чтобы такой же продукт продавать и столько же заработать, а просто заработать на этом хочу. Деньги есть для рекламы, нужно теперь их увеличить! Расскажешь что-нибудь интересное на этому тему? Может поделишься, посоветуешь что-то?

P.S. Кстати, помнишь ты делал обзор моего блога? Так вот я все твои советы применил, и уже вывел блога на 100-150 посетителей. Очень доволен результатом 🙂 Спасибо за советы и проделанную работу. Давай нам еще вечерний борщь, другим поможешь!?

Ладно уж. что-то я расписал…

Ну почему же не использую, я использую, только с гуглом беда и robots он тоже читать не хочет. С Яндексом у меня нормально все 🙂
С конкурсом ознакомлюсь. Про статейку, думаю можно будет написать, почему нет.
Поздравляю Андрюха, Воскресный борщ не будет заброшен, вернусь из Крыма и продолжу обзоры 🙂

Хорошо, буду ждать статью с нетерпением. Уж очень хочется попробовать свои силы в этом и с читателями поделиться 🙂 Спасибо.

Гугл robots.txt читает, но понимает он его очень специфично. Все страницы запрещенные к индексации он отправляет в дополнительный индекс. Если хотите снизить показатель то нужно просто зайти в инструменты Гугл вебмастера и удалять страницы через Удалить URL-адреса. Работа конечно же нудная но после этого должна повысится лояльность гугла, сам начал понемногу удалять страницы, надеюсь будет эффект.

Слишком нужная работа для меня. Сейчас Гоша 2300 страниц забрал, а нормальных только 150-160. Ни тут роботы на день. И не справлюсь 🙂 Может фрилансера подыскать…

Лучше всего найти негра для такой работы, я взял для этого двенадцатилетнего паренька и всего за триста рублей. Но, наверно, если за один день все страницы удалить то будет палевно, нужно растянуть на несколько дней. Ну и еще нужно разобраться откуда столько дублей — две тысячи это очень много.

Спасибо за статью.
Вставил в .htacess пару кусочков кода. Возникли проблемы:
та часть кода, которая должна была убрать дубли с www, их не убрала.
та, что убирает дубли со слешами — работает.
Но оба эти варианта дают баг при логине в админку — как будто данные не отправляются, не могу залогиниться.
Пришлось обратно все убрать
Буду благодарен за помощь

Как удалить дублирующие свойства в css?

Обнаружил для себя что в сss много дублей; в примере position, иногда значения их разные..
Связываю это с гитом
.case_wrap .same__text <
margin: 90px 0 100px;
position: relative;
padding-left: 15px;
padding-right: 15px;
position: relative;
>

Есть ли способ почистить автоматом?? или в ручную ??

  • Вопрос задан более года назад
  • 405 просмотров

Максим Тимофеев, а может примером показать как пользоваться cssnano? Я поставил себе gulp-cssnano, в таске прописал вот это:

но почему-то у меня ничего не работает.

Alexon Classic, ну так пример есть на самом npm:

https://www.npmjs.com/package/gulp-cssnano
по Вашему куску конфига ничего не понятно. Надо брать файл или файлы и куда-то писать результат.

Alexon Classic, Что значит использовать?
Как-то так:

По declaration-sorter например, надо смотреть его доки https://github.com/Siilwyn/css-declaration-sorter/ не юзал, так что сходу не скажу

Я так понимаю нужно вот так:

т. е. просто указать . свойство? и через двоеточие true или false? Или true нужно в фигурные скобки взять или как?

И еще, у меня есть в файле _fonts.scss шрифты, которые прописываются вот так:

так вот SCCNano в конечном моем CSS файле — удаляет эту запись.

Как CSSNano «сказать» чтобы он не трогал @font-face?

Задача: написать код, удаляющий дубликаты из несортированного связного списка

Дополнительное задание. Как вы будете решать задачу, если запрещается использовать временный буфер?

Решение

Что бы удалить копии из связного списка, их нужно сначала найти. Для этого подойдет простая хэш-таблица. В приведенном далее решении выполняется проход по списку, каждый элемент которого добавляется в хэш-таблицу. Когда обнаруживается повторяющийся элемент, он удаляется, и цикл продолжает работу. За счет использования связного списка всю задачу можно решить за один проход.

Приведенное решение потребует O(N) времени, где N – количество элементов в связном списке.

Дополнительное ограничение: использование буфера запрещено

В этом случае мы можем реализовать цикл с помощью двух указателей: current (работает через связный список) и runner (проверяет все последующие узлы на наличие дубликатов).

Данный код требует всего O(1) пространства, но занимает O(N2) времени.

Как показать один результат и удалить дублируемую категорию

Я хотел бы показать только один результат, используя следующий запрос:

В результате получилось:

Мой вопрос: я хотел бы знать, как удалить дублируемую категорию.

Я разрешил эту проблему с jquery.

Пример после foreach — это выход.

Один быстрый трюк состоит в том, чтобы просто хранить их в 2-мерном массиве. Просто сделайте следующее, вместо того, чтобы эхоиздать элемент в тот момент, когда у вас есть:

Запись создается, и когда вы нажимаете дубликат, она просто воссоздает запись. Теперь вы можете

Как добавленный лакомый кусочек, вы можете даже увеличить значение, вместо того, чтобы устанавливать его на 0, если вам нужно знать, сколько раз элемент отображается в списке

Добавить комментарий