Индексация WordPress. Как закрыть WordPress от индексации


Содержание материала:

Как закрыть сайт от индексации?

Приветствую вас, посетители сайта Impuls-Web!

Когда вы только приступили к созданию сайта и не хотите, что бы поисковые системы индексировали его до завершения работ, вы может закрыть сайт от индексации в поисковых системах.

Навигация по статье:

Так же такая необходимость может возникнуть для тестового сайта, или для сайта, который предназначен для закрытого пользования определенной группой лиц, и вам не нужно, чтобы внутренние ссылки попали в выдачу поисковиков.

Я хочу вам сегодня показать несколько достаточно простых способов, как можно закрыть сайт от индексации.

Как закрыть сайт от индексации в WordPress?

Данный способ, наверное, самый простой, и владельцам сайтов, которые созданы на базе CMS WordPress, очень повезло. Дело в том, что в данной CMS предусмотрена возможность закрытия сайта от индексации при установке движка на хостинг. В случае если вы не сделали этого при установке, вы всегда можете это сделать в настройках. Для этого вам нужно:

  1. 1. В админпанели переходим в раздел «Настройки»«Чтение».
  2. 2. Перелистываем открывшуюся страницу в самый низ, и отмечаем галочкой опцию показанную на скриншоте:

Все. Теперь ваш сайт не будет индексироваться. Если открыть страницу в браузере и нажать комбинацию клавиш CTRL+U, мы сможем просмотреть код страницы, и увидим вот такую строку кода:

Данная запись была добавлена автоматически, после того как мы включили опцию запрета индексации в настройках.

Главное не забыть отключить эту опцию после завершения работ:)

Как закрыть сайт от индексации name=»robots»?

Данный способ заключается в самостоятельном добавлении записи, показанной на предыдущем скриншоте. Данный вариант подойдет для тех сайтов, которые создаются без использования CMS.

Вам всего лишь нужно в начале каждой страницы, перед закрытием тега добавить эту запись:

Как закрыть ссылку от индексации без изменения файлов движка WordPress

Существует наверное единственный эффективный и простой способ закрыть ссылку комментатора от индексации — это, так называемый способ подмены ссылки на скрипт с текстовым полем и тегом .

В WordPress за вывод ссылки комментатора, если она указана в поле «сайт», отвечает функция в файле wp-includes/comment-template.php:

function get_comment_author_link( $comment_ > $url = get_comment_author_url( $comment_ID );
$author = get_comment_author( $comment_ID );
if ( empty( $url ) || ‘http://’ == $url )
$return = $author;
else
$return = «$author»;
return apply_filters( ‘get_comment_author_link’, $return );
>

Именно данную функцию нам необходимо изменить с помощью простого скрипта и функции, добавленной в function.php.

Нужно ли закрывать ссылки комментаторов от индексации

В свете последних событий с изменениям в алгоритмах Яндекс вопрос «закрытия ссылок» имеет особенную актуальность. Как следовало того ожидать, ссылки в nofollow начали отображаться в вебмастере Яндекс. С таким положением дел ссылочный спам получил «второе» дыхание.

Программы авто-спама в буквальном смысле начали понимать текст статей, добавляя казалось бы адекватные комментарии с тематическими ссылками. Вырос объём и ручного спама, не читающих ваш материал, а просто оставляющих ссылки на собственные блоги в надежде на некоторый прямой трафик.

Второй причиной, почему следует закрывать ссылки комментариев от индексации, является их актуальность.

Каждый автор блога WordPress знает, что на каждую хорошую статью на блоге приходится не менее 10 комментариев. На моём блоге при 35 опубликованных статьях насчитывается 412 комментариев. Даже с учётом того, что каждый второй мой — это 200 исходящих ссылок на интернет-документы.

Постоянно отслеживать и проверять данные ссылки просто не хватает времени, да и сам процесс не имеет смысла. Но проблемы ссылок никуда не исчезают:

  • ссылки могут стать битыми (блог перестал существовать),
  • интернет-ресурс на который указывает ссылка с комментатора сменил тематику на запрещенную,
  • ссылка стала редиректом (реферальный спам, дорвеи, некачественный контент) и т.д.

Причин закрыть ссылки для индексации действительно много. Но какой же была блогосфера без обратной связи, что это за сообщество, в котором нет связей?

Именно поэтому опытные вебмастера прячут ссылки различными способами от поисковых систем, оставляя возможность пользователям без проблем переходить по ним.

Как закрыть ссылку от индексации без изменения файлов WordPress

Честно вам скажу, я не являюсь автором данного способа, я лишь усовершенствовал его под себя, изменив функционал, который будет работать на любом блоге WordPress.

Я долгое время пользовался довольно простым способом закрытия ссылок от индексации с помощью изменения файлов WordPress и добавления скрипта и изменения тега . Пока мне это не надоело, ведь каждое обновление WordPress возвращало файлы в первоначальный вид.

Данный способ мне подсказала поисковая выдачи и блог вебмастера моего тезки Максима Зайцева. У Максима написаны две статьи:

Как закрыть ссылки на авторов комментариев
Как скрыть ссылки комментаторов без изменения файлов WordPress

Первая из которых описывает способ изменения файлов, вторая — без изменений файлов, но с подключением библиотеки jQuery.

Как я уже сказал, первый способ мне более не подходит (слишком часто приходится вносить изменения), второй же способ требует обработки скрипта через сторонний сервис, что не совсем правильно в отношении скорости загрузки сайта.

Именно поэтому я предлагаю закрыть ссылки от индексации без изменения файлов движка и лишних обращений к сторонним библиотекам.

Добавляем скрипт либо в файл footer.php, либо на страницы, где необходимо закрыть ссылку, например single.php перед

Добавляем функцию в файл function.php, которая заменяет теги и запускает работу скрипта:

function marseo_link( $marseo_remove ) <
$url = get_comment_author_url( $comment_ID );
$cut = array(» $insert = array(» Анкор ссылки

Так первую ссылку на блог Максима я оставил открытый, а вторую закрыл скриптом.

Распространённые SEO-ошибки сайтов на WordPress

Здравствуйте, друзья! Хотите получить хорошую позицию в выдаче поисковых систем? Тогда вам нужно подойти более ответственно к вашему SEO. А я вам помогу. Сегодня мы с вами рассмотрим — самые распространённые SEO-ошибки сайтов на WordPress. Использование движка WordPress даёт вам большое преимущество. В популярной CMS есть все базовые возможности для правильной настройки SEO. Используйте их.

Ошибки SEO начинающих блогеров в оптимизации сайтов

WordPress по праву считается одной из самых SEO-дружественных платформ для создания сайта: она имеет ряд функций и характеристик, которые помогают адаптировать ресурс согласно рекомендациям поисковых систем даже без помощи разработчиков. Однако далеко не все владельцы оптимизируют свои сайты под SEO, из-за чего пробиться в ТОП-10 выдачи и выдержать конкуренцию очень сложно. Вебмастера допускают следующие SEO-ошибки на своих сайтах.

SEO-ошибки на сайтах WordPress

В этой статье мы разберём самые частые SEO-ошибки и упущения начинающих блогеров в оптимизации сайтов.

Не оптимизированные URL-адреса

Автоматическая генерация URL в WordPress облегчает работу и позволяет экономить время. Но не правильно настроив генерацию, вы рискуете получить множество нелогичных адресов, состоящих из беспорядочного набора символов. Такие URL являются не информативными и затрудняют навигацию, а это, в свою очередь, отрицательно влияет на поведенческие факторы. К тому же оптимизированные URL давно стали одним из факторов ранжирования большинства поисковых систем.

Чтобы ваши URL были читабельными, настройте генерацию URL по названию постов. Для этого в разделе «Настройки» → «Постоянные ссылки» отметьте пункт «Название записи».

Настройки постоянных ссылок

Оптимизировать URL необходимо сразу после установи Вордпресс. Но даже после этой настройки проверяйте каждый URL на уникальность (в рамках сайта) и соответствие ЧПУ.

По возможности укорачивайте URL — так они выглядят привлекательнее, за счёт чего могут способствовать повышению рейтинга кликов. Желательно также, чтобы при этом в URL содержалось ключевое слово.

Важно : если вы используете форматы ссылок «день и название» или «месяц и название» более полугода, не меняйте в настройках структуру постоянных ссылок, так как это может спровоцировать снижение рейтинга.

Отсутствие или неправильная настройка файла robots.txt

Для корректной и быстрой индексации сайта поисковыми роботами очень важно правильно настроить файл robots.txt и следить, чтобы в нём не было допущено ошибок, особенно:

  • ошибок в синтаксисе;
  • ошибок в директивах;
  • закрытие доступа к сканированию важной части контента сайта;
  • блокировки файлов изображений и CSS.

Чтобы избежать ошибок в написании директив и синтаксиса, ознакомьтесь со справкой Google и Яндекс, где подробно описана специфика файла. А плагины WP Robots Txt и Yoast SEO помогут вам в быстрой и автоматической генерации файла robots.txt.

Проверить, какие страницы закрыты или открыты в уже существующем robots.txt, вы можете с помощью специальных программ. Например, краулера Netpeak Spider . Из главного окна программы перейдите в «Настройки» → «Продвинутые». В разделе «Учитывать инструкции по сканированию и индексации» отметьте пункт «Robots.txt».

Проверка robots txt

Сохраните настройки. На боковой панели на вкладке «Параметры» отметьте «Разрешён в robots.txt».

Сканирование и индексация robots txt

Вставьте главный домен сайта в верхнюю строку и нажмите «Старт».

По завершении сканирования в окне «Все результаты» ознакомьтесь с колонкой «Разрешён в robots.txt», где значение TRUE означает, что страница открыта к индексации, а FALSE — закрыта.

Разрешён в robots.txt

Также закрытые от индексации и сканирования страницы попадут во вкладку «Пропущенные URL».

Отсутствие XML-карты сайта

Ухудшение индексации может быть вызвано не только ошибками в файле robots,txt, но также отсутствием XML-карты сайта.

XML-карта сайта (файл Sitemap) — это документ, который сообщает поисковым системам о страницах сайта, доступных для индексации.

C автоматическим созданием файла XML Sitemap отлично справляется WordPress плагин Google Sitemap Generator.

Генератор XML-карты сайта для WordPress

Также для создание XML карты сайта можно использовать SEO плагин Yoast SEO или All in One SEO Pack.

Не оптимизированные мета-теги

Мета-тег Description и тег Title очень важны для сайта, так как именно их видит пользователь в результатах выдачи, когда ищет нужную информацию.

Description — Предназначен для предоставления поисковым системам краткого описания содержимого страницы для индексации и вывода сопроводительной информации в выдаче результатов поиска.

Заголовок (Title) — это один из самых важных факторов оптимизации страницы. Именно заголовок первым видит посетитель поисковой системы в органической выдаче. Именно Title он первым оценивает и принимает решение перейти или нет на ваш сайт.

Тег Title и метатег Description

Для настройки тегов Title и мета описания воспользуйтесь плагином WordPress Yoast SEO. Но перед этим ознакомьтесь с требованиями по их составлению, так как неправильно составленные Title и Description могут навредить продвижению сайта.

Как правильно составить Title

  • коротко и понятно передать в нём содержимое страницы;
  • стараться не превышать длину в 70 символов (с пробелами);
  • включить минимум один высокочастотный запрос;
  • сделать его уникальным для каждой отдельной страницы.

Как составить правильный Meta Description

  • придерживаться оптимальной длины — от 60 до 320 символов;
  • сделать его уникальным для каждой страницы;
  • добавить ключевое слово.

Сделать проверку Title и мета описания страниц на сайте вы можете также в краулере Netpeak Spider, который определяет:

  • дубликаты Title и Description;
  • страницы, где нет Title и Description;
  • слишком короткие или слишком длинные Title и Description.
  1. На вкладке «Параметры» боковой панели программы в разделе «Head теги» отметьте нужные параметры.
  2. Запустите сканирование.
  3. После его окончания на боковой панели ознакомьтесь с найденными ошибками.

Ознакомьтесь с найденными ошибками Title и Description

Не оптимизированные изображения

Изображения положительно влияют на восприятие контента и способствуют притоку дополнительно трафика. И чтобы изображения не утяжеляли страницу (скорость загрузки сайта) и хорошо ранжировались в поиске, их необходимо оптимизировать.

Изображения — это именно те ресурсы, которые занимают много места на странице и весят больше всего. Благодаря их оптимизации мы можем
значительно уменьшить количество скачиваемых данных и улучшить работу сайта.

Для изображений следующие требования:

  • Задайте единый размер изображений для всего сайта и придерживайтесь его.
  • Сжимайте изображения с помощью программ или специальных сервисов (Compressor, TinyJPG, TinyPNG, ImageOptim), чтобы ускорить загрузку страницы.
  • Прописывайте атрибут ALT. С его помощью поисковым роботам будет проще определить содержимое изображения, а пользователям — найти его в поиске по картинкам.
  • Давайте понятные и читабельные названия файлам изображений.

Отсутствие внутренних ссылок (Внутренняя перелинковка)

Внутренние ссылки на страницах облегчают навигацию, передают вес, тем самым помогая улучшить продвижение страниц.

Перелинковкой сайта (от английского «link») называют связывание страниц одного сайта или разных ресурсов гиперссылками.

Количество ссылок с других страниц сайта говорит поисковым системам, насколько данная страница ценна, по сравнению с иными страницами. А использование анкорных ссылок показывает, как минимум, тематику страницы — акцептора, переносят на нее релевантность. Поэтому, контекстные ссылки из текста страницы более ценны для ПС, чем ссылки из меню.

И как обычно, важны не только слова запроса, но и их синонимы. Разместить внутренние контекстные ссылки в WordPress очень просто:

  1. В текстовом редакторе выделите слово или фразу, которая будет служить анкором.
  2. Затем нажмите на иконку «Вставить ссылку».

Размещение внутренних контекстных ссылок в WordPress

3. Укажите URL страницы, на которую вы будете ссылаться.
4. Открыв настройки, вы можете воспользоваться поиском, чтобы найти релевантные страницы. После того, как вы указали URL, нажмите «Добавить ссылку».

При проставлении внутренних ссылок важно учитывать следующие моменты:

  • Анкор должен передавать тематику страницы, на которую вы ссылаетесь.
  • Ссылка должна вести на работающую страницу и содержать релевантный контент.
  • Ссылаться можно на определённую страницу только один раз в рамках конкретной статьи.

Найти страницы, на которых нет исходящих внутренних ссылок, вы можете в Netpeak Spider. Для этого:

  1. Отметьте пункт «Ссылки» в разделе параметры.

Отметьте пункт Ссылки в разделе параметры

2. Просканируйте сайт.
3. В отчёте «Ошибки» обратите внимание на наличие ошибок «PageRank: отсутствуют связи» и «PageRank: отсутствуют исходящие ссылки».

Кликните на каждую, чтобы ознакомиться со списком URL, которые не содержат внутренних ссылок.

Кликните на каждую, чтобы ознакомиться со списком URL

Попадание неважных для продвижения страниц в индекс

Иногда страницы, не участвующие в продвижении, например, страницы в процессе разработки или страницы печати, попадают в поисковую выдачу. Это происходит потому, что у роботов поисковых систем есть к ним доступ. Удалить страницы из индекса можно с помощью специальных инструментов Яндекс и Google.

Чтобы впредь такие страницы не попадали в выдачу, закройте роботам доступ с помощью Meta Robots или HTTP-заголовка X-Robots-Tag. Узнать, как правильно это сделать, вы можете на основе информации в справках поисковых систем: Google и Яндекс.

Игнорирование мусорных страниц

В предыдущем пункте речь шла о страницах, имеющих определённую ценность, но появление которых в индексе и поисковой выдаче нежелательно. Но, на сайте могут появляться и бесполезные, так называемые, «мусорные» страницы: дубликаты, битые страницы и пустые страницы без контента.

Чтобы проверить, есть ли такие страницы на вашем сайте, вы можете воспользоваться:

1. Сервисом Google Search Console.

Сервис Google Search Console

2. Сервисом Яндекс.Вебмастер.

3. Краулером Netpeak Spider.

Ищем проблемные страницы

Если на сайте были обнаружены проблемные страницы, от них необходимо избавиться.

Дубликаты вы можете устранить такими способами:

  • настроить редирект на основную страницу;
  • удалить страницу и настроить 404 код ответа сервера, но предварительно снять все ссылки, которые вели на эту страницу;
  • с помощью тега rel=»canonical» указать URL основной страницы, которой стоит передавать ссылочный вес.

Чтобы избавиться от битых страниц, удалите все ссылки, которые вели на них и займитесь красивым оформлением страницы 404, чтобы минимизировать показатель отказов.

Пустые же страницы можно наполнить качественным контентом или закрыть от индексации.

Не адаптированный под мобильные устройства сайт

Мобильная версия сайта давно стала необходимостью для каждого веб-ресурса, это объясняется просто: число пользователей, предпочитающих выходить в интернет через телефоны и планшеты, растёт с каждым годом. В связи с этим наличие мобильной версии является одним из самых актуальных факторов ранжирования.

Для сайтов на WordPress уже есть несколько плагинов, с помощью которых это можно реализовать быстро и легко: JetPack, WPTouch, WordPress Mobile Pack, Wiziapp, WP Mobile Detector.

В заключение


Каждый владелец сайта заинтересован в том, чтобы его ресурс появлялся в результатах выдачи. Но далеко не каждый исправляет ошибки на нём, а ведь именно они могут мешать продвижению. Чаще всего на сайтах встречаются такие SEO-ошибки:

  1. Неструктурированные URL-адреса;
  2. Отсутствие или неправильная настройка файла robots.txt;
  3. Отсутствие XML-карты;
  4. Не оптимизированные мета-теги;
  5. Не оптимизированные изображения;
  6. Отсутствие внутренних ссылок;
  7. Попадание неважных для продвижения страниц в индекс;
  8. Игнорирование мусорных страниц;
  9. Сайт не адаптированный под мобильные устройства.

Несмотря на то, что представленные SEO-ошибки могут нести серьёзную опасность сайту, их легко выявить и устранить. Это можно сделать с помощью специальных сервисов, плагинов и программ.

Всего доброго, друзья. До новых встреч. Удачи.

Закрыть от индексации страницу на wordpress без robots txt

С помощью плагина – Noindex Pages вы сможете скрыть от индексации поисковыми системами любую страницу на вашем сайте wordpress. Если вы хотите чтобы определённая страница вашего сайта не попадала в поисковые системы, то вы можете воспользоваться данным плагином. Установить плагин вы сможете прямо из админ-панели wordpress. Перейдите на страницу: Плагины – Добавить новый , введите название плагина в форму поиска, нажмите Enter, установите и активируйте плагин.

После установки и активации плагина, перейдите на страницу редактирования страницы, которую вы хотите скрыть от индексации поисковыми системами. На странице справа, в виджете Опубликовать, у вас появится новое значение – Hide from search engines , что означает – скрыть от поисковой системы . Поставьте галочку возле данного значения и обновите страницу.

Чтобы проверить, что ваша страница действительно скрывается от поисковых систем, перейдите на страницу. Откройте исходный код страницы с помощью правой кнопки мыши, в коде должен появиться специальный мета тег noindex, который запрещает поисковым роботам индексировать страницу. Чтобы быстро найти мета тег, вы можете воспользоваться поиском по странице, нажав на сочетание клавиш Ctrl + F.

Чтобы удалить мета тег из кода, то просто деактивируйте плагин.

Как запретить поисковым системам индексировать сайт на WordPress

Опубликовано: ADv Дата 19.02.2015 в рубрике WP для начинающих Комментировать

Недавно один из наших пользователей спросил, как можно запретить поисковым системам обходить сайт на WordPress и индексировать его. Существует множество ситуаций, когда необходимо закрыть сайт от индексации и появления его в результатах выдачи. В сегодняшней статье мы покажем вам как запретить поисковым системам индексировать сайт на WordPress.

Зачем и кому может понадобиться запрещать поисковые системы на сайте

Для большинства сайтов, поисковые системы являются основным источником трафика. Поэтому возникает вопрос, кто может захотеть блокировать поисковых роботов?

Верите или нет, существует множество пользователей, которые работают над своими сайтами, размещая их на публично доступном домене вместо того, чтобы тестировать его на локальном сервере.

Некоторые люди создают сайты по управлению проектами на WordPress. Также многие используют WordPress для создания личных блогов. Во всех этих ситуациях как раз и понадобится закрыть сайт от индексации поисковыми системами, чтобы вас не нашли раньше, чем вы этого захотите.

Распространенным является заблуждение, что если вы не будете размещать ссылки на свой домен, то поисковые системы никогда не найдут ваш сайт. Это не совсем правда.

Существует множество способов, когда поисковые системы смогут найти сайт, даже если вы нигде его не «засветили». Например:

  1. Ваш домен мог ранее принадлежать кому-то другому и, соответственно, существуют ссылки на домен, размещенные предыдущим владельцем.
  2. Некоторые результаты поиска домена могут проиндексоироваться с сохранением ссылки на ваш ресурс.
  3. Существуют буквально тысячи страниц со списками имен доменов, и ваш сайт может оказаться среди них.

Множество вещей происходят в сети и ни одна из них не подконтрольна вам. Однако, ваш сайт — в вашей власти, и вы можете заставить поисковые системы не индексировать свой сайт.

Блокируем обход и индексацию своего сайта от поисковых систем

В WordPress есть встроенная функция, которая позволяет вам сообщить поисковым системам о том, что не нужно индексировать ваш сайт. Все, что вам нужно сделать, это перейти в Настройки » Чтение и отметить галочку рядом с «Попросить поисковые системы не индексировать сайт».

Когда галочка отмечена, WordPress добавляет следующую строку в хидер сайта:

Также WordPress изменяет ваш файл robots.txt и добавляет в него:

Эти строки «попросят» робота поисковых систем не индексировать ваши страницы. Однако, тут уже будут решать поисковики, реагировать на эти инструкции или нет. Даже не смотря на то, что эти инструкции воспринимаются, некоторые страницы или случайная картинка может быть проиндексирована.

Как убедиться в том, что ваш сайт не появится в выдаче?

Наиболее эффективным способом заблокировать поисковики — защитить паролем весь сайт на WordPress на уровне сервера. Это означает, что любой, кто попробует получить доступ к сайту, увидит запрос имени пользователя и пароля еще до того, как они увидят сам сайт. К поисковикам это тоже относится. Если вход не удастся, отобразится ошибка 401 и робот уйдет. Защитить весь сайт паролем можно следующим образом.

Защищаем весь сайт паролем с помощью cPanel

Если ваш хостер предлагает cPanel для управления хостингом, то можно воспользоваться панелью для защиты сайта. Просто логинимся в cPanel и кликаем на меню «password protect directories».

Выскочит всплывающее окно, где нужно будет выбрать корневую директорию.

На следующей странице выберите папку, в которой установлен ваш WordPress. Обычно это либо public_html, либо www. После этого отметьте галочку ‘Password protect this directory’. Далее, укажите название для защищенной директории и сохраните изменения.

Далее, вы увидите сообщение о том, что все прошло успешно и ссылку для возврата. Нажмите на эту ссылку, и вы попадете на страницу защиты паролем. Теперь вам нужно указать имя пользователя и пароль, который будет нужен для просмотра вашего сайта.

Вот и все, ваш сайт теперь защищен паролем, и никто, включая поисковые системы, не сможет получить доступ к вашему сайту.

У нас также есть статья о том, как защитить паролем ваш сайт WordPress. Однако, в той статье вам нужно будет использовать плагин. В случае же, если вам придется отключить этот плагин, то сайт станет доступен для поисковиков.

Мы надеемся, что эта статья помогла вам запретить поисковым системам индексировать сайт на WordPress.

Если вы только начинаете разбираться с WordPress, то не забудьте посетить нашу рубрику WordPress для новичков, где мы публикуем материалы специально для новых пользователей WordPress.

По всем вопросам и отзывам просьба писать в комментарии ниже.

Не забывайте, по возможности, оценивать понравившиеся записи количеством звездочек на ваше усмотрение.

Запрет индексации отдельных страниц в WordPress

Опции темы

Приветствую форумчане. Кто пользуется известным плагином SEO by Yoast для своих блогов, сайтов ?! как правильно закрывать отдельные посты от индекса, если например блог в начале заполнен уником, но потом приходиться наполнять его уже чужим контентом и вот что бы не портить авторитет сайта, блога, приходится скрывать отдельные посты от индекса. вот и возник вопрос ?! В плагине есть такая опция под каждым новым постом как скрыть от индексации страницу, но не совсем понятно это только одну страницу или это например закроет всю рубрику?!

Как запрет от индексации множество постов отразится на самом сайте и его продвижение ?! Как лучше закрывать эти отдельные страницы от пс? Smile Спасибо

Избитая тема. И все же. Не стоит переусердствовать со скрытием контента от поисковиков. Робот-шмобот ходит-бродит, и нет-нет, да заглянет за тег ПРОВЕРЕНО! Поэтому думайте и находите способы донести до посетителя сайта, информацию СВОИМИ правильными словами, это конечно в идеальных условиях. Но нет ничего невозможного как говорится.

WordPress.org

Русский

Поддержка → Разное → Закрыть от индексации страницу

Закрыть от индексации страницу

Я сделал главную страницу — статичную, вывожу туда 8 записей. Для вывода всех свежих записей у меня страница Статьи. Надо ее закрывать от индексации? Чтобы не плодились дубли?

  • Тема изменена 1 год, 2 мес. назад пользователем SeVlad. Причина: перенос в подходящий раздел

Дубли чего?
и почему вы решили что они будут плодиться?

СЕОшные вопросы лучше спрашивать на СЕО форумах. У нас форум по ВП.

Да, я знаю, что форум не по CEO. Но меня волнует, надо ли именно в ВП закрывать от индексации страницу свежих статей?

Сейчас проверил в Гугле, что он у меня проиндексировал по запросу «Вася Пупкин» (условно). Он проиндексировал: 1) саму запись 2) анонс записи в Рубрике 3) анонс записи на странице Статьи. Я считаю, что так не должно быть. Или я сгущаю краски?

Но меня волнует, надо ли именно в ВП закрывать от индексации страницу свежих статей?

«Надо ли» — это Вам решать. Вопрос про индексацию — это СЕО-вопрос. А на ВП Ваш сайт или на чём другом — дело десятое.

Вопрос по ВП будет «с помощью чего» или «где/куда/как правильно вставить код».

Я считаю, что так не должно быть.

Настраиваем файл robots.txt для WordPress

В этой статье пример оптимального, на мой взгляд, кода для файла robots.txt под WordPress, который вы можете использовать в своих сайтах.

Для начала, вспомним зачем нужен robots.txt — файл robots.txt нужен исключительно для поисковых роботов, чтобы «сказать» им какие разделы/страницы сайта посещать, а какие посещать не нужно. Страницы, которые закрыты от посещения не будут попадать в индекс поисковиков (Yandex, Google и т.д.).

Вариант 1: оптимальный код robots.txt для WordPress

В строке User-agent: * мы указываем, что все нижеприведенные правила будут работать для всех поисковых роботов * . Если нужно, чтобы эти правила работали только для одного, конкретного робота, то вместо * указываем имя робота ( User-agent: Yandex , User-agent: Googlebot ).

В строке Allow: */uploads мы намеренно разрешаем индексировать страницы, в которых встречается /uploads . Это правило обязательно, т.к. выше мы запрещаем индексировать страницы начинающихся с /wp- , а /wp- входит в /wp-content/uploads. Поэтому, чтобы перебить правило Disallow: /wp- нужна строчка Allow: */uploads , ведь по ссылкам типа /wp-content/uploads/. у нас могут лежать картинки, которые должны индексироваться, так же там могут лежать какие-то загруженные файлы, которые незачем скрывать. Allow: может быть «до» или «после» Disallow: .

Остальные строчки запрещают роботам «ходить» по ссылкам, которые начинаются с:

  • Disallow: /cgi-bin — закрывает каталог скриптов на сервере
  • Disallow: /feed — закрывает RSS фид блога
  • Disallow: /trackback — закрывает уведомления
  • Disallow: ?s= или Disallow: *?s= — закрыавет страницы поиска
  • Disallow: */page/ — закрывает все виды пагинации

Правило Sitemap: http://example.com/sitemap.xml указывает роботу на файл с картой сайта в формате XML. Если у вас на сайте есть такой файл, то пропишите полный путь к нему. Таких файлов может быть несколько, тогда указываем путь к каждому отдельно.

В строке Host: site.ru мы указываем главное зеркало сайта. Если у сайта существуют зеркала (копии сайта на других доменах), то чтобы Яндекс индексировал всех их одинаково, нужно указывать главное зеркало. Директива Host: понимает только Яндекс, Google не понимает! Если сайт работает под https протоколом, то его обязательно нужно указать в Host: Host: http://example.com

Из документации Яндекса: «Host — независимая директива и работает в любом месте файла (межсекционная)». Поэтому её ставим наверх или в самый конец файла, через пустую строку.

Не рекомендуется исключать фиды: Disallow: */feed

Потому что наличие открытых фидов требуется например для Яндекс Дзен, когда нужно подключить сайт к каналу (спасибо комментатору «Цифровой»). Возможно открытые фиды нужны где-то еще.

В тоже время, фиды имеют свой формат в заголовках ответа, благодаря которому поисковики понимают что это не HTML страница, а фид и, очевидно, обрабатывают его как-то иначе.

Директива Host для Яндекса больше не нужна

Яндекс полностью отказывается от директивы Host, её заменил 301 редирект. Host можно смело удалять из robots.txt . Однако важно, чтобы на всех зеркалах сайта стоял 301 редирект на главный сайт (главное зеркало).

Это важно: сортировка правил перед обработкой

Yandex и Google обрабатывает директивы Allow и Disallow не по порядку в котором они указаны, а сначала сортирует их от короткого правила к длинному, а затем обрабатывает последнее подходящее правило:

будет прочитана как:

Таким образом, если проверяется ссылка вида: /wp-content/uploads/file.jpg , правило Disallow: /wp- ссылку запретит, а следующее правило Allow: */uploads её разрешит и ссылка будет доступна для сканирования.

Чтобы быстро понять и применять особенность сортировки, запомните такое правило: «чем длиннее правило в robots.txt, тем больший приоритет оно имеет. Если длина правил одинаковая, то приоритет отдается директиве Allow.»

Вариант 2: стандартный robots.txt для WordPress

Не знаю кто как, а я за первый вариант! Потому что он логичнее — не надо полностью дублировать секцию ради того, чтобы указать директиву Host для Яндекса, которая является межсекционной (понимается роботом в любом месте шаблона, без указания к какому роботу она относится). Что касается нестандартной директивы Allow , то она работает для Яндекса и Гугла и если она не откроет папку uploads для других роботов, которые её не понимают, то в 99% ничего опасного это за собой не повлечет. Я пока не заметил что первый robots работает не так как нужно.

Вышеприведенный код немного не корректный. Спасибо комментатору «robots.txt» за указание на некорректность, правда в чем она заключалась пришлось разбираться самому. И вот к чему я пришел (могу ошибаться):

Некоторые роботы (не Яндекса и Гугла) — не понимают более 2 директив: User-agent: и Disallow:

  • Директиву Яндекса Host: нужно использовать после Disallow: , потому что некоторые роботы (не Яндекса и Гугла), могут не понять её и вообще забраковать robots.txt. Cамому же Яндексу, судя по документации, абсолютно все равно где и как использовать Host: , хоть вообще создавай robots.txt с одной только строчкой Host: www.site.ru , для того, чтобы склеить все зеркала сайта.
  • Топ-пост этого месяца:  Для чего использовать Angular преимущества фреймворка в создании приложений

    3. Sitemap: межсекционная директива для Яндекса и Google и видимо для многих других роботов тоже, поэтому её пишем в конце через пустую строку и она будет работать для всех роботов сразу.

    Топ-пост этого месяца:  Как показать программные и исходные коды в статьях WordPress

    На основе этих поправок, корректный код должен выглядеть так:

    Дописываем под себя

    Если вам нужно запретить еще какие-либо страницы или группы страниц, можете внизу добавить правило (директиву) Disallow:. Например, нам нужно закрыть от индексации все записи в категории news, тогда перед Sitemap: добавляем правило:

    Топ-пост этого месяца:  Анимируем «иконки-гамбургеры» для меню на чистом CSS

    Оно запретить роботам ходить по подобным ссылками:

    Если нужно закрыть любые вхождения /news , то пишем:

    • http://example.com/news
    • http://example.com/my/news/drugoe-nazvanie/
    • http://example.com/category/newsletter-nazvanie.html

    Подробнее изучить директивы robots.txt вы можете на странице помощи Яндекса (но имейте ввиду, что не все правила, которые описаны там, работают для Google).

    Проверка robots.txt и документация

    Проверить правильно ли работают прописанные правила можно по следующим ссылкам:

    Я спросил у Яндекса.

    Задал вопрос в тех. поддержку Яндекса насчет межсекционного использования директив Host и Sitemap :

    Вопрос:

    Здравствуйте!
    Пишу статью насчет robots.txt на своем блоге. Хотелось бы получить ответ на такой вопрос (в документации я не нашел однозначного «да»):

    Если мне нужно склеить все зеркала и для этого я использую директиву Host в самом начале фала robots.txt:

    Будет ли в данном примере правильно работать Host: site.ru? Будет ли она указывать роботам что site.ru это основное зеркало. Т.е. эту директиву я использую не в секции, а отдельно (в начале файла) без указания к какому User-agent она относится.

    Также хотел узнать, обязательно ли директиву Sitemap нужно использовать внутри секции или можно использовать за пределами: например, через пустую строчку, после секции?

    Поймет ли робот в данном примере директиву Sitemap?

    Надеюсь получить от вас ответ, который поставит жирную точку в моих сомнениях.

    Ответ:

    Директивы Host и Sitemap являются межсекционными, поэтому будут использоваться роботом вне зависимости от места в файле robots.txt, где они указаны.


    С уважением, Платон Щукин
    Служба поддержки Яндекса

    Важно помнить, что изменения в robots.txt на уже рабочем сайте будут заметны только спустя несколько месяцев (2-3 месяца).

    Ходят слухи, что Google иногда может проигнорировать правила в robots.txt и взять страницу в индекс, если сочтет, что страница ну очень уникальная и полезная и она просто обязана быть в индексе. Однако другие слухи опровергают эту гипотезу тем, что неопытные оптимизаторы могут неправильно указать правила в robots.txt и так закрыть нужные страницы от индексации и оставить ненужные. Я больше склоняюсь ко второму предположению.

    В WordPress запрос на файл robots.txt обрабатывается отдельно и совсем не обязательно физически создавать файл robots.txt в корне сайта, более того это не рекомендуется, потому что при таком подходе плагинам будет очень сложно изменить этот файл, а это иногда нужно.

    О том как работает динамическое создание файла robots.txt читайте в описании функции do_robots(), а ниже я приведу пример как можно изменить содержание этого файла, налету, через хук do_robotstxt.

    Для этого добавьте следующий код в файл functions.php :

    Теперь, пройдя по ссылке http://example.com/robots.txt мы получим такой текст:

    Crawl-delay — таймаут для сумасшедших роботов (с 2020 года не учитывается)

    Яндекс

    Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay в robots.txt […] Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay.

    Когда робот Яндекса сканирует сайт как сумасшедший и это создает излишнюю нагрузку на сервер. Робота можно попросить «поубавить обороты».

    Для этого нужно использовать директиву Crawl-delay . Она указывает время в секундах, которое робот должен простаивать (ждать) для сканирования каждой следующей страницы сайта.

    Для совместимости с роботами, которые плохо следуют стандарту robots.txt, Crawl-delay нужно указывать в группе (в секции User-Agent ) сразу после Disallow и Allow

    Робот Яндекса понимает дробные значения, например, 0.5 (пол секунды). Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но позволяет ускорить обход сайта.

    Google

    Робот Google не понимает директиву Crawl-delay . Таймаут его роботам можно указать в панели вебмастера.

    На сервисе avi1.ru Вы можете уже сейчас приобрести продвижение SMM более чем в 7 самых популярных социальных сетях. При этом обратите внимание на достаточно низкую стоимость всех услуг сайта.

    Какие страницы сайта WordPress не нужно индексировать

    В совершенстве, наш сайт должен обеспечивать максимально открытый и полный доступ к индексации полезного контента как пользователей, так и поисковый машин, но в то же время скрывать все технические страницы и дублирующий контент сайта/блога.

    Но к сожалению, подобное в WordPress по-умолчанию бывает крайне редко (а точнее никогда), и поэтому об этом должен позаботиться сам вебмастер, используя такие приемы как: добавление файла robots.txt, в котором прописывается табу для поисковых систем (более подробно о robots, можно прочитать в статье “Зачем нужен файл robots.txt?“, а также “Правильный файл robots.txt для WordPress“), использование закрывающих тегов “Noindex/Nofollow“, и конечно не попадание в индексацию дублирующих страниц предусмотрено плагином All In One SEO Pack.

    Зачем нужно закрывать подобную информацию от поисковых систем? Поисковики крайне негативно относятся к ресурсам, на которых находится большое количество дублирующего контента, а также технической информации (к примеру данные о зарегистрированных пользователях), и как следствие, могут быть наложены некие санкции, которые будут портить нам жизнь.

    Давайте обозначим основные пункты, которые желательно закрыть от индексации поисковыми системами:

    Данные о зарегистрированных пользователях.

    По сути, что такое информация о зарегистрированном пользователе? Это совсем небольшая страничка на сайте, в которой прописано всего пара фраз о пользователе: его имя и e-mail, которая не несет в себе совершенно никакой полезной информации. А ведь таких пользователей может быть несколько тысяч, а это значит – несколько тысяч одинаковых страниц.

    RSS — лента

    Ее желательно также закрыть от индексации, так как не всегда поисковые системы корректно работают с данной системой (в особенности на данный момент). При переходе поискового робота на RSS ленту, у него чаще всего возникает несколько десятков ошибок, которые повторяются раз за разом, при их посещении вашей rss ленты.

    Данный пункт весьма индивидуален, и если вы не замечаете особых проблем с индексацией rss, то закрывать от индексации ленту новостей не стоит.

    Страницы – дубли

    Это пожалуй самая распространенная проблема большинства WordPress блогов, поскольку поисковые роботы, а в особенности Google, индексируют все без разбору, а значит могут проиндексировать одну и ту же страницу несколько раз, но под разными url адресами. Подобные страницы необходимо закрывать от индексации.

    К примеру, если страница находится в общем списке, а также в списке тегов, то получается дубль одной и той же страницы. Поэтому последний список лучше закрыть от индексирования. Также в этом нам помогает правильно настроенный плагин All In One SEO Pack (или подобный), который по большей части не допускает индексации дублированного контента.

    Облако тегов или Облако меток

    Вы наверное не раз замечали на многих сайтах различные виды облака тегов, которые как правило расположены в сайдбаре? Это по сути просто набор ключевых слов, расположенных в виде списка, или круга тех же ключевых слов, который вращается.

    Подобную фишку лучше не использовать вовсе или закрыть тегами noindex и nofollow, поскольку для поисковых систем, подобное видится обычным списком ключевых слов, которые представляют собой какой-то бессмысленный набор слов, расположенных в хаотичном порядке.

    Внешние ссылки

    И конечно же стоит забывать о внешних ссылках, особенно которые обитают на вашем сайте без вашего ведома. Подобные ссылки необходимо закрыть от индексации закрывающими тегами noindex и nofollow, или если есть возможность вообще их удалить. Как выявить и обезвредить все внешние ссылки можно прочитать в статье “Определяем количество внешних ссылок на сайте, после чего закрываем их тегами noindex и nofollow“.

    Также многие вебмастеры закрывают индексацию ссылок в комментариях, так как считается, что подобные ссылки отдают достаточно большой “вес” посторонним сайтам. Но конечно же бездумно закрывать вообще все комментарии не следует, поскольку бывают случаи, что благодаря грамотным комментариям пользователей, страница часто вырывается в ТОП поискового запроса.

    Как закрыть внешние ссылки от индексации

    Установка плагина для закрытия внешних ссылок от индексации

    Данный плагин является бесплатным и простым решением для закрытия всех внешних ссылок автоматически, без Вашего участия. Чтобы установить его переходим в раздел с плагинами в панели управления WordPress и жмём «Добавить новый», в поле поиска вводим Nofollow for external link.

    После этого первый в списке увидите плагин, на всякий случай проверьте название и жмите кнопку «Установить» и потом «Активировать».

    Настройка плагина для закрытия внешних ссылок от индексации

    После установки и активации плагина в настройках появится раздел «Nofollow extlink» — переходим в него. Как я уже говорил плагин весьма прост в настройке — здесь нужно только отметить добавлять ли тег «nofollov» в меню (если в меню нет ссылок на другие сайты то делать этого не нужно) и добавить домены-исключения.

    Добавить комментарий