Google умеет индексировать заблокированные для сканирования веб-страницы


Содержание материала:

Использование файла robots.txt для запрета индексирования страниц сайта

Файл robots.txt ограничивает доступ на ваш сайт сканерам поисковых систем. Перед загрузкой страницы сайта роботы проверяют, есть ли на веб-узле файл robots.txt и блокирует ли он доступ к определенным сайтам.

Все известные роботы будут следовать инструкциям в файле robots.txt, однако некоторые роботы могут интерпретировать их по-разному. Вы не можете навязать безусловного выполнения записи файла robots.txt, в связи с чем некоторые спамеры и другие мошенники могут его игнорировать.

Чтобы просмотреть заблокированные URL, которые робот Google не сможет проиндексировать, откройте страницу Заблокированные URL в разделе Сканирование в Инструментах для веб-мастеров.

Файл robots.txt необходим только в том случае, если ваш сайт содержит контент, который поисковые системы не должны индексировать. Если поисковые системы должны индексировать весь сайт, файл robots.txt излишен (даже пустой).

Google не будет загружать или индексировать содержание страниц, заблокированные в файле robots.txt, но может индексировать эти URL, если они будут обнаружены на других сайтах в сети. В связи с этим, URL таких страниц вместе с общедоступными данными (например, из каталога Open Directory Project) могут появиться в результатах поиска Google.

Для использования файла robots.txt, вам нужно иметь доступ к корневой папке вашего домена. В случае отсутствия доступа к корневой директории домена, вы можете ограничить доступ с помощью метатега robots.

Для того, чтобы полностью запретить добавление содержания страницы в индекс интернет-Google, даже если на него ведут ссылки с других сайтов, используйте метатег noindex или заголовок x-robots-tag.

При загрузке такой страницы метатег noindex позволит предотвратить добавления ее в индекс Google. HTTP заголовок x-robots-tag особенно полезен для контроля индексирования файлов в формате, отличном от HTML, такие как графические изображения или другие документы.

Создание файла robots.txt

В простейшем файле robots.txt используются два правила:

  • User-agent: робот, к которому применяется данное правило
  • Disallow: URL, который должен быть заблокирован

Эти две строки представляют собой одну запись файла. Файл может содержать любое количество записей. В одном сообщении можно указать несколько строк Disallow и несколько строк User-agent.

Каждая секция в файле robots.txt независима и не является продолжением предыдущих разделов.

User-agent: * Disallow: /folder1/ User-Agent: Googlebot Disallow: /folder2/

В данном примере для Googlebot блокирует только URL в соответствии с критериями /folder2/.

Приложения user-agent и роботы

Приложение user-agent – это термин, обозначающий робота поисковой системы. База данных сканеров содержит имена многих популярных роботов. Чтобы применить запись для конкретного робота, укажите его имя.

Для того, чтобы использовать его для всех роботов, вместо имени введите звездочку. Запись для всех роботов выглядит следующим образом:

Google использует несколько различных роботов (приложения user-agent).

Блокирование приложений user-agent

Строка Disallow содержит список страниц, которые должны быть заблокированы. Можно указать конкретный URL или шаблон. Запись должна начинаться с косой черты (/).

    Чтобы заблокировать весь сайт используйте обратную косую черту.

Чтобы заблокировать каталог и все его содержимое после имени каталога введите косую черту.

Чтобы заблокировать страницу, укажите ее имя.

Чтобы удалить конкретное фото из поиска картинок Google, добавьте следующие записи:

User-agent: Googlebot-Image Disallow: /grafiki/psy.jpg

Чтобы удалить из поиска картинок Google все изображения, полученные с вашего сайта:

User-agent: Googlebot-Image Disallow: /

Чтобы отключить файлы определенного типа (например, GIF), используйте следующую запись:

User-agent: Googlebot Disallow: /*.gif$

Чтобы запретить индексирование страниц вашего сайта и, несмотря на это, продолжать показывать на них объявления AdSense необходимо запретить доступ всем роботам, кроме робота Mediapartners-Google. Это предотвратит отображение страниц в результатах поиска, но позволит роботу Mediapartners-Google анализировать страницы. Робот Mediapartners-Google не предоставляет страниц другим программам user-agent компании Google.

Например: User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /

Google: Страница просканирована, но пока не проиндексирована

Продолжу разбор того, что частенько спрашивают, а именно про очередной сюрприз от Гугл который мало где объясняется.

Предисловие

Практически у всех кто заглядывал в новую Google Search Console в раздел «Покрытие», присутствуют страницы со статусом «Исключено» и типом «Страница просканирована, но пока не проиндексирована«. Не путать с «Обнаружена, не проиндексирована»!

Исключенных страниц может не быть, только если сайту 2 недели и еще ничего не начало индексироваться или если это визитка и на ней 4 страницы.

Большинство не понимает что это значит и из кожи вон лезут, пытаясь силком затолкать все страницы сайта в выдачу.

Ответы Гугл

Вот что говорит гугл о таких страницах в Cправке для Вебмастеров:

Страница просканирована, но пока не проиндексирована. В дальнейшем она может быть проиндексирована, а может и остаться в текущем состоянии; вновь отправлять этот URL на сканирование не нужно.

Т.е. ничего вразумительного. Крайне скудная информация, которая вносит сумбур и только.

Благо на форуме Гугл для вебмастеров, Джон Мюллер дал более развернутое объяснение. Приведу перевод написанного:

Мы не обещаем обход и индексацию всего контента.
В интернете куча всего, и было бы непрактично включать всё, мы должны расставить приоритеты.
Это не означает, что со страницами что-то не то, наши алгоритмы не видят смысла включать все страницы с вашего сайта.
Это нормально, позже возможны изменения, это не является признаком технической проблемы.
Одним из выходов, в таких случаях, это сосредоточить свои усилия на содержании проиндексированных, объединить похожие страницы, удалить ненужные страницы, делать более уникальный и интересный контент на страницах вашего сайта (или все эти шаги).

Проще и детальнее

Более простым языком это можно объяснить так: есть основной состав и скамейка запасных(резерыных). На данный момент эти страницы не выдерживают внутренней конкуренции, и даже иx присутствие в поисковой выдаче им бы не помогло, вероятность того что они когда либо смогут занять конкурентное место стремится к нулю, поэтому ими просто пренебрегают. В данной тематике Гугл не видит их перспектив и подходящих запросов нет. Ситуация может измениться если появятся запросы, ответы на которые данные страницы будут раскрывать лучше имеющихся. Есть спрос — есть предложение.

Что изменится от того что в год 3 раза страница попадет в выдачу на 74 место? Ничего! Вот и Гугл так считает.

От чего зависит

Перечислю факторы влияющие на количество таких страниц:

  • чем менее уникален контент, тем больше страниц будет выброшено
  • объем дублирующихся сквозных блоков на страницах влияет на уникальность, тем самым приводит к исключениям
  • чем больше на сайте страниц, тем как правило больший [u]процент[/u] попадает в исключения, так как редко на сайте реально конкурентоспособны десятки тысяч
  • страницы с маленьким статическим весом, чаще других исключаются
  • вероятно учитываются поведенческие факторы и страницы на которых нет никакой активности выбрасываются
  • улучшение скоростных показателей положительно влияет на долю проиндексированных страниц
  • в зависимости от популярности тематики и статистики запросов возможны изменения в списке страниц в индексе
  • у более популярных сайтов, меньше исключаются страницы при прочих равных

по сути всё то чем и так нужно заниматься для продвижения сайта.

Выводы

Паниковать не стоит, но внимание обратить нужно. Кол-во таких страниц является косвенной оценкой оригинальности контента, но только с учетом конкурентной ниши и посещаемости.

Делайте страницы более уникальными, улучшайте поведенческие показатели, дабы дать понять что эти страницы посещают, они интересны людям и не стоит их выбрасывать.

Ну и хочу пояснить один момент. Если вопрос касается интернет-магазинов, важна в первую очередь внутренняя уникальность (в рамках самого сайта).

Как исключить контент WordPress из поиска Google?

Иногда нужно исключить определенный контент WordPress или файлы из индексирования в результатах поиска Google.

Индексация Google обычно относится к процессу добавления новых веб-страниц, включая цифровой контент (документы, видео, изображения), и хранения их в своей базе данных. Другими словами, чтобы контент вашего сайта появился в результатах поиска Google, его сначала нужно сохранить в индексе поисковой системы.

Google может индексировать все эти цифровые страницы и контент, используя своих пауков, сканеров или ботов, которые постоянно сканируют различные веб-сайты в Интернете. Они следуют инструкциям владельцев веб-сайтов о том, что сканировать, а что следует игнорировать во время сканирования.

Зачем нужно индексировать сайты?

В цифровую эпоху трудно перемещаться по миллиардам веб-сайтов, находя определенный контент. Это будет намного проще сделать, если есть инструмент, способный показать нам отсортированную, полезную и актуальную для нас информацию. Именно этим и занимается поисковая система Google, ранжируя сайты в результатах поиска.

Индексирование – неотъемлемая часть работы поисковых систем. Оно помогает определить слова и выражения, которые лучше всего описывают страницу и в целом способствует ранжированию страницы и веб-сайта. Чтобы появиться на первой странице Google, ваш сайт, включая веб-страницы и цифровые файлы (видео, изображения и документы), сначала должен быть проиндексирован.

Используя ключевые слова, сайты могут занимать более высокие позиции в поиске. Это открывает двери для новых посетителей, подписчиков и потенциальных клиентов вашего сайта и бизнеса.

Зачем и как исключать контент из поиска Google?

На любом веб-ресурсе есть страницы, целые разделы или файлы сайта, которые не нужно показывать в результатах поиска. Часто это необходимо для обеспечения безопасности и гарантии конфиденциальности. Без паролей или аутентификации частный контент подвергается риску раскрытия и несанкционированного доступа, если ботам дать полную свободу действий над папками и файлами вашего сайта.

В начале 2000-х хакеры использовали Google для отображения информации о кредитных картах с веб-сайтов. Этот недостаток безопасности использовался многими хакерами для кражи информации о картах с веб-сайтов электронной коммерции.

Подобные случаи происходят в интернете и могут привести к потере продаж и доходов для владельцев бизнеса. Для корпоративных сайтов, электронных магазинов и сайтов-сообществ критически важно сначала блокировать индексацию конфиденциального контента и частных файлов, а затем создать надежную систему аутентификации пользователей.

Давайте посмотрим, как можно управлять контентом и файлами относительно попадания их в индекс и поиск Google.

1. Использование robots.txt для изображений

robots.txt – это файл, расположенный в корне вашего сайта, предоставляющий ботам поисковых систем инструкции о том, что сканировать, а что нет. Файл обычно используется для управления трафиком обхода веб-сканерами (мобильными и настольными). С его помощью можно также запретить появление изображений в результатах поиска Google.

Для сайтов WordPress файл robots.txt может содержать такие инструкции:

Первая инструкция означает, что сайт открыт для всех ботов, которые будут следовать всем инструкциям, приведенным ниже. Две остальные – запретить индексировать папки wp-admin и wp-includes.

Как исключить медиафайлы из поиска?

robots.txt также может быть использован, чтобы заблокировать обход некоторых форматов файлов (например, PDF, GIF, JPG, MP4). Для этого нужно добавить следующие инструкции.

Для PDF:

JPG:

GIF:

Вышеприведенные фрагменты кода просто исключают ваш контент из индексирования сторонними ресурсами, такими как Google. Но они все же доступны по URL-ссылкам. Чтобы запретить к ним доступ вообще, нужно будет использовать другие методы (например, с помощью плагинов ограничения контента Restricted Site Access , Ultimate Member или Users Ultra Membership ).

Поисковый агент Googlebot-Image может быть использован для блокировки конкретных расширений изображений от появления в результатах поиска картинок. Если нужно исключить их из всех поисковых запросов (веб-поиска и изображений), рекомендуется использовать пользовательский агент Googlebot.

Также можете использовать другие Google-агенты для исключения типов файлов. Например, Googlebot-Video применяется для видеороликов в разделе Google Видео.

Имейте в виду, что robots.txt не подходит для блокировки конфиденциальных файлов и содержимого из-за своих ограничений:

  • он дает инструкции ботам, которые могут быть проигнорированы поисковой системой;
  • robots.txt не закрывает доступ к страницам и файлам вашего сайта;
  • поисковые системы смогут найти и проиндексировать заблокированные страницы и содержимое, если они связаны с другими веб-сайтами и источниками;
  • robots.txt доступен для всех по ссылке https://site.ru/robots.txt.

Чтобы заблокировать индексирование поиска и более эффективно защитить вашу личную информацию, используйте следующие методы.

2. Использование метатега noindex для страниц

Использование метатега noindex – это правильный и эффективный способ блокировать поисковую индексацию конфиденциального контента на вашем сайте. В отличие от robots.txt, метатег размещается в разделе веб-страницы и имеет вид:

Любая страница с этой инструкцией в заголовке не будет отображаться в результатах поиска Google. Другие директивы, такие как nofollow и notranslate, также могут использоваться, чтобы запретить сканировать ссылки и предлагать перевод этой страницы соответственно.

Топ-пост этого месяца:  Работаем с базой данных WordPress, с помощью класса wpdb

Можно также закрыть доступ нескольким конкретным поисковым роботам:

Добавить этот код на сайт можно двумя способами. Первый вариант – создать дочернюю тему WordPress, а затем в файле functions.php использовать хук WordPress wp_head для вставки noindex или любых других мета-тегов.

Если вы не знаете, как редактировать functions.php, то в этом случае Вам поможет плагин ProFunctions.

Ниже приведен пример того, как добавить noindex на страницу входа:

Второй способ – использовать SEO-плагин для управления видимостью страницы. Например, в Yoast SEO вы можете перейти в раздел дополнительных настроек на странице/записи и просто выбрать Нет в настройке Разрешить поисковым системам показывать Запись в результатах поиска?

3. Использование заголовка HTTP X-Robots-Tag для других файлов

X-Robots-Tag дает больше гибкости, чтобы блокировать индексацию поиска контента и файлов. В частности, по сравнению с метатегом noindex, он может использоваться в качестве ответа заголовка HTTP для любых заданных URL-адресов. Например, вы можете использовать X-Robots-Tag для файлов изображений, видео и документов, где невозможно использовать мета-теги роботов.

К примеру, запретим всем роботам индексировать изображения в формате JPEG:

Также можно указать конкретных роботов:

Важно отметить, что поисковые роботы обнаруживают мета-теги и HTTP-заголовки X-Robots-Tag во время сканирования. Поэтому, если вы хотите, чтобы эти боты следовали вашим инструкциям и не индексировали конфиденциальный контент и документы, вы не должны останавливать обход этих URL-адресов страниц и файлов.

Если они сканируют с помощью robots.txt, ваши инструкции по индексации не будут прочитаны, а значит, проигнорированы. В результате, если другие веб-сайты ссылаются на ваш контент и документы, они все равно будут индексироваться Google и другими поисковыми системами.

4. С помощью правил .htaccess для серверов Apache

Вы также можете добавить заголовок HTTP X-Robots-Tag в .htaccess-файл, блокирующий поисковые роботы от индексации страниц и цифрового содержимого вашего веб-сайта, размещенного на сервере Apache. В отличие от метатегов noindex, правила в .htaccess могут применяться ко всему сайту или к определенной папке. Поддержка регулярных выражений обеспечивает еще большую гибкость при работе с несколькими типами файлов одновременно.

Чтобы запретить роботам Googlebot, Bing и Baidu обход веб-сайта или специального каталога, используйте следующие правила:

Например, чтобы на всем сайте заблокировать поисковую индексацию форматов TXT, JPEG и PDF, добавьте следующий фрагмент в .htaccess:

5. Использование страницы с аутентификацией по имени пользователя и паролю

Вышеуказанные методы предотвратят появление вашего личного контента и документов в результатах поиска Google. Тем не менее, любые пользователи со ссылкой могут получить доступ к содержимому и файлам напрямую. В целях безопасности настоятельно рекомендуется настроить правильную аутентификацию с использованием имени пользователя и пароля, а также прав доступа к роли.

Например, страницы, содержащие личные профили сотрудников и конфиденциальные документы, доступ к которым не должен осуществляться анонимными пользователями, следует защищать с помощью аутентификации. Таким образом, даже когда пользователям каким-то образом удается найти страницы, им будет предложено ввести учетные данные, прежде чем они смогут увидеть содержимое.

В WordPress для этого нужно:

  • открыть страницу или запись на редактирование;
  • в блоке Опубликовать найти опцию Видимость и установить ее значение Защищено паролем;
  • задать пароль и нажать кнопку ОК;
  • обновить страницу/запись (кнопка Обновить).

Google массово обвинил сайты в сокрытии от поискового робота файлов CSS и JS

Google снова удивил всех нас неожиданным поступком. Дело в том, что буквально на днях лидер поиска через Search Console уведомил огромное количество владельцев сайтов и оптимизаторов о том, что файлы CSS и JS, имеющиеся на сайте, не доступны для сканирования его роботу. В результате, гуглеры уличили несметное количество сайтов в блокировке CSS и JS в файле robots.txt.

Тревожные уведомления настигли не только зарубежных, но и отечественных коллег. Как сообщили позднее сами представители Google, количество владельцев аккаунтов в Search Console, получивших «письма счастья» во всем мире приблизилось к 65%.

Отдельные специалисты утверждали, что письма приходили даже на сайты, в принципе не имевшие файла robots.txt, предполагая, что Google по ошибке учёл сторонние файлы, закрытые в robots.txt. Однако в поисковике сразу же опровергли подобные домыслы:

Чтобы избежать подобных проблем в дальнейшем, специалисты из Google рекомендуют создать простейшее правило для всех файлов в robots.txt:

К слову, Google уже не раз сообщал, что блокировка файлов CSS или javascript может иметь крайне негативные последствия: а именно, далеко не лучшим образом отразиться на индексации и ранжировании страниц сайтов в поисковике.

Чтобы посмотреть на страницу своего сайта глазами поискового робота Googlebot представители поисковика настоятельно рекомендуют воспользоваться инструментом «Просмотреть как Googlebot». Отыскать его можно в разделе «Сканирование» всё в том же инструменте Search Console.

Панель вебмастеров Google — анализируем данные без паники

Если вы хоть немного занимаетесь продвижением, ваш сайт зарегистрирован в кабинете вебмастеров Google. Когда проект проходит этап резких изменений (что бывает, например, после внедрения SEO-аудита), вы получаете email-уведомление «про обнаруженные ошибки». Важно не паниковать и уметь правильно интерпретировать данные системы. Как? Об этом и пойдет речь в статье.

Для начала стоит акцентировать, что панель вебмастеров — не система принятия решений. В Google Search Console (или Google Webmaster Tools) присутствуют данные о сканировании сайта GoogleBot, индексации, изменении показателей в результатах выдачи (средняя позиция, CTR сниппета, количество показов и кликов). Email о том, что резко возросло количество отсутствующих страниц на сайте, не значит, что все плохо и нужно срочно восстанавливать эти страницы.

Панель вебмастеров Google только уведомляет о том, что было обнаружено в ходе сканирования сайта, но не принимает решения за вас.

Рассмотрим несколько ситуаций из практики.

Найдите, что изменилось

«У меня на сайте резко возросло количество заблокированных страниц. Почему? Я же ничего не делал».

Заблокированные страницы — не страницы, заблокированные поисковой системой.

Это те страницы, доступ к которым заблокирован владельцем сайта в файле robots.txt. Нужно понять, каким образом GoogleBot нашел ссылки на файлы из закрытой директории, если раньше он их не находил. Если файл robots.txt не менялся, это могут быть новые ссылки в коде или контенте сайта, ссылки в файле sitemap.xml или внешние ссылки на сайт. В зависимости от типа ссылок можно понять, что из перечисленных вариантов проверять в первую очередь.

В конкретной ситуации была обнаружена проблема в генерации xml-карты сайта.

Учитывайте всю картину

В одном из новых проектов после внедрения аудита в панели инструментов для вебмастеров Google получился следующий график динамики страниц сайта в индексе.

Дайте угадаю, что вы думаете: «Все ужасно! Кто-то нечаянно закрыл этот сайт от индексации и все страницы выпали из индекса!». Но что, если у сайта всего 160 страниц? Хорошо ли, что у него сейчас 210 страниц в индексе? И откуда могли взяться эти 10 000 страниц? Ключевая фраза: «проект после внедрения SEO-аудита». Во время анализа сайта мы нашли большое количество «чужих» страниц — сайт клиента был взломан.

На эти страницы не было ссылок с сайта клиента, то есть через админпанель или в результате сканирования обнаружить эти страницы было невозможно.

Как они попали в индекс? Злоумышленники поставили на них ссылки с других сайтов, что подтвердилось при анализе внешних ссылок в Ahrefs. По внешним ссылкам GoogleBot перешел на эти страницы, просканировал их и добавил в индекс. Во время внедрения аудита эти страницы были удалены, и график количества страниц в индексе в панели вебмастеров резко пошел вниз — на данный момент почти все «чужие» страницы выпали из индекса.

Будьте в курсе истории изменений

Анализируя любые показатели сайта, важно понимать: а что, собственно, происходило с сайтом в последнее время? Какие изменения вносились?

Любая динамика — это результат ваших действий. Или бездействия.

Еще пример из жизни:

Какое первое впечатление производит такая динамика роста ошибок на сайте? Маловероятно, что этот график вас радует. На самом деле в этом графике тоже нет ничего плохого. У интернет-магазина, в связи с техническими ошибками, несколько раз изменялся принцип формирования URL фильтров, но в итоге совместных усилий удалось привести все ссылки к единому виду.

На графике мы видим результат — как робот Google постепенно определяет, что все URL, по которым когда-то были дубли страниц, теперь недоступны.

Выводы

При работе с новым проектом желательно узнать о нем как можно больше информации и провести SEO-аудит. При длительной работе — отслеживать, какие были внесены изменения, когда и почему. Для восстановления хронологии действий помогает лог в Google Tag Manager, заметки в Google Analytics, задачи в системе менеджмента проектов (в случае агентства Netpeak — это «ПланФикс»).

Отдельно стоит показать заметки в Google Analytics — они очень удобны в использовании и пригодятся на любом этапе развития проекта. Заметки не дублируются между представлениями, поэтому обычно удобнее оставлять их в основном представлении «Домен» — «Все данные по веб сайту». Как посмотреть нужную заметку и создать новую запись:

Не паникуйте при анализе данных панелей вебмастеров и принимайте взвешенные решения, основанные на истории изменений по проекту. Если у вас есть примеры других неоднозначных графиков и ситуаций в панели вебмастеров Google — делитесь с читателями в комментариях к этому посту.

Настройка robots.txt: что на сайте стоит спрятать от робота?

Файл robots.txt представляет собой набор директив (набор правил для роботов), с помощью которых можно запретить или разрешить поисковым роботам индексирование определенных разделов и файлов вашего сайта, а также сообщить дополнительные сведения. Изначально с помощью robots.txt реально было только запретить индексирование разделов, возможность разрешать к индексации появилась позднее, и была введена лидерами поиска Яндекс и Google.

Структура файла robots.txt

Сначала прописывается директива User-agent, которая показывает, к какому поисковому роботу относятся инструкции.

Небольшой список известных и частоиспользуемых User-agent:

  • User-agent:*
  • User-agent: Yandex
  • User-agent: Googlebot
  • User-agent: Bingbot
  • User-agent: YandexImages
  • User-agent: Mail.RU

Далее указываются директивы Disallow и Allow, которые запрещают или разрешают индексирование разделов, отдельных страниц сайта или файлов соответственно. Затем повторяем данные действия для следующего User-agent. В конце файла указывается директива Sitemap, где задается адрес карты вашего сайта.

Прописывая директивы Disallow и Allow, можно использовать специальные символы * и $. Здесь * означает «любой символ», а $ – «конец строки». Например, Disallow: /admin/*.php означает, что запрещается индексация индексацию всех файлов, которые находятся в папке admin и заканчиваются на .php, Disallow: /admin$ запрещает адрес /admin, но не запрещает /admin.php, или /admin/new/ , если таковой имеется.

Если для всех User-agent использует одинаковый набор директив, не нужно дублировать эту информацию для каждого из них, достаточно будет User-agent: *. В случае, когда необходимо дополнить информацию для какого-то из user-agent, следует продублировать информацию и добавить новую.

Пример robots.txt для WordPress:

*Примечание для User agent: Yandex

Для того чтобы передать роботу Яндекса Url без Get параметров (например: ? >

Ранее роботу Яндекса можно было сообщить адрес главного зеркала сайта с помощью директивы Host. Но от этого метода отказались весной 2020 года.

Также ранее можно было сообщить роботу Яндекса, как часто обращаться к сайту с помощью директивы Crawl-delay. Но как сообщается в блоге для вебмастеров Яндекса:

  • Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay.
  • Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay.

Вместо этой директивы в Яндекс. Вебмастер добавили новый раздел «Скорость обхода».

Проверка robots.txt

Старая версия Search console

Для проверки правильности составления robots.txt можно воспользоваться Вебмастером от Google – необходимо перейти в раздел «Сканирование» и далее «Просмотреть как Googlebot», затем нажать кнопку «Получить и отобразить». В результате сканирования будут представлены два скриншота сайта, где изображено, как сайт видят пользователи и как поисковые роботы. А ниже будет представлен список файлов, запрет к индексации которых мешает корректному считыванию вашего сайта поисковыми роботами (их необходимо будет разрешить к индексации для робота Google).

Обычно это могут быть различные файлы стилей (css), JavaScript, а также изображения. После того, как вы разрешите данные файлы к индексации, оба скриншота в Вебмастере должны быть идентичными. Исключениями являются файлы, которые расположены удаленно, например, скрипт Яндекс.Метрики, кнопки социальных сетей и т.д. Их у вас не получится запретить/разрешить к индексации. Более подробно о том, как устранить ошибку «Googlebot не может получить доступ к файлам CSS и JS на сайте», вы читайте в нашем блоге.

Новая версия Search console

В новой версии нет отдельного пункта меню для проверки robots.txt. Теперь достаточно просто вставить адрес нужной страны в строку поиска.

В следующем окне нажимаем «Изучить просканированную страницу».

Далее нажимаем ресурсы страницы

В появившемся окне видно ресурсы, которые по тем или иным причинам недоступны роботу google. В конкретном примере нет ресурсов, заблокированных файлом robots.txt.

Если же такие ресурсы будут, вы увидите сообщения следующего вида:

Рекомендации, что закрыть в robots.txt

Каждый сайт имеет уникальный robots.txt, но некоторые общие черты можно выделить в такой список:

  • Закрывать от индексации страницы авторизации, регистрации, вспомнить пароль и другие технические страницы.
  • Админ панель ресурса.
  • Страницы сортировок, страницы вида отображения информации на сайте.
  • Для интернет-магазинов страницы корзины, избранное. Более подробно вы можете почитать в советах интернет-магазинам по настройкам индексирования в блоге Яндекса.
  • Страница поиска.

Это лишь примерный список того, что можно закрыть от индексации от роботов поисковых систем. В каждом случае нужно разбираться в индивидуальном порядке, в некоторых ситуациях могут быть исключения из правил.

Как исключить из индексации страницы с определёнными параметрами в URL и другие техники контроля индексации сайта поисковыми системами

Оглавление

Вы можете контролировать, какие страницы можно индексировать поисковым системам, а какие разделы сайта закрыты от них

Передо мной возникла задача исключить из индексирования поисковыми системами страницы, содержащие определённую строку запроса (уникальные для пользователя отчёты, каждый из которых имеет свой адрес). Я решил эту задачу для себя, а также решил полностью разобраться с вопросами разрешения и запрещения индексирования сайта. Этому посвящён данный материал. В нём рассказывается не только о продвинутых случаях использования robots.txt, но также и других, менее известных способах контроля индексации сайта.

В Интернете много примеров, как исключить определённые папки из индексации поисковыми системами. Но может возникнуть ситуация, когда нужно исключить страницы, причём не все, а содержащие только указанные параметры.

Пример страницы с параметрами: сайт.ru/?act=report& >

Здесь act – это имя переменной, значение которой report, и id – это тоже переменная со значением 7a98c5. Т.е. строка запроса (параметры) идут после знака вопроса.

Топ-пост этого месяца:  Выпадающие элементы в меню

Закрыть страницы с параметрами от индексирования можно несколькими способами:

  • с помощью файла robots.txt
  • с помощью правил в файле .htaccess
  • с помощью метатега robots

Контроль индексации в файле robots.txt

Файл robots.txt

Файл robots.txt – это простой текстовый файл, который размещается в корневой директории (папке) сайта, и содержащий одну или более записей. Типичный пример содержимого файла:

В этом файле из индексации исключены три директории.

Помните, что строку с «Disallow» нужно писать отдельно для каждого URL префикса, который вы хотите исключить. То есть вы не можете написать «Disallow: /cgi-bin/ /tmp/» в одну строку. Также помните о специальном значении пустых строк – они разделяют блоки записей.

Регулярные выражения не поддерживаются ни в строке User-agent, ни в Disallow.

Файл robots.txt должен размещаться в корневой папке вашего сайта. Его синтаксис следующий:

В качестве значения User-agent указана * (звёздочка) – это соответствует любому значению, т.е. правила предназначены для всех поисковых машин. Вместо звёздочки можно указать имя определённой поисковой машины, для которой предназначено правило.

Можно указать более чем одну директиву Disallow.

В файле robots.txt можно использовать подстановочный символы:

  • * обозначает 0 или более экземпляров любого действительного символа. Т.е. это любая строка, в том числе и пустая.
  • $ обозначает конец URL.

Другие символы, в том числе &, ?, = и т.д. понимаются буквально.

Запрет индексации страницы с определёнными параметрами с помощью robots.txt

Итак, я хочу заблокировать адреса вида (вместо ЗНАЧЕНИЕ может быть любая строка): сайт.ru/?act=report& >

Для этого подойдёт правило:

В нём / (слеш) означает корневую папку сайта, затем следует * (звёздочка), она означает «что угодно». Т.е. это может быть любой относительный адрес, например:

  • /ru
  • /page.php
  • /order/new/ > Затем следует ? (знак вопроса), который трактуется буквально, т.е. как знак вопроса. Следовательно далее идёт строка запроса.

Вторая * означает, что в строке запроса может быть что-угодно.

Затем идёт последовательность символов act=report& >

Запрет индексации поисковыми системами, но разрешение для сканеров рекламных сетей

Если вы закрыли сайт от индексирования для поисковых систем, либо закрыли определённые его разделы, то на них не будет показываться реклама AdSense! Размещение рекламы на страницах, закрытых от индексации, может считаться нарушением и в других партнёрских сетях.


Чтобы это исправить, добавьте в самое начало файла robots.txt следующие строки:

Этими строками мы разрешаем ботам Mediapartners-Google, AdsBot-Google* и YandexDirect индексировать сайт.

Т.е. файл robots.txt для моего случая выглядит так:

Запрет индексации всех страниц со строкой запроса

Это можно сделать следующим образом:

Данный пример блокирует все страницы, содержащие в URL ? (знак вопроса).

Помните: знак вопроса, стоящий сразу после имени домена, например, site.ru/? равнозначен индексной странице, поэтому будьте осторожны с данным правилом.

Запрет индексации страниц с определённым параметром, передающимся методом GET

К примеру, нужно заблокировать URL, содержащие в строке запроса параметр order, для этого подойдёт следующее правило:

Запрет индексации страниц с любым из нескольких параметров

Предположим, нам нужно запретить индексировать страницы, содержащие в строке запроса или параметр dir, или параметр order, или параметр p. Для этого перечислите каждый из параметров для блокировки в отдельных правилах примерно следующим образом:

Как запретить поисковым системам индексировать страницы, в URL которых несколько определённых параметров

К примеру, нужно исключить из индексации страницы, содержание в строке запроса параметр dir, параметр order и параметр p. К примеру, страница с таким URL должна быть исключена из индексации: mydomain.com/new-printers?dir=asc&order=price&p=3

Этого можно добиться используя директиву:

Вместо значений параметров, которые могут постоянно меняться, используйте звёздочки. Если параметр всегда имеет одно значение, то используйте его буквальное написание.

Как закрыть сайт от индексации

Чтобы запретить всем роботам индексировать весь сайт:

Разрешение всем роботам полный доступ

Чтобы предоставить всем роботам полный доступ для индексации сайта:

Либо просто создайте пустой файл /robots.txt, либо вообще не используйте его – по умолчанию, всё, что не запрещено для индексации, считается открытым. Поэтому пустой файл, либо его отсутствие – означают разрешение на полное индексирование.

Запрет всем поисковым системам индексировать часть сайта

Чтобы закрыть некоторые разделы сайта от всех роботов, используйте директивы следующего вида, в которых замените значения на свои:

Блокировка отдельных роботов

Для закрытия доступа отдельным роботам и поисковым системам, используйте имя робота в строке User-agent. В данном примере закрыт доступ для BadBot:

Помните: многие роботы игнорируют файл robots.txt, поэтому это не является надёжным средством закрыть сайт или его часть от индексирования.

Разрешить индексировать сайт одной поисковой системой

Допустим, мы хотим разрешить индексировать сайт только Google, а другим поисковым системам закрыть доступ, тогда сделайте так:

Первые две строки дают разрешение роботу Google на индексацию сайта, а последние две строки запрещают это всем остальным роботам.

Запрет на индексацию всех файлов, кроме одного

Директива Allow определяет пути, которые должны быть доступны указанным поисковым роботам. Если путь не указан, она игнорируется.

Важно: Allow должна следовать до Disallow.

Примечание: Allow не является частью стандарта, но многие популярные поисковые системы её поддерживают.

В качестве альтернативы, с помощью Disallow вы можете запретить доступ ко всем папкам, кроме одного файла или одной папки.

Как проверить работу robots.txt

В Яндекс.Вебмастер есть инструмент для проверки конкретных адресов на разрешение или запрет их индексации в соответствии с файлом robots.txt вашего файла.

Для этого перейдите во вкладку Инструменты, выберите Анализ robots.txt. Этот файл должен загрузиться автоматически, если там старая версия, то нажмите кнопку Проверить:

Затем в поле Разрешены ли URL? введите адреса, которые вы хотите проверить. Можно за один раз вводить много адресов, каждый из них должен размещаться на новой строчке. Когда всё готово, нажмите кнопку Проверить.

В столбце Результат если URL адрес закрыт для индексации поисковыми роботами, он будет помечен красным светом, если открыт – то зелёным.

В Search Console имеется аналогичный инструмент. Он находится во вкладке Сканирование. Называется Инструмент проверки файла robots.txt.

Если вы обновили файл robots.txt, то нажмите на кнопку Отправить, а затем в открывшемся окно снова на кнопку Отправить:

После этого перезагрузите страницу (клавиша F5):

Введите адрес для проверки, выберите бота и нажмите кнопку Проверить:

Запрет индексации страницы с помощью мета тега robots

Если вы хотите закрыть страницу от индексации, то в теге пропишите:

Слова noindex,nofollow означают, что страница закрыта от индексации и что поисковые машины не должны следовать по ссылкам, которые присутствуют на этой странице.

Если вы хотите закрыть страницу от индексации, но разрешить поисковым системам следовать по ссылкам на этой странице (чтобы можно было просканировать другую часть сайта), то используйте следующую строку:

Запрет индексации с помощью заголовка X-Robots-Tag в HTTP

Вы можете добавить в файл .htaccess строку:

В результате в каждый ответ вашего сайта будет добавляться X-Robots-Tag HTTP заголовок, который запретит поисковым системам индексировать сайт.

Если вы добавили строку в файл .htaccess в корне вашего сайта, то это действие (запрет индексации) будет распространяться на весь сайт. Вы также можете разместить файл .htaccess с этой строкой в любой папке, чтобы запретить индексацию только её.

Если вы достаточно продвинутый пользователь Apache, вы можете использовать директиву , чтобы указывать файлы какого именно типа запрещены для индексации.

Например, запрет для индексации всех файлов с расширением .PDF:

Запрет для индексации всех файлов изображений (.png, .jpeg, .jpg, .gif):

Блокировка доступа поисковым системам с помощью mod_rewrite

На самом деле, всё, что было описано выше, НЕ ГАРАНТИРУЕТ, что поисковые системы и запрещённые роботы не будут заходить и индексировать ваш сайт. Есть роботы, которые «уважают» файл robots.txt, а есть те, которые его просто игнорируют.

С помощью mod_rewrite можно закрыть доступ для определённых ботов

Приведённые директивы заблокируют доступ роботам Google и Yandex для всего сайта.

Если, допустим, нужно закрыть для индексирования только одну папку report/, то следующие директивы полностью закроют доступ к этой папке (будет выдаваться код ответа 403 Доступ Запрещён) для сканеров Google и Yandex.

Если вам интересна блокировка доступа для поисковых систем к отдельным страницам и разделам сайта с помощью mod_rewrite, то пишите в комментариях и задавайте ваши вопросы – я подготовлю больше примеров.

Связанные статьи:

  • А как долго на ваших сайтах «залипают» пользователи? (50.4%)
  • Как сбросить пароль WordPress без доступа к почте (50.4%)
  • Безопасность сайтов на WordPress (50.4%)
  • Пропал редактор файлов темы WordPress – как вернуть (50.4%)
  • Как настроить автоматическое резервное копирование сайта WordPress с выгрузкой в облако (БЕСПЛАТНО) (50.4%)
  • Регистрация в Google AdSense и Рекламной Сети Яндекса как резидент Таиланда (RANDOM — 0.4%)

Рекомендуется вам:

13 observations on “ Как исключить из индексации страницы с определёнными параметрами в URL и другие техники контроля индексации сайта поисковыми системами ”

Здравствуйте Автор подскажите, а как закрыть все файлы от индексации типа:

самое близкое по значению, но тут папка

Если, допустим, нужно закрыть для индексирования только одну папку report/, то следующие директивы полностью закроют доступ к этой папке (будет выдаваться код ответа 403 Доступ Запрещён) для сканеров Google и Yandex.

А вот как закрыть (а может лучше перенаправление на главную) именно страниц по маске *.html с помощью mod_rewrite подскажите пожалуйста

Заранее Спасибо, С Уважением Тс

Приветствую! Для настройки индексации я бы в первую очередь рекомендовал использовать файл robots.txt. Для того, чтобы запретить индексировать все страницы, которые оканчиваются на .html, в файл robots.txt запишите:

Если вам всё равно хочется использовать mod_rewrite, то помните, что без острой необходимости не нужно делать так, чтобы показывался разный контент для пользователей и для поисковых систем, поскольку это может быть воспринято как клоакинг.

Тем не менее, если хотите с помощью mod_rewrite перенаправлять на главную страницу все запросы поисковых роботов к адресам, заканчивающимся на .html, то следующие правила в файле .htaccess сделают это:

Есть еще пару вопросов в robots.txt (уже сделано) у меня так Disallow: /*.html это верно или обязательно добавить $ ?

для .htaccess вот так сделал

знакомый посоветовал последнюю строчку вот так

может страницы лучше блокировать чем перенаправлять?

Символ $ означает конец строки. В этом правиле он для того, чтобы не было ложных срабатываний, если, к примеру, .html встретится где-нибудь в неожиданной части имени файла или в передаваемой переменой, то опять же, эта страница будет закрыта от индексации. Может такая ситуация и не возникнет, но если возникнет, то будет сюрпризом для вас.

  • NC — означает независимо от регистра (например, .html и .HTML будут подходить)
  • F — означает запрет доступа (вы просили сделать редирект на главную)
  • L — означает не рассматривать другие правила в этом цикле, в этом случае не нужно, так как F срабатывает сразу, другие правила не рассматриваются в любом случае

В общем, то, что вам порекомендовали, подойдёт для блокировки доступа. Что лучше, блокировать или перенаправлять — не знаю. Редиректы лучше без особой нужды не использовать — со стороны это может выглядеть подозрительно, особенно если они делаются только для поисковых систем — опять же, можно подумать на клоакинг.

Добрый день, подскажите зеленому.
На сайте есть страницы со статьями ( картинки+текст). внизу каждой статьи есть блок » читатйте так же»- в котором есть изображние+ анотация другой статьи из этого же раздела.
Заметил такой «косяк»- робот индексирует все картинки и те что отнносятся к статье и те что предложены из блока читайте также под одну статью.
как запретить индексировать именно блок «читатйте так же»

Скажите, пожалуйста, как будет правильно закрыть от индексации в этой ссылки https://site.ru/product/lobovoe-steklo-4133agnblhmv1b-fyg/?format=application/ld+json вот эту часть /?format=application/ld+json

так будет правильно?

Если нужно заблокировать страницы с одной и той же строкой, то есть если всегда format=application/ld+json, то правильно так:

Если же значение format могут быть разными, например, format=application/ld+xml и все их нужно заблокировать, то правильно будет так:

Второй вариант заблокирует вообще все страницы, в которых присутствует строка ?format=.

После редактирования файла robots.txt, не забудьте сделать проверку в Яндекс.Вебмастере и Поисковой консоли Google как тут тоже показано.

Спасибо большое! Очень помогли

Подскажите как закрыть страницы где в адресе 2 слэша и более ///

Таже закрыть где вконце в адресе нет слеша сайт.ru/каталог/страница

Оставить только такие: сайт.ru/каталог/страница/

Приветствую! Закрывать страницы от индексации, которые различаются количеством слэшей, — это неправильный подход. Правильно в этом случае сделать так, чтобы таких страниц не было.

Несколько слэшей может появляться когда ссылка на внутреннюю страницу создаётся в PHP коде, например, когда она получается из строк «/cat/» и «/phones/», то в результате будет «/cat//phones/». В этом случае нужно исправить эти недочёты.

Другой вариант появления страниц с несколькими слэшами, когда кто-то вручную вводит неправильный адрес на вашем сайте, например, «/cat///phones/», а сайт правильно его понимает и просто отображает страницу без редиректа. В результате такая страница также может попасть в индекс поисковых систем — чтобы этого не было, нужно настроить редирект. Легче всего это сделать с помощью mod_rewrite.

Удаление лишних слешей в адресе URL

Например, страница /catalog///stranica.html доступна и открывается. Чтобы избежать такой ситуации и не плодить бесконечное число дублей следует записать следующий редирект:

Здесь последовательно используется два правила для того, чтобы удалять многократные слеши из любой части URL: начала, середины, конца.

Это же касается наличия или отсутствия конечного слэша — можно выбрать любой вариант, но только один — это называется «канонический вид». Если движок вашего сайта не умеет работать с этим, то также на помощь придёт mod_rewrite.

Принудительное добавление конечного слеша к адресу сайта

Если вам нужно добавить к URL конечный слеш (в том случае, если он отсутствует), то воспользуйтесь этим правилом перезаписи:

В результате вы добьётесь того, что не нужно будет исключать из индексации страницы без слэша на конце и с множественными слэшами подряд по той причине, что такие страницы просто не будут существовать. Это намного более правильный метод, поскольку если кто-то сделает ссылку на страницу в неканоническом виде, то такая страница всё равно проиндексируется! Запреты в файле robots.txt не помогут — страницы, на которые даны ссылки с внешних источников, попадают в индекс в любом случае.

День добрый! Намедни обнаружил в вебмастере яндекс, что индексируются изображения капчи. Будьте добры объясните чайнику, как правильно прописать в роботс запрет на индексацию, вот пример: сайт/image_captcha?s >

Скорее всего, по пути /image_captcha вообще ничего не должно индексироваться — независимо от параметров. Поэтому можно просто заблокировать целиком весь этот путь для индексации:

Спасибо! Прописал в роботс, проверил несколько ссылок в вебмастере, пишет, что страница запрещена к индексированию.

Google умеет индексировать заблокированные для сканирования веб-страницы

Serpstat использует файлы cookie для обеспечения работоспособности сервиса, улучшения навигации, предоставления возможности связаться с командой поддержки, а также маркетинговых активностей Serpstat.

Нажав кнопку «Принять и продолжить», вы соглашаетесь с Политики конфиденциальности

Мы запустили рейтинг зарплат интернет-маркетологов! Прими участие в анонимном опросе.

How-to – Читать 11 минут – 14 марта 2020

В инструментах Google Search Console и Яндекс.Вебмастер есть все необходимое, чтобы проверить сайт. Отчеты о статистике сканирования web-ресурса, количество показов и кликов, средняя позиция в поиске.

В отчетах сканирования вы можете обнаружить ошибки. Также дается краткое объяснение для вебмастера: отчего они появились, как их решать.

Информация в Search Console попадает с задержкой. Поэтому может по нескольку недель отображать информацию об ошибках, которые уже устранены.

Желательно кроме консолей проверять сайт другими средствами сканирования и аудирования сайта.

Google делит ошибки на 2 типа:

  • ошибки сайта — появляются, если бот не может обойти весь ресурс;
  • ошибки URL — говорят о проблеме с отдельными страницами.

Первые нужно устранять как можно быстрее: они влияют на возможность продвижения. Если сайт в целом не оптимизирован, устранение этих ошибок мало повлияет на его рост в поисковой выдаче.

DNS, или Domain Name System. DNS — это система доменных имен, данные которой используются роботами при посещении ресурсов. Если возникают ошибки DNS, значит, поисковик не может связаться с сайтом, а пользователи его найти и открыть.

Google не сразу сообщает об ошибке: он может пару раз вернуться, и, если попытки будут неудачны, выдаст сообщение в консоли.

Разработчики Google утверждают, что большинство ошибок DNS на продвижение не влияют, так как не мешают сканированию. Но их все равно следует срочно исправлять, иначе пользователи могут уходить с сайта из-за медленной загрузки страниц.

Нужно ответственно подходить к выбору хостинг-провайдера — он должен обеспечивать бесперебойную работу в любой ситуации.

Ошибки сервера также необходимо устранять в первую очередь. Если в настоящий момент веб-сайт работает (проверьте через сканер Google, который будет доступен до марта 2020), а в консоли появилось сообщение об ошибке, возможно, она была выявлена ранее.

Задача вебмастера — убедиться, что ситуация не повторится. Если в новой версии консоли не появится аналог данного инструмента, используйте программы-сканеры. Например, Netpeak Spider.

Что может случиться?

    таймаут — случается, если истекло время ожидания соединения, код ошибки 408;

усеченные заголовки — робот подключился, но не полностью получил заголовки ответа сервера, код ошибки 304;

сброс подключения — запрос обработан сервером, но бот не успел получить результат, код ошибки 205;

усеченное тело ответа — получен не полностью из-за преждевременного отключения, код ошибки 206;

сбой подключения — возникает, если CDN или сеть доставки контента не может подключиться к веб-серверам, код ошибки 522. Другими словами, компьютер не может подключиться к серверу;

отсутствие отклика означает, что сервер или прокси-сервер не получил ответ от вышестоящего сервера, чтобы завершить свой запрос, код ошибки 504;

время ожидания истекло — роботу не удается подключиться за установленный системой промежуток времени, код ошибки 502. То есть время ожидания истекло до завершения операции. Или сервер не ответил, поскольку время истекло раньше, чем удалось подключение, либо все подключения уже использованы.

Отличие данного пункта от первого таймаута состоит в том, что произошло соединение с хостом, но далее желаемое не получено. Это не проблема соединения: она может быть как в запросе, так и в самом хосте.

Появляется, когда файл недоступен для поискового робота. Ошибка «недоступно» возникает в случае, когда брандмауэр блокирует Google. Если ее не решать, сканирование будет откладываться.

Корневой документ robots.txt для веб-ресурса создают с целью прописать директивы и закрыть посещение поисковых роботов к техническим web-страницам и другим страницам, которые не содержат полезной и уникальной информации. А также скорректировать процесс сканирования и предоставить путь к карте sitemap для лучшего обхода.

Данный файл дает возможность снизить количество запросов к вашему серверу, соответственно, нагрузку.

Для решения проблемы достаточно проверить, правильно ли настроен robots.txt:

  • указаны ли правильно разделы и документы, которые запрещено обрабатывать;
  • доступен ли файл или отдает 404 ответ сервера.

Появляются, когда Googlebot не смог обработать отдельные страницы из-за неправильных редиректов (цепочки бесконечные редиректов; перенаправлений на битые страницы), закрытия в robots.txt, ошибки необновленной sitemap.xml. Отчет можно получить в Search Console. Для этого перейдите в раздел Покрытие из главного меню, как показано на скриншоте выше.

Устранять подобные неполадки проще: при их анализе можно посмотреть конкретные страницы, с которыми возникли проблемы.

Ошибки URL отображаются списком от самых важных до незначительных. Их необходимо устранять, так как у робота есть определенный «краулинговый бюджет»: если он потратит все время на просмотр несуществующих страниц, у сайта останутся не отсканированными полезные страницы (или будут долго проходить индексирование).

Ошибка «Soft 404». Когда возникает:

    cтраница, которая была удалена, не возвращает код ответа HTTP 404 по требованию пользователя или бота;

несуществующая страница перенаправляет пользователей на нерелевантную страницу. Например, если поставили редирект с категории велосипеды на категорию мотоциклы;

когда страница пустая, на ней нет контента.

Чтобы устранить ошибки, следует:

Подобные ошибки возникают при настройке 301 редиректа на нерелевантные урлы. Google их может неправильно интерпретировать. При этом нежелательно перенаправлять много устаревших страниц на основную страницу веб-ресурса, так как лучше проставлять ссылки на аналогичные страницы или похожие по содержанию. Так больше вероятности, что пользователь получит корректный ответ на свой запрос.

Ошибка 404. Она возникает, когда робот сканировал несуществующую страницу, потому что на нее ссылались в других документах, в том числе из sitemap.xml. Есть внутренние и внешние 404 ошибки:

  • если ссылка на удаленную страницу стоит внутри сайта, то разработчики могут ее убрать сами;
  • если ссылка стоит извне, разработчики вместе с SEO-специалистом или контент-менеджером могут настроить 301 редирект в файле .htaccess, чтобы передать ее ссылочный вес на какую-либо релевантную страницу.


Доступ запрещен.
Возникает, когда у робота нет доступа к URL. Например, в файле robots.txt использованы директивы — запрет на сканирование всего ресурса или отдельных каталогов, разделов. Либо хостер заблокировал доступ к сайту.

Чтобы устранить проблему, достаточно убрать причину, препятствующую доступу:

Google может индексировать заблокированные страницы, не сканируя их

О возможностях индексации Google рассказал представитель компании, Джон Мюллер.

Google может индексировать URL, заблокированные в robots txt, не проводя сканирование.

Пользователь Google задал вопрос, касающийся отображения заголовков и описаний страниц по сайту, полностью заблокированному в robots.txt. Джон Мюллер сообщил, что индексация адресов возможна без сканирования даже при блокировке в robots.txt.

На вопрос, почему при этом отображаются заголовки и ссылки, Мюллер также дал пояснение. Дело в том, что заголовки, как правило, берутся из ссылок, но сниппетов в этом случае быть не должно.

Как исключить контент WordPress из поиска Google?

Иногда нужно исключить определенный контент WordPress или файлы из индексирования в результатах поиска Google.

Индексация Google обычно относится к процессу добавления новых веб-страниц, включая цифровой контент (документы, видео, изображения), и хранения их в своей базе данных. Другими словами, чтобы контент вашего сайта появился в результатах поиска Google, его сначала нужно сохранить в индексе поисковой системы.

Google может индексировать все эти цифровые страницы и контент, используя своих пауков, сканеров или ботов, которые постоянно сканируют различные веб-сайты в Интернете. Они следуют инструкциям владельцев веб-сайтов о том, что сканировать, а что следует игнорировать во время сканирования.

Зачем нужно индексировать сайты?

В цифровую эпоху трудно перемещаться по миллиардам веб-сайтов, находя определенный контент. Это будет намного проще сделать, если есть инструмент, способный показать нам отсортированную, полезную и актуальную для нас информацию. Именно этим и занимается поисковая система Google, ранжируя сайты в результатах поиска.

Индексирование – неотъемлемая часть работы поисковых систем. Оно помогает определить слова и выражения, которые лучше всего описывают страницу и в целом способствует ранжированию страницы и веб-сайта. Чтобы появиться на первой странице Google, ваш сайт, включая веб-страницы и цифровые файлы (видео, изображения и документы), сначала должен быть проиндексирован.

Используя ключевые слова, сайты могут занимать более высокие позиции в поиске. Это открывает двери для новых посетителей, подписчиков и потенциальных клиентов вашего сайта и бизнеса.

Зачем и как исключать контент из поиска Google?

На любом веб-ресурсе есть страницы, целые разделы или файлы сайта, которые не нужно показывать в результатах поиска. Часто это необходимо для обеспечения безопасности и гарантии конфиденциальности. Без паролей или аутентификации частный контент подвергается риску раскрытия и несанкционированного доступа, если ботам дать полную свободу действий над папками и файлами вашего сайта.

В начале 2000-х хакеры использовали Google для отображения информации о кредитных картах с веб-сайтов. Этот недостаток безопасности использовался многими хакерами для кражи информации о картах с веб-сайтов электронной коммерции.

Подобные случаи происходят в интернете и могут привести к потере продаж и доходов для владельцев бизнеса. Для корпоративных сайтов, электронных магазинов и сайтов-сообществ критически важно сначала блокировать индексацию конфиденциального контента и частных файлов, а затем создать надежную систему аутентификации пользователей.

Давайте посмотрим, как можно управлять контентом и файлами относительно попадания их в индекс и поиск Google.

1. Использование robots.txt для изображений

robots.txt – это файл, расположенный в корне вашего сайта, предоставляющий ботам поисковых систем инструкции о том, что сканировать, а что нет. Файл обычно используется для управления трафиком обхода веб-сканерами (мобильными и настольными). С его помощью можно также запретить появление изображений в результатах поиска Google.

Для сайтов WordPress файл robots.txt может содержать такие инструкции:

Первая инструкция означает, что сайт открыт для всех ботов, которые будут следовать всем инструкциям, приведенным ниже. Две остальные – запретить индексировать папки wp-admin и wp-includes.

Как исключить медиафайлы из поиска?

robots.txt также может быть использован, чтобы заблокировать обход некоторых форматов файлов (например, PDF, GIF, JPG, MP4). Для этого нужно добавить следующие инструкции.

Для PDF:

JPG:

GIF:

Вышеприведенные фрагменты кода просто исключают ваш контент из индексирования сторонними ресурсами, такими как Google. Но они все же доступны по URL-ссылкам. Чтобы запретить к ним доступ вообще, нужно будет использовать другие методы (например, с помощью плагинов ограничения контента Restricted Site Access , Ultimate Member или Users Ultra Membership ).

Поисковый агент Googlebot-Image может быть использован для блокировки конкретных расширений изображений от появления в результатах поиска картинок. Если нужно исключить их из всех поисковых запросов (веб-поиска и изображений), рекомендуется использовать пользовательский агент Googlebot.

Также можете использовать другие Google-агенты для исключения типов файлов. Например, Googlebot-Video применяется для видеороликов в разделе Google Видео.

Имейте в виду, что robots.txt не подходит для блокировки конфиденциальных файлов и содержимого из-за своих ограничений:

  • он дает инструкции ботам, которые могут быть проигнорированы поисковой системой;
  • robots.txt не закрывает доступ к страницам и файлам вашего сайта;
  • поисковые системы смогут найти и проиндексировать заблокированные страницы и содержимое, если они связаны с другими веб-сайтами и источниками;
  • robots.txt доступен для всех по ссылке https://site.ru/robots.txt.

Чтобы заблокировать индексирование поиска и более эффективно защитить вашу личную информацию, используйте следующие методы.

2. Использование метатега noindex для страниц

Использование метатега noindex – это правильный и эффективный способ блокировать поисковую индексацию конфиденциального контента на вашем сайте. В отличие от robots.txt, метатег размещается в разделе веб-страницы и имеет вид:

Любая страница с этой инструкцией в заголовке не будет отображаться в результатах поиска Google. Другие директивы, такие как nofollow и notranslate, также могут использоваться, чтобы запретить сканировать ссылки и предлагать перевод этой страницы соответственно.

Можно также закрыть доступ нескольким конкретным поисковым роботам:

Добавить этот код на сайт можно двумя способами. Первый вариант – создать дочернюю тему WordPress, а затем в файле functions.php использовать хук WordPress wp_head для вставки noindex или любых других мета-тегов.

Если вы не знаете, как редактировать functions.php, то в этом случае Вам поможет плагин ProFunctions.

Ниже приведен пример того, как добавить noindex на страницу входа:

Второй способ – использовать SEO-плагин для управления видимостью страницы. Например, в Yoast SEO вы можете перейти в раздел дополнительных настроек на странице/записи и просто выбрать Нет в настройке Разрешить поисковым системам показывать Запись в результатах поиска?

3. Использование заголовка HTTP X-Robots-Tag для других файлов

X-Robots-Tag дает больше гибкости, чтобы блокировать индексацию поиска контента и файлов. В частности, по сравнению с метатегом noindex, он может использоваться в качестве ответа заголовка HTTP для любых заданных URL-адресов. Например, вы можете использовать X-Robots-Tag для файлов изображений, видео и документов, где невозможно использовать мета-теги роботов.

К примеру, запретим всем роботам индексировать изображения в формате JPEG:

Также можно указать конкретных роботов:

Важно отметить, что поисковые роботы обнаруживают мета-теги и HTTP-заголовки X-Robots-Tag во время сканирования. Поэтому, если вы хотите, чтобы эти боты следовали вашим инструкциям и не индексировали конфиденциальный контент и документы, вы не должны останавливать обход этих URL-адресов страниц и файлов.

Если они сканируют с помощью robots.txt, ваши инструкции по индексации не будут прочитаны, а значит, проигнорированы. В результате, если другие веб-сайты ссылаются на ваш контент и документы, они все равно будут индексироваться Google и другими поисковыми системами.

4. С помощью правил .htaccess для серверов Apache

Вы также можете добавить заголовок HTTP X-Robots-Tag в .htaccess-файл, блокирующий поисковые роботы от индексации страниц и цифрового содержимого вашего веб-сайта, размещенного на сервере Apache. В отличие от метатегов noindex, правила в .htaccess могут применяться ко всему сайту или к определенной папке. Поддержка регулярных выражений обеспечивает еще большую гибкость при работе с несколькими типами файлов одновременно.

Чтобы запретить роботам Googlebot, Bing и Baidu обход веб-сайта или специального каталога, используйте следующие правила:

Например, чтобы на всем сайте заблокировать поисковую индексацию форматов TXT, JPEG и PDF, добавьте следующий фрагмент в .htaccess:

5. Использование страницы с аутентификацией по имени пользователя и паролю

Вышеуказанные методы предотвратят появление вашего личного контента и документов в результатах поиска Google. Тем не менее, любые пользователи со ссылкой могут получить доступ к содержимому и файлам напрямую. В целях безопасности настоятельно рекомендуется настроить правильную аутентификацию с использованием имени пользователя и пароля, а также прав доступа к роли.

Например, страницы, содержащие личные профили сотрудников и конфиденциальные документы, доступ к которым не должен осуществляться анонимными пользователями, следует защищать с помощью аутентификации. Таким образом, даже когда пользователям каким-то образом удается найти страницы, им будет предложено ввести учетные данные, прежде чем они смогут увидеть содержимое.

В WordPress для этого нужно:

  • открыть страницу или запись на редактирование;
  • в блоке Опубликовать найти опцию Видимость и установить ее значение Защищено паролем;
  • задать пароль и нажать кнопку ОК;
  • обновить страницу/запись (кнопка Обновить).
Топ-пост этого месяца:  Баннерная реклама — где можно купить или продать место под баннер на сайте
Добавить комментарий