Google отключил поддержку директивы noindex в файле robot.txt


Содержание материала:

Полное руководство по Robots.txt и метатегу Noindex

Файл Robots.txt и мета-тег Noindex важны для SEO-продвижения. Они информируют Google, какие именно страницы необходимо сканировать, а какие – индексировать (отображать в результатах поиска).

С помощью этих средств можно ограничить содержимое сайта, доступное для индексации.

Что такое файл Robots.txt?

Robots.txt – это файл, который указывает поисковым роботам (например, Googlebot и Bingbot), какие страницы сайта не должны сканироваться.

Чем полезен файл Robots.txt?

Файл robots.txt сообщает роботам системам, какие страницы могут быть просканированы. Но не может контролировать их поведение и скорость сканирования сайта. Этот файл, по сути, представляет собой набор инструкций для поисковых роботов о том, к каким частям сайта доступ ограничен.

Но не все поисковые системы выполняют директивы файла robots.txt. Если у вас остались вопросы насчет robots.txt, ознакомьтесь с часто задаваемыми вопросами о роботах .

Как создать файл Robots.txt?

По умолчанию файл robots.txt выглядит следующим образом:

Можно создать свой собственный файл robots.txt в любом редакторе, который поддерживает формат .txt. С его помощью можно заблокировать второстепенные веб-страницы сайта. Файл robots.txt – это способ сэкономить лимиты, которые могут пойти на сканирование других разделов сайта.

Директивы для сканирования поисковыми системами

User-Agent: определяет поискового робота, для которого будут применяться ограничения в сканировании URL-адресов. Например, Googlebot, Bingbot, Ask, Yahoo.

Disallow: определяет адреса страниц, которые запрещены для сканирования.

Allow: только Googlebot придерживается этой директивы. Она разрешает анализировать страницу, несмотря на то, что сканирование родительской веб-страницы запрещено.

Sitemap: указывает путь к файлу sitemap сайта.

Правильное использование универсальных символов

В файле robots.txt символ (*) используется для обозначения любой последовательности символов.

Директива для всех типов поисковых роботов:

Также символ * можно использовать, чтобы запретить все URL-адреса кроме родительской страницы.

Это означает, что все URL-адреса дочерних страниц авторов и страниц категорий заблокированы за исключением главных страниц этих разделов.

Ниже приведен пример правильного файла robots.txt:

После того, как отредактируете файл robots.txt, разместите его в корневой директории сайта . Благодаря этому поисковый робот увидит файл robots.txt сразу после захода на сайт.

Что такое Noindex?

Noindex – это метатег, который запрещает поисковым системам индексировать страницу.

Как применять метатег Noindex?

Существует три способа добавления Noindex на страницы:

Метатег «robots»

Разместите приведенный ниже код в раздел страницы:

Он сообщает всем типам поисковых роботов об условиях индексации страницы. Если нужно запретить индексацию страницы только для определенного робота, поместите его название в значение атрибута name.

Чтобы запретить индексацию страницы для Googlebot:

Чтобы запретить индексацию страницы для Bingbot:

Также можно разрешить или запретить роботам переход по ссылкам, размещенным на странице.

Чтобы разрешить переход по ссылкам на странице:

Чтобы запретить поисковым роботам сканировать ссылки на странице:

X-Robots-Tag

x-robots-tag позволяет управлять индексацией страницы через HTTP-заголовок. Этот тег также указывает поисковым системам не отображать определенные типы файлов в результатах поиска. Например, изображения и другие медиа-файлы.

Для этого у вас должен быть доступ к файлу .htaccess. Директивы в метатеге «robots» также применимы к x-robots-tag.

Блокировка индексации через YoastSEO

Плагин YoastSEO в WordPress автоматически генерирует приведенный выше код. Для этого на странице записи перейдите в интерфейсе YoastSEO в настройки публикации, щелкнув по значку шестеренки. Затем в опции «Разрешить поисковым системам показывать эту публикацию в результатах поиска?» выберите «Нет».

Также можно задать тег noindex для страниц категорий. Для этого зайдите в плагин Yoast, в «Вид поиска». Если в разделе «Показать категории в результатах поиска» выбрать «Нет», тег noindex будет размещен на всех страницах категорий.

Google может полностью убрать поддержку директивы noindex в robots.txt

Google уже многие годы говорит вебмастерам, что не поддерживает директиву noindex в файле robots.txt. Однако некоторые SEO-специалисты по-прежнему её используют. Поэтому в компании задумались над тем, чтобы полностью отказаться от этой директивы и сделать так, чтобы она не работала. Об этом заявил сотрудник поиска Гэри Илш в ходе обсуждения на эту тему в Twitter.

Обсуждение инициировал один из пользователей соцсети. Он обратился к Джону Мюллеру и попросил совета относительно использования noindex в robots.txt. Однако Мюллер ответил, что официально эта директива не поддерживается:

We don’t officially support it, so I wouldn’t rely on any particular effect.

Известный западный SEO-консультант Мари Хэйнс (Marie Haynes) на это отметила, что по мнению многих специалистов, она по-прежнему неплохо работает:

In case you were wondering, Google doesn’t officially support use of noindex in your robots.txt.

Many believe it still works fine though.

Here’s a good article by @DeepCrawl with more on use of noindex in the robots.txt file. https://t.co/UF7EubWSfs https://t.co/CjNm2dJ1dO

Здесь к обсуждению присоединился Гэри Илш, который сказал, что в скором времени это может
измениться.

«Я сейчас чищу эту часть кодовой базы Googlebot, а эта штука торчит, как
монахиня в мош-пите», — написал он.

This may go away. I’m cleaning up that part of the googlebot codebase nowadays and that thing sticks out like a nun in a mosh pit

Далее он добавил, что «технически robots.txt предназначен для сканирования.
Метатеги – для индексирования. Во время индексации они будут применяться на
одной и той же стадии, поэтому нет никаких веских оснований иметь их обоих».

На что один из специалистов отметил, что директива noindex в robots.txt — это очень полезная функция при взаимодействии с внешними разработчиками/агентствами — когда не получается получить доступ к конкретному поддомену.

Илш ответил, что проведёт исследование, чтобы посмотреть, как вебмастера используют эту директиву. Если таких будет много, то он обсудит этот вопрос с вышестоящим руководством.

Alright. I’ll run a study to see how people are using it. If the majority are screwing themselves with it, then I’ll go ahead for approvals

Напомним, в 2020 году стало известно, что для Google директива Noindex, follow со временем переходит в Noindex, nofollow.

Google: Проиндексировано, несмотря на блокировку в файле robots.txt

Куча вопросов сыпется по поводу страниц с пометкой «Проиндексировано, несмотря на блокировку в файле robots.txt» в отчете в Google Searh Console.

Ходят мифы будто это Предупреждение — хуже ошибки, страшное зло, дубли, ужас, всё пропало.

Причины

Стоит разделить на официальную и не официальную.

Официально причиной называется

Этот статус установлен, так как мы не уверены, что вы хотите удалить страницу из результатов поиска.

Тут есть довод за и против:

ЗА: Часто в список попадают технические страницы только что появившиеся (этот же довод и ЗА неофициальный вариант)

ПРОТИВ: Почему то в иных случаях гугл уверен.

А теперь моё видение: robots.txt — превентивный запрет, соответственно нельзя сказать «Мы зашли на страницу и не знали что нельзя». Де-юре при таком раскладе нельзя предъявить претензий, ответ будет «Вот смотрите у нас написано что можем, вот для чего, вот эти страницы, мы не уверены что их хотел удалить владелец».

Что касается других способов, то там без посещения страницы запрет не виден, тут за руку не поймать.

Если бы robots.txt полностью запрещал посещение, могла сложиться ситуация что половина сайта видеоматериалы сексуального характера с несовершеннолетними, но закрытая в robots.txt. Вторая половина рассказы про лунтика, где ссылка на запрещенную с текстом «читать далее. «.

Индексируются ли дубли?

Что такое дубли? Это страницы с идентичным контентом, расположенные по разным адресам.

Назревает вопрос, дубль ли страница закрытая в robots.txt, но тем не менее проиндексированная, при условии что контент идентичен. Казалось бы да. Однако не всё так просто.

Страницы закрытые в robots.txt, не смотря на попадание в индекс самих страниц, имеют заблокированный для ПС контент. В чем легко убедиться попробовав вбить в поиск ключевую фразу с такой страницы. Кроме того и в самом руководстве Гугл имеется запись суть которой сводится к этому, хоть и упомянута в контексте html-атрибутов:

Внимание! Поисковый робот не обнаружит директиву noindex, если страница заблокирована в файле robots.txt. Такая страница может быть представлена в результатах поиска (например, если на нее есть ссылка на другой странице).

Чем грозит наличие в выдаче этих страниц

На самом деле ничем. Для простых пользователей они не видны. Единственное по чему можно их найти это url. Много ли посетителей у вас с поиска, которые ищут не информацию, а адрес страницы?

Настолько ли ваш сайт затмевает всех, что «пустая» страница вашего сайта обходит всех конкурентов?

Стоит ли открывать страницы в robots.txt

Необходимо понимать последствия. Ради того чтоб убрать десяток страниц, никому не мешающих, вы можете открыть тысячи, по которым будет гулять Гугл и тратить краулинговый бюджет.

Наличие noindex, canonical или редиректа в конечном итоге приведет к тому что Предупреждение исчезнет. Однако это потребует большого количества ресурсов поисковой системы, которая и дальше продолжит периодически заглядывать, не убран ли запрет.

Хотя эти страницы и без того потихоньку отвалятся.

Меры предосторожности

В первую очередь не нужно плодить ссылки на закрытые страницы, это проблемы и помимо обозначенной в данной статье.

Многие вещи возможно реализовать по событиям js, это сократит вероятность.

Кроме того относительные url вместо абсолютных в скриптах осложнят распознание ссылок.

Продвинутое использование robots.txt без ошибок — руководство для SEO

1 сентября 2020 года Google прекратит поддержку нескольких директив в robots.txt. В список попали: noindex, crawl-delay и nofollow. Вместо них рекомендуется использовать:

Мета-тег noindex, как наиболее эффективный способ удалить страницу из индекса .

404 и 410 коды ответа сервера. В ряде случаев, 410 отрабатывает значительно быстрей для удаления URL из индекса.

Защита паролем. Страницы, требующие авторизации, также обычно удаляются из индекса (важно — именно страницы, полностью скрытые под логином, а не часть контента).

Временное удаление страницы из индекса с помощью инструмента в Search Console.

Disallow в robots.txt.

Тем не менее, robots.txt по-прежнему остаётся одним из главных файлов для SEO-специалиста. Давайте вспомним самые полезные директивы от простых, до менее очевидных.

robots.txt

Это простой текстовый файл, который содержит инструкции для поисковых краулеров — какие страницы сайта не следует посещать, где лежит наш Sitemap.xml и для каких поисковых роботов распространяются правила.

Файл размещается в корневой директории сайта. Например:

Прежде чем начать сканирование сайта, краулеры проверяют наличие robots.txt и находят правила специфичные для их User-Agent, например Googlebot. Если таких нет — следуют общим инструкциям.

Действующие правила robots.txt

User-Agent

У каждой поисковой системы есть свои «агенты пользователя». По сути, это имя краулера, которое помогает дать определённые указания конкретному ему.

Если брать шире, то User-Agent — клиентское приложение на стороне поисковой системы, в некотором смысле имитирующее браузер или, например, мобильное устройство.

User-agent: * — символ астериск используются для обозначения сразу же всех краулеров.

User-agent: Yandex — основной краулер Яндекс-поиска.

User-agent: Google-Image — робот поиска Google по картинкам.

User-agent: AhrefsBot — краулер сервиса Ahrefs.

Важно: если в файле указаны правила для конкретных User-Agent, то роботы будут следовать только своим инструкциям, игнорируя общие правила.

В примере ниже краулер DuckDukcGo сможет сканировать папки сайта /api/ и /tmp/ , несмотря на астериск («звёздочку»), отвечающий за инструкции всем роботам.

Disallow

Директива, которая позволяет блокировать от индексации полностью весь сайт или определённые разделы.

Может быть полезно для закрытия от сканирования служебных, динамических или временных страниц (символ # отвечает за комментарии в коде и игнорируется краулерами).

Упростить инструкции помогают операторы:

* — любая последовательность символов в URL. По умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *.

$ — символ в конце URL-адреса, он используется чтобы отменить использование * на конце правила.

Важно: в robots.txt не нужно закрывать JS и CSS-файлы, они понадобятся поисковым роботом для правильного отображения (рендеринга) контента.

Allow

С помощью этой директивы можно, напротив, разрешить каталог или конкретный адрес к индексации. В некоторых случаях проще запретить к сканированию весь сайт и с помощью Allow открыть нужные разделы.

Также Allow можно использовать для отдельных User-Agent.

Crawl-delay

Директива, теряющая актуальность в случае Goolge, но полезная для работы с другими поисковиками.

Позволяет замедлить сканирование, если сервер бывает перегружен. Устанавливает интервал времени для обхода страниц в секундах (для Яндекса). Чем выше значение, тем медленнее краулер ходит по сайту.

Несмотря на то, что Googlebot игнорирует подобные правила, настроить скорость сканирования можно в Google Search Console проекта.

Интересно, что китайский Baidu также не обращает внимание на Crawl-delay в robots.txt, а Bing воспринимает команду как «временное окно», в рамках которого BingBot будет сканировать сайт только один раз.

Важно: если установлено высокое значение Crawl-delay, убедитесь, что ваш сайт своевременно индексируется. В сутках 86 400 секунд, при Crawl-delay: 30 будет просканировано не более 2880 страниц в день, что мало для крупных сайтов.

Sitemap

Одно из ключевых применений robots.txt в SEO — указание на расположение карты сайты. Обратите внимание, используется полный URL-адрес (их может быть несколько).

Нужно иметь в виду:

Директива Sitemap указывается с заглавной S.

Sitemap не зависит от инструкций User-Agent.

Нельзя использовать относительный адрес карты сайта, только полный URL.

Файл XML-карты сайта должен располагаться на том же домене.

Также убедитесь, что ссылка возвращает статус 200 OK без редиректов. Проверить можно с помощью инструмента, определяющего ответ сервера или анализа XML-карты сайта.

Типичный robots.txt

Ниже представлены простые и распространенные шаблоны команд для поисковых роботов.

Разрешить полный доступ

Обратите внимание, правило для Disallow в этом случае не заполняется.

Полная блокировка доступа к хосту

Запрет конкретного раздела сайта

Запрет сканирования определенного файла

Распространенная ошибка

Установка индивидуальных правил для User-Agent без дублирования инструкций Disallow.

Как мы уже выяснили, при указании директивы User-Agent, соответствующий краулер будет следовать только тем правилам, что установлены именно для него. Не забывайте дублировать общие директивы для всех User-Agent.

В примере ниже — слегка измененный robots.txt сайта IMDB. Общие правила Disallow не будут распространяться на бот ScoutJet. А вот Crawl-delay, напротив, установлена только для него.

Противоречия директив

Общее правило — если две директивы противоречат друг другу, приоритетом пользуется та, в которой большее количество символов .

Может показаться, что файл /admin/js/global.js попадает под правило блокировки содержащего его раздела Disallow: /admin/ . Тем не менее, он будет доступен для сканирования, в отличие от всех остальных файлов в каталоге.

Список распространенных User-Agent

User-Agent #
Google
Googlebot Основной краулер Google
Googlebot-Image Робот поиска по картинкам
Bing
Bingbot Основной краулер Bing
MSNBot Старый, но всё ещё использующийся краулер Bing
MSNBot-Media Краулер Bing для изображений
BingPreview Отдельный краулер Bing для Snapshot-изображений
Яндекс
YandexBot Основной индексирующий бот Яндекса
YandexImages Бот Яндеса для поиска по изображениям
Baidu
Baiduspider Главный поисковый робот Baidu
Baiduspider-image Бот Baidu для картинок
Applebot Краулер для Apple. Используется для Siri поиска и Spotlight
SEO-инструменты
AhrefsBot Краулер сервиса Ahrefs
MJ12Bot Краулер сервиса Majestic
rogerbot Краулер сервиса MOZ
PixelTools Краулер «Пиксель Тулс»
Другое
DuckDuckBot Бот поисковой системы DuckDuckGo

Советы по использованию операторов

Как упоминалось выше, широко применяются два оператора: * и $ . С их помощью можно:

1. Заблокировать определённые типы файлов.

В примере выше астериск * указывает на любые символы в названии файла, а оператор $ гарантирует, что расширение .json находится точно в конце адреса, и правило не затрагивает страницы вроде /locations.json.html (вдруг есть и такие).

2. Заблокировать URL с параметром ? , после которого следуют GET-запросы (метод передачи данных от клиента серверу).

Этот приём активно используется, если у проекта настроено ЧПУ для всех страниц и документы с GET-параметрами точно являются дублями.

Заблокировать результаты поиска, но не саму страницу поиска.

Имеет ли значение регистр?

Определённо да. При указании правил Disallow / Allow, URL адреса могут быть относительными, но обязаны сохранять регистр.

Но сами директивы могут объявляться как с заглавной, так и с прописной: Disallow: или disallow: — без разницы. Исключение — Sitemap: всегда указывается с заглавной.

Как проверить robots.txt?

Есть множество сервисов проверки корректности файлов robots.txt, но, пожалуй, самые надёжные: Google Search Console и Яндекс.Вебмастер.

Для мониторинга изменений, как всегда, незаменим «Модуль ведения проектов»:

Контроль индексации на вкладке «Аудит» — динамика сканирования страниц сайта в Яндексе и Google.

Google может отказаться от использования директивы noindex в robots.txt

С помощью директивы noindex в файле robots.txt (не путать с noindex в мета-теге robots) можно скрыть страницу от поискового робота. Однако данный метод настолько редкий, что о нём знают даже не все SEO-специалисты. Да и работает он пока только в Google. Впрочем, в ближайшем будущем ситуация может измениться.

Гугл уже давно официально придерживается позиции, что директива noindex в файле robots.txt их поисковиком не учитывается. Недавно это подтвердил и сотрудник компании Джон Миллер в Twitter.

Однако SEO-специалист Мари Хэйнс возразила господину Миллеру, что на практике директива всё же продолжает использоваться, несмотря на официальную позицию Google. После чего к дискуссии подключился другой сотрудник компании Гэри Илш, который подтвердил, что директива действительно находится в кодовой части Googlebot, но в скором времени это может измениться.

Google отключил поддержку директивы noindex в файле robot.txt

Google прекращает поддерживать директиву noindex в файле robots.txt с 1 сентября. Об этом было объявлено еще в начале июля и даже разосланы письменные уведомления через Search Console.

В качестве альтернативы директиве noindex в robots.txt Google предлагает использовать следующие варианты:

  • Noindex в метатегах robots;
  • Коды ответа сервера 404 и 410;
  • Disalow в robots.txt;
  • Инструмент удаления URL в Search Console;
  • Защиту паролем. Если на странице не используется разметка для платного контента, то использование логина и пароля для доступа к содержимому страницы обычно приводит к её удалению из индекса Google.

Напомним, что в настоящее время Google активно работает над тем, чтобы перевести Robots Exclusion Protocol, основанный на использовании файла robots.txt, в разряд официальных интернет-стандартов.

В рамках этой инициативы Google также открыл исходный код своего парсера для robots.txt и обновил документацию по этому файлу.

РАЗМЕЩЕНИЕ КОНТЕКСТНОЙ РЕКЛАМЫ В GOOGLE ОТ 9 000 Р. В МЕСЯЦ!

Специалисты Master Star рады предложить Вам размещение контекстной рекламы в Google Реклама. Заявки отправляйте на электронную почту или звоните по телефону +7 (495) 545-47-53 .

Как использовать robots.txt

Файл robots.txt — это один из основных способов сообщить поисковой системе

, к каким частям сайта она может получить доступ, а к каким нет. Данное руководство охватывает практически все возможные нюансы, связанные с robots.txt. Несмотря на то, что настройка файла robots.txt выглядит простой и незамысловатой, все-таки ошибки в нем могут нанести серьезный вред сайту.

Что такое файл robots.txt?

Robots.txt — это текстовый файл, с точным синтаксисом, который предназначен для чтения поисковыми системами. Эти системы также называют роботами, отсюда и одноименное название файла. Точность синтаксиса объясняется тем, что файл читается компьютером.

Robots.txt (известный также как «протокол исключений» (Robots Exclusion Protocol), был согласован разработчиками первых поисковых роботов. Файл не был стандартизирован какой-либо официальной организацией, но для всех крупных поисковых систем robots.txt, по сути, является стандартом.

Функции robots.txt

Поисковые системы индексируют веб-сайты за счет сканирования страниц. При этом осуществляются переходы по ссылкам с сайта «А» на сайт «Б», «В» и т.д. Прежде чем поисковая система начнет сканирование любой страницы в домене, с которым она прежде не сталкивалась, происходит открытие файла robots.txt этого домена. В свою очередь, файл robots.txt сообщает поисковой системе, какие URL на этом сайте разрешены для индексации.

Топ-пост этого месяца:  Wordpress права на папки и файлы. Изменить атрибуты файла

Поисковая система кэширует контент robots.txt и обновляет его несколько раз в день, таким образом изменения отображаются очень быстро.

Где хранить файл robots.txt?

Файл robots.txt должен всегда находиться в корневой папке домена. Так, если адрес домена — www.example.com, тогда файл должен присутствовать здесь: http://www.example.com/robots.txt.

Если домен отображается без www, таким же должен быть и robots.txt. Это же касается http и https.

Еще очень важно, чтобы файл назывался именно как robots.txt.

Плюсы и минусы robots.txt

Плюс: бюджет

Каждый сайт допускает сканирование определенного количества страниц. Блокируя доступ поисковой системы к разделам сайта, вы тем самым экономите средства, которые могут пойти на другие разделы. В особенности на сайтах, где требуется достаточно много работы по части SEO, может быть очень уместно сразу же заблокировать доступ к определенным разделам.

Одна из ситуаций, когда могут понадобиться дополнительные средства — сайт использует множество параметров в строке запроса для фильтрации и сортировки. Допустим, есть 10 разных параметров запросов и разных значений, которые могут использоваться в любой комбинации. В результате получаются сотни, если не тысячи вариаций. Блокировка всех параметров запросов позволит сделать так, чтобы поисковая система сканировала только основные URL сайта.

Линия, блокирующая все URL сайта, с запросом:

Минус: страница не удаляется из результатов поиска

Файл robots.txt сообщает поисковому пауку, в какую часть сайта он не может проникнуть. Но невозможно указать поисковой системе на то, какие URL не следует показывать в поисковых результатах. Это означает, что если поисковой системе запретить доступ к определенному URL, ссылка все еще может появляться в поисковых результатах. Если поисковая система обнаружит достаточно много ссылок, ведущих к этому URL, он будет добавлен, но при этом поисковая система не будет «знать» что на этой странице.

Если вы хотите сделать так, чтобы страница не появлялась в результатах поиска, понадобится атрибут noindex. Это означает, что у поисковой системы должна быть возможность индексировать страницу и найти атрибут noindex, поэтому страница не должна блокироваться в файле robots.txt.

Синтаксис robots.txt

WordPress robots.txt

Файл robots.txt включает в себя один и больше блоков директив, каждый начинается с линии user-agent. «User-agent» — это название специфического робота. У вас может быть один блок для всех поисковых систем, использующих групповой символ для user-agent, или специфические блоки для поисковых систем. Поисковый робот всегда будет выбирать наиболее точное название блока.

Эти блоки выглядят следующим образом:

Директивы Allow и Disallow не должны быть чувствительны к регистру (прописных или строчных букв). Но при выборе значения параметров все же следует учитывать состояние регистра. /photo/ — не то же самое, что /Photo/. Директивы пишутся прописными для удобочитаемости файла.

Директива User-agent

Первая часть любого блока директив — user-agent — идентифицирует определенного робота/паука. Поле user-agent сопоставляется со специфическим полем user-agent робота (обычно более длинным).

Mozilla/5.0 (compatible; Googlebot/2.1;

Относительно простой линии User-agent: Googlebot будет вполне достаточно, если вы хотите сообщить роботу о том, что необходимо сделать.

У большинства поисковых систем имеется несколько роботов, которые используются для индексации, рекламных кампаний, изображений, видео и т.д.

Поисковые системы всегда будут выбирать самые специфические блоки директив, из тех, которые обнаружат. Например, есть три набора директив: одна для *, одна для Googlebot и еще одна — для Googlebot-News. Если блок определяет, кому принадлежит юзер-агент Googlebot-Video, будут соблюдены ограничения Googlebot. Бот с юзер-агентом Googlebot-News будет использовать более специфические директивы Googlebot-News.

Самые распространенные юзер-агенты для поисковых роботов:

Ниже представлен список юзер-агентов, которые можно использовать в файле robots.txt для сопоставления с самыми распространенными поисковыми системами:

Поисковая система
Поле User-agent
Baidu General baiduspider
Baidu Images baiduspider-image
Baidu Mobile baiduspider-mobile
Baidu News baiduspider-news
Baidu Video baiduspider-video
Bing General bingbot
Bing General msnbot
Bing Images & Video msnbot-media
Bing Ads adidxbot
Google General Googlebot
Google Images Googlebot-Image
Google Mobile Googlebot-Mobile
Google News Googlebot-News
Google Video Googlebot-Video
Google AdSense Mediapartners-Google
Google AdWords AdsBot-Google
Yahoo! General slurp
Yandex General yandex

Директива Disallow

Вторая линия в любом блоке директив — это линия Disallow. У вас может быть одна или несколько таких линий, определяющих те разделы сайта, к которым робот определенной системы не может получить доступ. Пустая линия Disallow означает, что запрещенных разделов нет, и что поисковому роботу предоставлен доступ ко всему сайту целиком.

Эта линия блокирует доступ всех поисковых систем к вашему сайту.

Эта линия разрешит всем поисковым системам сканировать весь ваш сайт.

Эта линия запретит Google сканировать директорию Photo на вашем сайте и все ее содержимое. Все поддиректории /Photo также не будут сканироваться. Но эта линия не закроет Google доступ к директории photo, т.к. линии учитывают состояние регистра прописных и строчных символов.

Как использовать групповые символы/регулярные выражения

«Официально» стандарт robots.txt не поддерживает ни регулярные выражения, ни групповые символы. Однако все крупные поисковые системы их понимают. А это значит, что вы можете использовать такие линии, чтобы блокировать группы файлов:

В приведенном выше примере * расширяется до названия совпадающего файла. Остальная часть лини не чувствительна к регистру, поэтому не будет блокироваться доступ поискового робота к файлу /copyrighted-images/example.JPG.

Некоторые системы, такие как Google, разрешают использование более усложненных регулярных выражений. Однако стоит учитывать, что не все поисковые системы способны понять такую логику. Самая полезная особенность — $, что указывает на конец URL.

Это означает, что /index.php нельзя индексировать, но /index.php?p=1 — возможно. Конечно, данная особенность применима лишь особых ситуациях, и ее использование сопряжено с определенным риском: легко допустить ошибку и разблокировать то, что не нужно.

Нестандартные директивы robots.txt

Кроме директив Disallow и User-agent существуют ряд других, которые вы можете использовать. Эти директивы не поддерживаются всеми краулерами поисковых систем, поэтому следует учитывать такое ограничение.

Директива Allow

Это неоригинальная «спецификация», тем не менее большинство поисковых систем ее понимают, что дает возможность формировать очень простые и читабельные директивы:

Единственно возможный способ достичь того же результата без директивы allow — специально добавить disallow к каждому файлу в папке wp-admin.

Директива noindex

Это одна из наименее известных директив, но Google ее фактически поддерживает. Однако использование метода блокировки, который только лишь убирает страницу из Google, означает, что эта страница останется открытой для других поисковых систем.

Стоит иметь в виду, что директива noindex официально не поддерживается Google, т.е. если она работает сейчас, в будущем ситуация может измениться.

Директива host

Поддерживается Яндексом (но не Google, даже несмотря на то, что в некоторых публикациях утверждается обратное), эта директива позволяет решить, будет ли поисковая система высвечивать адрес example.com или www.example.com.

Простой линии host: example.com будет достаточно.

На эту директиву не стоит полагаться, т.к. она поддерживается только Yandex. К тому же она не позволяет выбрать — http или https. Более подходящее решение, которое применимо для всех поисковых систем, — перенаправление 301 для всех названий хостов, которые вы не хотите индексировать.

Директива crawl-delay

Директива crawl-delay поддерживается Yahoo!, Bing и Yandex — она позволяет несколько замедлить эти три системы, которые порой проявляют чрезмерную активность по части сканирования сайтов. Способы чтения директив у этих поисковых систем разные, но конечный результат принципиально не отличается.

Эта линия приведет к тому, что Yahoo! и Bing будет ждать 10 секунд после сканирующего действия.

Yandex будет получать доступ к вашему сайту через каждые десять секунд.

Устанавливая crawl delay на 10 секунд, вы позволяете этим поисковым системам индексировать только 8,640 страниц в день. Для маленького сайта это довольно много, но не для большого. С другой стороны, если вы не получаете трафик от упомянутых систем, это неплохой способ снизить нагрузку на полосу пропускания.

Директива sitemap для XML Sitemaps

С помощью директивы sitemap вы можете сообщить поисковой системе (в частности, Bing, Yandex и Google), где расположены XML-файлы. Конечно же, у вас есть возможность предоставить XML Sitemaps каждой поисковой системе, используя соответствующий инструментарий веб-мастера. Инструменты веб-мастера поисковых систем предоставляют очень ценную информацию о сайте. Если вы не хотите этого делать, как альтернативный вариант можете добавить sitemap в robots.txt.

Валидация robots.txt

Существует множество инструментов, которые позволяют провести валидацию robots.txt. Однако когда необходимо подтвердить директивы, лучше обратиться к первоисточнику. У Google имеется тестовый инструмент для robots.txt в Google Search Console (меню Crawl):

И, конечно же, целесообразнее тщательно протестировать изменения перед их запуском.

Владельцу сайта нужно позаботиться о том, чтобы в поиск не попала конфиденциальная информация — например, личные данные пользователей, их переписка или счета. Такие страницы нужно запрещать индексировать, рекомендуется закрывать страницы со служебной информацией и страницы-дубликаты так как это напрямую влияет на продвижение сайта в поиске.

Google может полностью убрать поддержку директивы noindex в robots.txt

Google уже многие годы говорит вебмастерам, что не поддерживает директиву noindex в файле robots.txt. Однако некоторые SEO-специалисты по-прежнему её используют. Поэтому в компании задумались над тем, чтобы полностью отказаться от этой директивы и сделать так, чтобы она не р.

Bing: мы никогда не поддерживали директиву noindex в robots.txt Bing никогда не поддерживал noindex в robots.txt – в отличие от Google. Поэтому отказ от поддержки этой директивы, запланированный Google, никак не отразится на работе Bing. Об этом заявил сотрудник поиска Фредерик Дубут (Frеdеric Dubut) в Twitter. Напомним, что с 1 сентября.

Google: URL, заблокированные через robots.txt, не влияют на бюджет сканирования Сотрудник Google Гэри Илш обновил свой пост с частыми вопросами по краулинговому бюджету. Теперь в нём появилась следующая информация: «Вопрос. Влияют ли URL, доступ к которым закрыт через директиву Disallow в robots.txt, на бюджет сканирования? Ответ. Нет, эти URL не влияют.

Google напомнил о скором прекращении поддержки noindex в robots.txt До 1 сентября осталось всего ничего, и Google напоминает вебмастерам, что те, кто продолжает использование директивы noindex в robots.txt, могут оказаться в неприятной ситуации. Google прекращает поддерживать директиву noindex в файле robots.txt с 1 сентября. Об этом было о.

Bing: мы всегда воспринимали nofollow как подсказку, а не директиву На фоне активного обсуждения последних изменений в обработке атрибута nofollow со стороны Google команда Bing решила прояснить свою позицию по этому вопросу. Сегодня сотрудник поиска Фабрис Канель (Fabrice Canel) заявил в Twitter, что Bing всегда обрабатывал атрибут nofollow.

Европарламент одобрил директиву об авторском праве в интернете Европейский парламент одобрил «Директиву об авторском праве на едином цифровом рынке», призванную привести законодательство ЕС в соответствие с современными реалиями. За директиву проголосовали 348 членов парламента, против – 274. Внесённое в последнюю минуту предл.

Евросоюз одумался: скандальная «Директива о копирайте» не получила поддержки у многих стран Вчера компания Google показала, что может случиться в частности с её поисковой системой, если будет проголосована так называемая «Директива о копирайте» (Copyright Directive). Однако, похоже, в Евросоюзе многие пересмотрели своё отношение к данному документу.

Search Console начал оповещать о прекращении поддержки noindex в robots.txt Google начал рассылать через Search Console оповещения тем вебмастерам, которые добавили директиву noindex в robots.txt. В них говорится, что эти записи должны быть удалены, поскольку 1 сентября поддержка noindex в этом файле будет полностью прекращена. «Google обнаружил, чт.

Евросоюз одумался: скандальная «Директива о копирайте» не получила поддержки у многих стран Вчера компания Google показала, что может случиться в частности с её поисковой системой, если будет проголосована так называемая «Директива о копирайте» (Copyright Directive). Однако, похоже, в Евросоюзе многие пересмотрели своё отношение к данному документ.

Google откроет доступ к данным Search Console для других платформ Google работает над тем, чтобы сделать данные Search Console доступными для сторонних платформ. Об этом заявил сотрудник поиска Мартин Сплит (Martin Splitt) в очередном видео из серии SEO Mythbusting. Темой нового выпуска стало обсуждение будущего интернета и SEO, и некоторы.

Google: наши системы не могут определить «точность» контента Сотрудник Google и евангелист поиска Дэнни Салливан заявил в Twitter, что алгоритмы поисковой системы не способны определить точность контента. Соответственно, этот параметр не является фактором ранжирования. «Машины не могут определить “точность контента”. Вместо этого наши.

Google не советует «слишком часто» переключаться между index и noindex Добавлять директиву noindex на страницы, а затем удалять её, «слишком часто» повторяя эти действия, нельзя. Это будет сбивать с толку Google и замедлять его работу, что может негативно отразиться на эффективности URL в поиске. Об этом заявил сотрудник Google Джон Мюллер в Tw.

Google: мы знаем, когда у домена меняется владелец Google понимает, когда у доменного имени меняется владелец. Об этом заявил сотрудник команды Google Webmaster Trends Analysts под ником Aaseesh в обсуждении на форуме Google Webmaster Help. Поэтому покупать домен, чтобы воспользоваться предыдущими заслугами сайта в ранжирова.

Google показал, как может выглядеть SERP после реформы авторского права в ЕС В январе Google провёл эксперимент, призванный выяснить, как реформа авторского права в Европе может повлиять на пользователей и издателей. Речь идёт о директиве об авторском праве в цифровую эпоху, которая сейчас находится на рассмотрении у стран-участниц ЕС. Европарламент .

Google перестанет поддерживать директиву noindex в robots.txt Начиная с 1 сентября Google перестанет поддерживать неопубликованные и неподдерживаемые правила в Robots Exclusion Protocol. Это значит, что поисковик больше не будет поддерживать директиву noindex в файле robots.txt. «В интересах поддержания здоровой экосистемы и подготовки.

Google предложил внести изменения в директиву об авторском праве в ЕС Главный юрисконсульт Google Кент Уокер (Kent Walker) выдвинул ряд замечаний к директиве об авторском праве в цифровую эпоху, которая должна быть ратифицирована Европарламентом и странами-участницами ЕС в ближайшие месяцы. В целом Уокер охарактеризовал разрабатываемую реформу.

Google: точность контента является фактором ранжирования В случае YMYL (Your money, or Your life) точность контента является фактором ранжирования Google. Об этом заявил сотрудник поиска Гэри Илш на конференции Pubcon, которая проходила с 7 по 10 октября в Лас-Вегасе. Ниже – твиты, в которых участники конференции цитируют Илша: Пр.

Google: такой сигнал ранжирования, как HTTPS, не стоит игнорировать На днях сотрудник Google Гэри Илш заявил в Twitter, что такой сигнал ранжирования, как HTTPS, не стоит игнорировать. «Я не могу назвать точное число, но этот сигнал влияет на достаточное количество запросов, чтобы я его не игнорировал», — написал Илш. Он также отметил.

Гэри Илш призвал SEO-специалистов «вернуться к основам» Отвечая на вопросы в рамках AMA-сессии в Reddit, сотрудник Google Гэри Илш посоветовал SEO-специалистам обратить внимание на базовые вопросы поисковой оптимизации. В частности, заняться тем, чтобы сделать сайты более доступными для сканирования. Вопрос к Илшу касался его мыс.

СМИ: Google задумался об изменении своей политики в отношении политрекламы Google обсуждает внутри компании возможное внесение изменений в действующую политику в отношении политической рекламы. Об этом сообщает The Wall Street Journal. Эти обсуждения были начаты после того, как Twitter и Facebook заняли разные позиции касательно политрекламы: Faceb.

Google: ссылки, которые не показываются в Search Console, обычно нерелевантны На днях сотрудник Google Джон Мюллер ответил на вопрос, почему Google показывает не все ссылки на сайт в соответствующем отчёте в Search Console. Обсуждение на эту тему было открыто одним из пользователей Reddit. По словам Мюллера, те ссылки, которые не отображаются в Search.

Польша подала иск в Европейский суд, утверждая, что скандальная «директива о копирайте» приведёт к превентивной цензуре В марте депутаты Европарламента приняли скандальную «директиву о копирайте», о которой мы вам рассказывали не раз. В апреле этот же документ поддержал Европейский совет. Лишь шесть стран (Финляндия, Италия, Люксембург, Нидерланды, Польша и Швеция) выступили .

Если файл robots.txt возвращает ошибку 5xx, то Google не будет сканировать сайт Если Googlebot не может получить доступ к файлу robots.txt из-за ошибки 5xx, то он не будет сканировать сайт. Об этом заявил один из сотрудников команды поиска на Google Webmaster Conference, которая прошла в начале этой недели в штаб-квартире компании GooglePlex. Согласно G.

Польша подала иск в Европейский суд, утверждая, что скандальная «директива о копирайте» приведёт к превентивной цензуре В марте депутаты Европарламента приняли скандальную «директиву о копирайте», о которой мы вам рассказывали не раз. В апреле этот же документ поддержал Европейский совет. Лишь шесть стран (Финляндия, Италия, Люксембург, Нидерланды, Польша и Швеция) выступили.

Пустота: Google показала, как будет выглядеть страница поисковой выдачи в случае принятия «Директивы о копирайте» Уже сегодня в Европейском Совете пройдёт голосование за печально известный законодательный акт, который прозвали «Директивой о копирайте» (Copyright Directive). Документ большой и охватывает много аспектов, касающихся авторского права, но если кратко, б.

Google: обновления основного алгоритма не связаны с плохими ссылками Очистка ссылочного профиля не поможет сайту возобновить свои позиции после обновления основного алгоритма Google. Об этом заявил сотрудник поиска Гэри Илш на конференции Pubcon в Лас-Вегасе. В Google уже неоднократно отмечали, что обновления основного алгоритма не связаны со.

Дэн Шуре поделился заметками по поиску Google, сделанными после ужина с Гэри Илшем SEO-консультант Дэн Шуре (Dan Shure) поделился в своем подкасте заметками, сделанными после частного ужина с сотрудником Google Гэри Илшем в 2020 году. Стоит отметить, что в этом мероприятии принимали участие несколько SEO-специалистов, не только Шуре. После ужина Дэн в свое.

Google: точный подсчёт ссылок в интернете технически невозможен На днях сотрудник Google Джон Мюллер заявил в Twitter, что точный подсчёт ссылок в интернете технически невозможен. Если какой-либо сервис предлагает такую функциональность, то речь идёт лишь об оценочных данных и предположениях. Мюллер поделился своим мнением в контексте об.

Google подтвердил, что вызовы AJAX расходуют краулинговый бюджет В январе 2020 года сотрудник отдела качества поиска Google Гэри Илш (Gary Illyes) опубликовал документ для вебмастеров, в котором объяснил, как работает краулинговый бюджет. Вчера он обновил этот пост, чтобы прояснить, что на вызовы AJAX также расходуется бюджет. «Как правил.

Google: атрибут hreflang не является сигналом ранжирования Google не рассматривает атрибут hreflang в качестве сигнала для ранжирования, но он помогает привлекать более таргетированный трафик. Об этом заявил сотрудник поиска Гэри Илш на AMA-сессии в Reddit. Вопрос к Илшу выглядел так: «Привет, Гэри. Ваши заявления и заявления Джона .

Google может ранжировать страницы по alt-тексту в основном поиске Google может ранжировать страницы по тому тексту, который содержится в атрибуте alt, в основном поиске. Об этом заявил сотрудник компании Джон Мюллер в Twitter. Он также добавил, что это легко протестировать. В принципе, SEO-специалисты уже давно с этим экспериментируют, доб.

Google: оптимизация для пользователей = оптимизация для RankBrain На днях сотрудник Google Гэри Илш ответил на вопрос касательно оптимизации для RankBrain. В частности, изменились ли рекомендации поисковика или же они остались прежними. Вопрос, адресованный Илшу и Джону Мюллеру, был опубликован в Twitter. Его автор спросил: «По-прежнему ли.

Google может начать игнорировать атрибут rel=nofollow, используемый по умолчанию Сотрудник Google Гэри Илш заявил в Twitter, что поисковик может начать игнорировать атрибут rel=nofollow, если он используется для всех ссылок на сайте. При этом он отметил, что пока этого нет, но соответствующее изменение может быть внедрено в будущем. Как отмечалось ранее.

Google прекращает поддержку Flash в поиске Google объявил о предстоящем прекращении поддержки Flash в поиске. На веб-страницах, которые содержат Flash-контент, это содержимое будет игнорироваться, а отдельные файлы в формате SWF больше не будут индексироваться. Обновление будет запущено позже в этом году. Google нача.

WSJ: Facebook хотел отказаться от политрекламы, но Цукерберг выступил против Руководство Facebook рассматривало вариант полного отказа от размещения политической рекламы на платформе. Об этом сообщает The Wall Street Journal со ссылкой на свои источники. Соответствующее решение было вынесено на обсуждение сразу после того, как стало известно о предпо.

В инструменте проверки разметки Google появились новые предупреждения Интернет-маркетолог Стив Сили (Steve Seeley) заметил, что в инструменте проверки структурированных данных Google появились новые предупреждения. В частности, на страницы с разметкой «Car» теперь рекомендуется добавить дополнительную разметку «Offer» и наоборот. Своими наблюд.

Google: атрибут nofollow в метатеге robots также будет обрабатываться как подсказка Сотрудник Google Гэри Илш (Gary Illyes) заявил в Twitter, что поисковик изменил подход не только к обработке ссылочного атрибута rel=nofollow, но и nofollow в метатеге robots. Теперь этот атрибут также будет расцениваться как подсказка, а не директива, как это было ранее. Пр.

Google пока не добавил поддержку нового Googlebot в Mobile Friendly Test Google пока не добавил в инструмент проверки оптимизации для мобильных устройств (Mobile Friendly Test) поддержку нового Googlebot, запущенного в прошлом месяце. Однако это обновление уже проходит внутреннее тестирование. Об этом заявил сотрудник поиска Мартин Сплит в Twitte.

На конференции «Излучение и рассеяние электромагнитных волн» выступили специалисты КРЭТ Сотрудники АО «ВНИИ «Градиент» входит в АО «КРЭТ» (в составе Госкорпорации Ростех) выступили с докладами на Международной научной конференции «Излучение и рассеяние электромагнитных волн» в Краснодарском крае. Конференция ИРЭМВ проводится с 1999 года и посвящена обсуждению т.

Google может индексировать заблокированные страницы без сканирования Google может индексировать URL, заблокированные в robots.txt, не сканируя их. Об этом заявил сотрудник поиска Джон Мюллер, отвечая на вопрос одного из вебмастеров в Twitter. В частности, пользователь спрашивал, почему по сайту, который полностью заблокирован в robots.txt, в .

Google показала, как пустынно будет выглядеть поисковая выдача в случае принятия Директивы ЕС о защите авторских прав Компания Google пытается оспаривать Директиву ЕС о защите авторских прав, которая может существенно повлиять на работу различных сервисов. В очередной попытке вразумить чиновников Google воспользовалась яркими визуальными эффектами, чтобы проиллюстрировать свою точку зрения.

Топ-пост этого месяца:  как сделать по страничную навигацию постов в новом зарегистрированных постах

ICANN убрала ограничение цены для домена .org, несмотря на оппозицию Ранее в этом году ICANN вынесла на публичное обсуждение новый контракт с Public Interest Registry – некоммерческой организацией, которая управляет доменом верхнего уровня .org. Свои комментарии оставили более 3200 физических лиц и организаций. При этом большинство из них выс.

Джон Мюллер заинтриговал SEO-сообщество твитом про новую идею Гэри Илша Сотрудник Google Джон Мюллер опубликовал в Twitter короткий пост, который вызвал активный интерес со стороны зарубежных SEO-специалистов и экспертов. Твит Мюллера содержит лишь одно предложение: «Ой-ей, у Гэри есть новая идея…». В чём состоит эта идея, он не уточнил. Стоит о.

Google: размер файла Sitemap не влияет на сканирование На днях сотрудник Google Джон Мюллер ответил на вопрос касательно того, как размер файла Sitemap влияет на сканирование. Эта тема обсуждалась в Reddit. Автор вопроса рассказал, что создал файл Sitemap весом в 5 МБ, который содержит 30 тыс. URL-адресов, и спросил, могут ли бо.

Roistat: Реклама на поиске остается самой эффективной Исследование оценки эффективности интернет-рекламы в России за 2020 год, проведенное специалистами компании Roistat, показало, что реклама в поиске продолжает лидировать по возврату инвестиций. За ней идет контекстная реклама, и только потом социальные сети. Что касается кру.

Facebook было известно о практиках Cambridge Analytica с сентября 2015 года Социальная сеть Facebook опубликовала хронологию обсуждения практик Cambridge Analytica. Из приведенной переписки между сотрудниками соцсети становится ясно, что о незаконной деятельности компании было известно еще в сентябре 2015 года, а не начиная с декабря, как утверждает.

Google заявил, что не убирал «углублённые» статьи из выдачи Неделю назад в сети появились сообщения о том, что Google убрал «углублённые» статьи (in-depth articles, IDA) из выдачи. Однако в компании опровергли эту информацию. Согласно Google, качественный «вечнозелёный» контент по-прежнему выводится в результатах поиска, когда это ре.

Google работает над сокращением разрыва между сканированием и рендерингом Между сканированием и полной обработкой страниц со стороны Google могут проходить недели. Однако в компании активно работают над сокращением этого разрыва. Об этом заявил сотрудник поиска Джон Мюллер в Twitter. «Мы работаем над тем, что сделать сканирование и рендеринг ближе.

Поисковый алгоритм Bing на 90% основан на машинном обучении Алгоритм ранжирования поисковой системы Bing, принадлежащей Microsoft, более чем на 90% основан на машинном обучении (ML). Об этом заявили сотрудники поиска Фредерик Дубут (Frédéric Dubut) и Нагу Ранган (Nagu Rangan) в панельной дискуссии на тему «Man vs Machine» на конферен.

Google: показатель PageSpeed Insights может меняться независимо от изменений на сайте Вчера сотрудник Google Джон Мюллер заявил в Twitter, что показатель PageSpeed Insights может меняться независимо от того, были ли внедрены какие-либо изменения на сайте. Это было сказано в ответ на вопрос одного из SEO-специалистов на тему недавних колебаний в значениях пока.

Бывший инженер Google: поисковик не использовал PageRank с 2006 года Бывший инженер Google Джонатан Танг (Jonathan Tang) заявил, что компания не использовала PageRank с 2006 года. Он написал об этом в обсуждении на форуме Hacker News. Согласно профилю в LinkedIn, Танг работал в команде поиска с 2009 по 2014 год. Он занимал пост старшего инжен.

Google убрал упоминания о PageRank из документа по файлу Disavow Google обновил справочный документ, посвящённый отклонению ссылок, убрав из него упоминания о PageRank и 200+ сигналах ранжирования. Изменения заметили специалисты отрасли. Когда точно это произошло, неизвестно. Но несколько месяцев назад в документе содержался следующий тек.

Неканонический canonical Использование директивы canonical – наиболее предпочтительный инструмент объединения страниц сайта Сообщение Неканонический canonical появились сначала на Searchengines.ru.

Старый Search Console может быть закрыт к концу года Google может закрыть старую версию Search Console к концу текущего года. Об этом заявил сотрудник поиска Джон Мюллер на пре-пати конференции SMX Munich. Один из участников мероприятия, Валентин Плетцер (Valentin Pletzer), процитировал его в Twitter. По словам Мюллера, инфрас.

Гэри Илш: RankBrain не использует UX-сигналы в своей работе Сотрудник Google Гэри Илш ответил в Reddit на вопрос о том, как работает алгоритм на базе машинного обучения RankBrain. В частности, какие сигналы он использует. Вопрос выглядел так: «RankBrain. Многие люди продолжают говорить, что часть системы RankBrain включает UX-сигналы.

Google News может прекратить работу в Европе Google рассматривает вопрос закрытия сервиса Google News в Европе. Об этом сообщает Bloomberg со ссылкой на менеджера по вопросам публичной политики Google в Европе Дженнифер Берналь (Jennifer Bernal). Окончательное решение по этому вопросу будет зависеть от деталей новой ди.

Это фундаментально изменит Интернет: скандальная «Директива о копирайте» почти принята Похоже, надежды на то, что Евросоюз всё же одумается и изменит скандальную «Директиву о копирайте», оказались ложными. Несмотря на то, что буквально месяц назад все трубили о том, что большинство сторонников документа в его изначальной форме изменили свою по.

Большинство стран-участниц ЕС проголосовали за директиву об авторском праве Европейская комиссия объявила, что 19 из 28 стран-участниц ЕС проголосовали за принятие новых законов об авторском праве в цифровую эпоху. Италия и Польша выступили против, тогда как Эстония, Бельгия и Словения воздержались. Теперь у каждой страны есть два года на внедрение .

Это фундаментально изменит Интернет: скандальная «Директива о копирайте» почти принята Похоже, надежды на то, что Евросоюз всё же одумается и изменит скандальную «Директиву о копирайте», оказались ложными. Несмотря на то, что буквально месяц назад все трубили о том, что большинство сторонников документа в его изначальной форме изменили свою по.

Яндекс.Поиск начнет чаще показывать неканонические страницы Неканонические страницы начнут чаще показываться в поиске Яндекса. Как пояснили в команде Яндекс.Поиска, внутренние исследования показывают, что страницы, размеченные как неканонические могут быть полезны, а их наличие в поиске может влиять на качество и полноту ответа.

Новый документ Google опровергает заявления о том, что CTR не учитывается в ранжировании Сотрудники Google уже неоднократно заявляли, что поисковик не учитывает CTR в ранжировании. Однако на днях глава SEO-отдела Moz Бритни Мюллер (Britney Muller) обнаружила новый документ компании, который говорит об обратном. В частности, этот документ гласит: «Например, когда.

В Google Docs можно будет напрямую редактировать файлы Microsoft Office Сервис для совместной работы с документами Google Docs получил встроенную поддержку файлов Microsoft Office. Ранее для редактирования, комментирования и совместной работы с этими файлами, их нужно было конвертировать в формат, поддерживаемый Google Docs. Теперь их можно загр.

Google закрывает приложение для планирования поездок Trips Google закрывает своё приложение для планирования поездок Trips, но встроит большую часть этой функциональности в Поиск и Карты. Поддержка Trips была прекращена вчера, но информация пользователей, такая как заметки и сохранённые места, будет по-прежнему доступна в поиске при.

Google позволил вебмастерам настраивать поисковые сниппеты Google предоставил вебмастерам возможность контролировать, как их контент должен выглядеть в результатах поиска. По умолчанию Google формирует поисковые сниппеты, исходя из запросов пользователей и тех устройств, которые они используют. При этом исторически владельцы сайтов .

Google пока не планирует запускать API для отчёта о скорости загрузки в Search Console Google пока не планирует запускать API для нового отчёта о скорости загрузки, недавно добавленного в Search Console. Об этом заявил сотрудник поиска Джон Мюллер в ответ на вопрос одного из специалистов в Twitter. «Когда мы получим данные по новому отчёту о скорости загрузки .

Google снова тестирует результаты поиска без URL Англоязычные пользователи заметили, что Google снова тестирует результаты поиска без URL-адресов. Выглядит это так: Ниже – текущий вариант оформления SERP: Ранее Google перешёл от отображения полных URL-адресов к показу только навигационных цепочек. Теперь поисковик тестируе.

Google снова тестирует результаты поиска без URL Англоязычные пользователи заметили, что Google снова тестирует результаты поиска без URL-адресов. Выглядит это так: Ниже – текущий вариант оформления SERP: Ранее Google перешёл от отображения полных URL-адресов к показу только навигационных цепочек. Теперь поисковик тестируе.

В ЕС согласовали финальную версию директивы об авторском праве Европарламент и Совет Европейского союза согласовали финальную версию текста директивы об авторском праве в цифровую эпоху, которая призвана поддержать традиционные СМИ и правообладателей в ЕС за счёт американских интернет-компаний. Законопроект теперь будет передан в Европа.

GMB задерживает обработку запросов на восстановление данных Зарубежные SEO-специалисты заметили, что Google Мой бизнес задерживает обработку запросов на восстановление данных о компании после блокировки. Вопросы на эту тему появились на тематических форумах и в Twitter. Одно из последних сообщений было оставлено SEO-специалистом из И.

Google может игнорировать файлы Sitemap, если они содержат недействительные URL Сотрудник Google Джон Мюллер подтвердил в Twitter, что поисковик может игнорировать файлы Sitemap.xml, если они содержат недействительные URL-адреса. При этом, если URL были переадресованы и контент загружается, то этого не случится. В противном случае Google приостановит из.

Google может отказаться от старой версии Search Console в марте Google планирует отказаться от большинства, если не всех, функций старой версии Search Console в марте. Об этом рассказал сотрудник поиска Джон Мюллер (John Mueller) на мероприятии Google NYC. Конечные сроки могут быть изменены, но на данный момент Google ориентируется на эт.

LocalBitcoins введет новые правила идентификации пользователей Популярная платформа по физической покупке и продаже биткоина LocalBitcoins введет новые правила идентификации пользователей, которые помогут ей соответствовать требованиям пятой директивы Евросоюза, направленной на борьбу с отмыванием денег. Об этом говорится в соответствую.

Google пока не планирует отказываться от инструмента отклонения ссылок В последнее время в SEO-сообществе ходят слухи о том, что Google может отказаться от инструмента отклонения ссылок, который пока так и не перенесён в новую версию Search Console. При этом в компании не дают чёткого ответа, останется ли этот инструмент. Однако на днях сотрудн.

Google игнорирует спам в CSS На днях сотрудник Google Джон Мюллер заявил в Twitter, что Google игнорирует спамные ключевые слова в файлах CSS. «Вы правы, мы их игнорируем», — ответил Мюллер на вопрос одного из пользователей. И добавил: «Используйте идентификаторы и имена классов, как хотите. (Я по.

Цифровая экономика стала темой обсуждения на встрече Дмитрия Медведева с президентом ГМК «Норильский никель» Владимиром Потаниным Премьер-министр РФ Дмитрий Медведев провел рабочую встречу с президентом «Норникеля» Владимиром Потаниным. Медведев и Потанин обсудили развитие современных технологий. Тему развития проектов в рамках цифровой экономики поднял на встрече глава «Норникеля». Премьер-м.

Search Console перестанет поддерживать наборы ресурсов в конце марта Google Search Console уведомил владельцев сайтов, использующих наборы ресурсов, о том, что в конце марта поддержка этой функции будет прекращена. Многие SEO-специалисты отрицательно отреагировали на эту новость и выразили надежду, что Google предложит им подобную функцию в б.

Первые результаты сентябрьского обновления основного алгоритма Google Зарубежные вебмастера начали наблюдать первые результаты сентябрьского обновления основного алгоритма Google. Об этом свидетельствуют активные обсуждения в Twitter, а также на форумах WebmasterWorld и Black Hat World. Google приступил к запуску апдейта 24 сентября, однако в .

Стивен Леви: Google переоценивает важность свежести результатов поиска Технологический журналист Стивен Леви (Steven Levy), известный своими интервью с топ-менеджерами и ведущими специалистами IT-компаний, упрекнул Google в том, что поисковая система переоценивает важность такого сигнала, как свежесть результатов поиска. «Уважаемый Google, ваша.

Одноклассники обновили дизайн мобильного приложения для iOS Одноклассники провели редизайн своего мобильного приложения для устройств под управлением iOS, убрав фирменный оранжевый цвет на второй план. Разработчики отказались от использования оранжевого для заголовков, чтобы сконцентрировать внимание пользователей на контенте и.

Google: некоторые алгоритмы могут вызывать всплески в скорости сканирования На конференции Pubcon в Лас-Вегасе сотрудник Google Гэри Илш заявил, что некоторые «baby-алгоритмы» могут вызывать всплески в скорости сканирования сайтов. На вопрос, возрастает ли скорость сканирования перед обновлениями алгоритмов, Илш ответил примерно так: «У нас ест.

«Черный день для свободы Интернета». Европарламент окончательно одобрил скандальную директиву об авторском праве в интернете На заседании 26 марта депутаты Европарламента в рамках заключительного этапа голосования подавляющим большинством голосов приняли скандальную директиву о защите авторского права в интернете, которая предполагает ужесточение регулирования объектов авторского права в интернет.

Google всё ещё не добавил поддержку нового Googlebot в инструменты тестирования Около трёх месяцев назад, в мае, Google выпустил нового Googlebot, который теперь всегда будет использовать последнюю версию Chrome. При этом в июне стало известно, что инструменты тестирования Google – проверка AMP-страниц, расширенных результатов и оптимизации для мобильны.

Google обрабатывает файлы Disavow сразу, но ссылки начинает отклонять позже На днях сотрудник Google Джон Мюллер объяснил в Twitter, что Google обрабатывает файлы Disavow сразу, но ссылки начинает отклонять спустя некоторое время. Точных временных рамок для этого процесса нет. По наблюдениям вебмастеров, переход от обработки файла до отклонения ссыл.

Google предлагает избавиться от noindex Панель веб-мастера Google рекомендует сеошникам удалять запрещающую директиву из файла Robots.txt.

В Telegram появились новые настройки конфиденциальности и комментарии Разработчики Telegram выпустили обновление, вместе с которым в мессенджере появилось несколько новых функций. В их числе — новые настройки для управления конфиденциальностью, возможность привязать к каналу группу для обсуждений и добавить кнопку для отправки комментари.

4 вещи, которые нужно знать о Posts on Google в блоках локальной выдачи Известный западный эксперт по локальному SEO Джой Хоукинс (Joy Hawkins) поделилась своими наблюдениями по Posts on Google – записям, сделанным через сервис Мой бизнес – в блоках локальной выдачи. Согласно обсуждению на форуме Local Search, Google начал показывать фраг.

Google опубликовал руководство по основам JavaScript SEO На сайте Google Developers появилось новое руководство, посвящённое основам JavaScript SEO. Авторами документа стали сотрудники компании Мартин Сплит и Лиззи Харви. В руководстве приводится по большей части та же информация, которая озвучивалась в серии видео на тему JavaScr.

Гэри Илш о SEO-атаках и отклонении ссылок Вчера сотрудник Google Гэри Илш выступил на конференции Pubcon Florida, где ответил на вопрос о негативном SEO и спам-атаках. Одного из слушателей поинтересовался, что делать, если владелец сайта видит большое количество неестественных ссылок, указывающих на сайт, которые он.

Дневная аудитория Facebook Watch превысила 140 млн человек Facebook поделился последней статистикой по работе видеосервиса Facebook Watch, запущенного по всему миру менее года назад. Основная идея Watch заключается в том, чтобы пользователи не просто пассивно смотрели видео в одиночку, но и общались с другими людьми. Для этого платф.

Google: такого понятия, как ключевые слова LSI, не существует На днях сотрудник Google Джон Мюллер в ответ на вопрос одного из вебмастеров заявил в Twitter, что такого понятия, как LSI-ключи, не существует. «Такого понятия, как ключевые слова LSI, нет. Любой, кто говорит вам обратное, ошибается», — написал Мюллер. LSI-копирайтинг.

Google: блок с ответом без ссылки на источник – это баг, а не тест Сотрудник Google Дэнни Салливан заявил в Twitter, что блок с ответом без ссылки на источник, появление которого заметили отдельные пользователи, – это не тест, а баг. Сначала, отвечая на вопросы специалистов, Салливан отметил, что по его наблюдениям, этой сбой наблюдается то.

Google прекращает поддержку мобильных приложений AdSense Google сообщил о предстоящем прекращении поддержки приложений AdSense для iOS и Android. Это будет сделано в ближайшие месяцы. А к концу 2020 года компания полностью удалит эти программы из всех магазинов приложений. Между тем Google внесёт ряд улучшений в мобильную версию A.

Google о самореферентных канонических тегах Самореферентные канонические теги помогают Google, но не являются для него критически необходимыми. Об этом заявил сотрудник поиска Джон Мюллер во время последней видеовстречи для вебмастеров. «Наличие самореферентного канонического тега на странице не критично, но это дейст.

Google: скорость загрузки – это небольшой фактор ранжирования С точки зрения Google, скорость загрузки – это небольшой фактор ранжирования. Об этом заявил сотрудник поиска Джон Мюллер во время последней видеовстречи для вебмастеров. По его словам, Google больше интересует самый релеватный контент, а не самые быстрые страницы. Вопрос ве.

В Telegram для Android обновился аудио-плеер и появился поиск по медиа В новой версии Telegram для Android появилось множество опций, которые сделали приложение еще удобнее для пользователей. В обновленном аудио-плеере теперь есть возможность слушать подкасты и треки длиннее 20 минут с двухкратной скоростью. А также появилась возможность продол.

Google интересуется, нужен ли фильтр «Nofollow» в отчёте о внутренних ссылках в GSC Cотрудник Google Гэри Илш опубликовал в Twitter опрос, в котором спросил: нужен ли вебмастерам фильтр или переключатель, чтобы видеть, какие ссылки закрыты атрибутом Nofollow в отчёте о внутренних ссылках в Search Console. В опросе уже приняли участие 1157 человек. 80% из ни.

Google напомнил, для каких типов контента можно использовать Indexing API На днях сотрудник Google Джон Мюллер напомнил в Twitter, что Indexing API, запущенный в 2020 году, имеет ограниченную область применения. В настоящее время его можно использовать только для страниц вакансий и прямых трансляций, которые содержат соответствующую разметку. Для .

Google перенесёт инструмент проверки robots.txt в новый Search Console Google планирует перенести инструмент проверки файла robots.txt в новую версию Search Console. Об этом заявил сотрудник Google Джон Мюллер во время видеоконференции Google Webmaster Central 5 февраля. На вопрос, когда этот инструмент будет доступен в новом Search Console (и .

Гэри Илш: изменения в обработке nofollow были призваны улучшить сигналы ссылок На Webmaster Conference в Японии сотрудник Google Гэри Илш рассказал о мотивах, которые побудили Google изменить подход к обработке ссылочного атрибута rel=”nofollow”. По его словам, эти изменения были призваны улучшить ссылочные сигналы и, соответственно, результаты поиска.

В столичном Депобразования организуют пресс-конференцию по темам форума «Город образования» Подтверждено участие программного директора образовательного форума «Город образования» Павла Кузьмина в пресс-конференции московского образовательного ведомства. Брифинг намечен на 8 августа, в его рамках на обсуждение будут вынесены ключевые тренды образования мира, основн.

Яндекс.Справочник обновил правила модерации фото для карточек организаций Команда Яндекс.Справочника обновила правила модерации фотографий для карточки организации. Теперь принимаются фото не только зданий и витрин, но и отдельных товаров, коллажи, графические изображения и портретные фотографии людей. Также был.

Google расследует резкое увеличение числа показов по запросу [loans] Сотрудник Google Джон Мюллер заявил, что команда поиска расследует резкое увеличение числа показов по отдельным запросам в Search Console. В частности, такая ситуация наблюдается по запросу [loans]. Примечательно, что Google Тренды также показывают увеличение объёмов поиска .

Гэри Илш об атрибуте alt и отказе от альтернативного текста На днях один из SEO-специалистов поинтересовался в Twitter, нужен ли Google альтернативный текст или можно оставлять атрибут alt пустым. Его вопрос выглядел так: «Случайная мысль. Я наблюдаю, как всё больше экспертов по доступности говорят клиентам, чтобы они оставляли больш.

Расходы на образование, здравоохранение и поддержку малообеспеченных увеличены в столице Столица РФ продолжает рассматривать в качестве своего приоритета развитие социальной сферы. Минувшая неделя отметилась обсуждением в Мосгордуме проекта московского бюджета. Сообщается, что в нем значительным образом были увеличены расходы на образование (+25,8 процента), здр.

Google тестирует новый движок рендеринга для Googlebot Специалисты DeepCrawl заметили, что Google тестирует новый, более современный движок рендеринга для Googlebot, работающий на базе Chrome 69 и выше. Сотрудник Google Мартин Сплит (Martin Splitt) опосредованно подтвердил тестирование: «Отличный пост! Мы всё время что-то тестир.

Google прояснил, в какую часть страницы можно добавлять разметку JSON-LD Google выпустил очередное видео в справочной серии #AskGoogleWebmasters. Темой нового выпуска стала разметка JSON-LD. В частности, в какой части страницы она может быть размещена. Вопрос к Google звучал так: «Можно ли добавлять разметку JSON-LD в нижнюю часть тега Социальные сети Рунета
// Контакты

Файл robots.txt и его директивы

Robots.txt – это текстовый файл, который предоставляет поисковым роботам параметры индексации сайта. Прежде чем выполнить проверку контента на вашем ресурсе, поисковые роботы проверяют наличие файла robots.txt. Если выполнить грамотную настройку этого файла, эффективность сканирования возрастет в разы и принесет свои плоды для продвижения ресурса.

Robots.txt создан для быстрой и корректной индексации важных файлов на сайте, но его наличие не дает гарантии, что все страницы сайта будут успешно проиндексированы. С помощью роботс мы показываем роботам поисковых систем, что нужно занести в свою базу, а что — нет.

Для чего необходим файл robots.txt

Оптимизацию под поисковые системы невозможно представить без robots.txt. Его главная функция заключается в том, чтобы отдельные страницы не подвергались индексации поисковыми системами. На таких страницах находится контент, который не нужно индексировать: разделы с техническими параметрами, папки внутренние и т.д.

Для небольших одностраничных сайтов лучшим вариантом будет использование некоторых директив robots.txt (к примеру – Sitemap, Host), так как использование самого файла в таком случае нецелесообразно.

Процесс создания robots.txt

Robots.txt является текстовым файлом, поэтому для его создания вам понадобится текстовый редактор. Воспользоваться можно любым, который установлен на вашем компьютере, к примеру – Блокнотом. Содержание текстового файла напрямую зависит от ваших целей. Готовый файл необходимо сохранить в формате .txt и дать ему название «robots». Создание файла – достаточно простая процедура, а вот над содержанием robots.txt необходимо более тщательно поработать.

Онлайн-вариант создания robots.txt

Существуют онлайн-программы, которые могут автоматически сгенерировать файл robots.txt. Такие сервисы позволяют скачать файл в готовом виде, но не всегда он будет гарантировать, что в открытом доступе будут только нужные страницы ресурса. Дело в том, что онлайн-вариант robots.txt необходимо проверять перед установкой, так как он может содержать неправильные параметры ограничений. Чтобы в поиске не оказалось ненужного материала, файл роботс подлежит корректировке для определения более точных опций доступа к страницам сайта. Это поможет избежать ошибок, которые необходимо устранять до размещения файла.

Топ-пост этого месяца:  Кластеризация запросов что это такое, для чего нужно, как сделать быстро и по минимальной цене

Как правильно редактировать файл robots.txt

После создания файла robots.txt любым из способов его нужно отредактировать. У данного файла есть особый синтаксис , который необходимо соблюдать во время настройки.

Со временем сайт может видоизменяться, следовательно, и robots.txt будет менять свое содержание. Для правильной работы каждую новую версию робост необходимо выгружать на ресурс, чтобы он работал в соответствии с актуальным наполнением сайта.

Процесс настройки файла

Настройка robots.txt необходимо для того, чтобы в свободный доступ не попадали файлы, которые должны быть доступны только администраторам сайта. Несмотря на то, что роботс задает параметры доступа поисковой системы к сайту, она не может обеспечить полную защиту частных страниц. Если ведущие поисковики (такие как Яндекс и Google) будут соблюдать параметры, установленные файлом, то непроверенные системы могут просто игнорировать их.

Понимание основного синтаксиса, директив и прочих параметров файла robots.txt помогут правильно сформулировать содержание файла, который будет эффективно работать на благо ресурса.

Составление роботс начинается с директивы «User-agent». Она указывает на робота, к которому обращена конкретная директива.

  • директива, указывающая на всех роботов будет выглядеть вот так: User-agent: * ;
  • директива, указывающая на роботов Яндекс: User-agent: Yandex;
  • директива, указывающая на роботов Google: User-agent: Googlebot.

В этих примерах показано, что робот будет применять только те параметры, которые заданы в User-agent.

Запрещающая директива «Disallow» с параметром «/*utm_» не должна обрамляться пустыми переводами строки, в том числе запрещено пропускать строки внутри одного «User-agent».

Как выглядит корректное оформление robots.txt:

В примере можно заметить, что указания для роботов имеет форму блоков. В каждом блоке должно быть общее указание для роботов всех поисковиков, или же для какого-то определенного.

Разрешающая директива «Allow» и запрещающая «Disallow» должны быть расположены в определенном порядке, если они используются вместе. Это касается и других противоположных по значению директив.

Использование парных директив:

В примере указаны параметры, которые будут запрещать индексацию страниц, начинающихся с «/blog/page», и запрещать страницы с «/blog».

Правильная последовательность будет выглядеть таким образом:

Целесообразно закрыть доступ ко всему разделу сайта и открыть – к единичным его подразделам, если таковых меньшинство.

Еще один способ корректной формулировки директив «Allow» и «Disallow» – это отсутствие параметров. В таком случае роботами это будет считываться как параметр «/».

Ниже можно увидеть пример директивы «Disallow/Allow», не имеющей параметров:

Disallow: # равнозначно Allow: /

Оба способа формулировки равноценны и оба правильные. Важно не спутать один способ с другим и не смешать все в одной директиве. При составлении файла robots.txt самое важное – это четко установить запрещенные и доступные сегменты сайта.

Синтаксис robots.txt

Файл robots.txt создается согласно определенным структуре, то есть синтаксису. Правила написания робост достаточно просты, но им необходимо следовать в обязательном порядке. Эти правила созданы для поисковых роботов, которые следуют заданным командам. Стоит отметить, что не все поисковые системы воспринимают синтаксис robots.txt однообразно.

Самые частотные оплошность при создании файла robots.txt вы сможете обойти стороной, следуя таким правилам:

  1. для каждой директивы отводится отдельная строка;
  2. в начале строки не разрешено ставить пробел;
  3. не только директива, но и все ее параметры должны умещаться в одной строке;
  4. не разрешено брать параметры директивы в кавычки;
  5. в конце строки (после параметра директивы) нельзя ставить точку с запятой;
  6. формат команды в роботс имеет такой вид: [Имя директивы]:[необязательный пробел][значение][необязательный пробел];
  7. после знака # разрешено писать комментарии;
  8. если была пропущена пустая строка, то она будет означать закрытие директивы User-agent;
  9. противоположные директивы «Disallow» и «Allow» могут быть равнозначны в том случае, если в «Disallow: » будет пустое значение. Тогда его можно приравнять к «Allow: /»;
  10. в вышеупомянутых директивах «Disallow» и «Allow» можно указывать лишь один параметр;
  11. наименование файла robots.txt не должно содержать заглавных букв. Правильное написание именно маленькими буквами;
  12. директивы и их параметры также указываются маленькими буквами. В этом случае использование заглавных будет трактоваться как неверное написание;
  13. когда директория является параметром директивы, то перед ее названием используется слеш «/»;
  14. если файл robots.txt будет достаточно объемным (свыше 32 Кб), то он будет трактоваться как директива «Disallow: », то есть полностью разрешающая директива;
  15. если файл роботс окажется недоступным, то он также будет приравниваться к полностью разрешающему «Disallow: »;
  16. пустой robots.txt не может иметь иного значения, как полностью разрешающий, по причине того, что в нем не будет указано не единой директивы;
  17. если между несколькими директивами «User-agent» не будет пустой строки, то все последующие директивы будут опущены и информация в них проигнорирована;
  18. в файле можно использовать только латиницу, символы из прочих национальных алфавитов не допускаются.

Некоторые правила могут быть исключены в силу того, что каждая поисковая система считывает файл роботс особым способом. Robots.txt должен содержать только ту информацию, которая действительно необходима. Чем короче и понятнее будет составлен файл, тем четче его будет трактовать поисковые роботы.

Проверка корректности файла

Существует множество онлайн-сервисов, которые помогают с проверкой файла robots.txt. Крупнейшие корпорации, в том числе Google и Яндекс, имеют собственные службы для работы с сайтами. С помощью таких сервисов можно проанализировать правильность написания роботс.

Чтобы проверить работоспособность robots.txt в онлайн-режиме, файл загружается в корневую директорию сайта. Без такого этапа система может вовсе не найти положение файла. Кроме этого, нужно проверить, доступен ли роботс по адресу на ресурсе.

После составления роботс стоит убедиться, что в нем нет ошибок, которые могут навредить индексации.

Для проверки файла на соответствие требованиям Google нужно зайти в аккаунт Google.Webmaster. Там, где идет отслеживание сайта, необходимо зайти в пункт «Сканирование» и далее нажать «Инструменты проверки файла robots.txt».

Сервис от Гугл поможет:

  • выявить элементы, где вы допустили ошибки;
  • проверить, корректно ли выполнен запрет индексации для определенных страниц ресурса;
  • непосредственно в программе скорректировать нужные элементы файла, где были выявлены ошибки.

Проверку файла robots.txt также можно провести в сервисе Яндекс.Вебмастер (http://webmaster.yandex.ru/robots.xml).

Работает данный инструмент от Яндекс аналогично гугловскому. Проверку файла можно проводить даже без авторизации и проверки прав на ресурс. Для Яндекс.Вебмастер необходимо правильно задать параметры проверки, внести все страницы, которые подлежат мониторингу, тогда вы сможете правильно скорректировать robots.txt.

Помимо валидаторов от Гугл и Яндекс можно найти множество других систем для проверки robots.txt.

Взаимодействие поисковых систем и robots.txt

Многие считают, что отдельная директива для Яндекс считывается намного лучше, чем при написании общим блоком. Подобная ситуация наблюдается и в Google. Чтобы регулировать процесс индексации сайта посредством файла роботс, лучше прописывать отдельные директивы для каждой поисковой системы. Таким образом вы как-бы персонально обращаетесь к роботу той или иной поисковой системы. Если для Яндекс можно прописать запрет на индексацию, то для Гугл такая возможность отсутствует. Еще одна особенность Яндекс заключается в том, что этот поисковик учитывает директиву «Host». Она необходима, чтобы указывать главное зеркало сайта. Детальнее об этой директиве вы узнаете далее в статье.

Варианты запрета индексации сайта

Существует запрещающая директива Disallow, которая создана для использования в файле роботс. Данная директива имеет особые функции, которые позволяют запретить индексацию либо полного сайта, либо его отдельных страниц.

Пример полного запрета индексации для роботов всех поисковых систем:

У директивы Disallow есть несколько параметров, благодаря которым можно правильно сформулировать запрет индексации определенных сегментов сайта. К примеру, * и $:

* — означает, что какой-либо один параметр удовлетворяет другие подобные, при этом каждая последующая директива будет интерпретироваться идентично без указания *.

$ — говорит о том, что значение параметра соответсвует исключению:

В последнем примере показано, что директива Disallow запрещает индексацию /page, но дает доступ к другим страницам. Для запрета индексации можно использовать не только robots.txt, но и тегами HTML, которые будут работать аналогично.

— запрет индексации страницы и перехода по ссылкам;

— значение такого кода запрещает проводить индексацию целой страницы;

— запрет перехода по ссылкам, которые расположены на странице.

Обзор разрешающей директивы

В противовес директиве Disallow создана разрешающая директива Allow. Синтаксис этих элементов файла роботс имеет одинаковую форму, но различное содержание.

В примере можно рассмотреть случай, когда нужно запретить индексацию сайта полностью, но оставить доступ поисковым роботам к некоторым страницам:

Таким сочетанием предоставляется доступ только к страницам ресурса, которые начинаются с /page, остальной сайт будет под запретом для индексации.

Директива Allow с пустым значением будет означать, что разрешено «ничего», то есть весь сайт закрыт для поисковых роботов. В случае с пустой директивой Disallow все действует наоборот – весь сайт доступен для индексации.

Зеркало сайта

Существует отдельная директива под названием Host, которая создана исключительно для поисковых роботов Яндекс. Такую директиву используют, если ресурс имеет несколько доменов (к примеру, международный .com и национальный .ru). Host указывает роботу поисковика Яндекс главное зеркало сайта.

Одна из функций Host — это выявление приоритетного варианта среди site.ru и www.site.ru. В параметрах директивы указывается предпочтительный вариант адреса сайта, то есть главное зеркало ресурса.

Доменное имя должно указываться в параметрах директивы без использования «www» и «http//»:

Host можно использовать единожды, так как прочие варианты просто не будут использованы. Для того, чтобы главное зеркало сайта обнаруживалось и прочими поисковиками, стоит воспользоваться дополнительными инструментами. К примеру, для указания главного зеркала для поискового робота Google, нужно воспользоваться сервисом корпорации «Инструменты для вебмастеров».

Robots.txt и директива Sitemap

Чтобы поисковой робот быстро обнаружил на ресурсе местонахождение файла карты сайта, используется директива Sitemap.

Выглядит директива таким образом:

Если вы указываете адрес карты сайта посредством размещения директивы Sitemap в файле robots.txt, это способствует ее более быстрой индексации.

Использование директивы Clean-param

Страницы, имеющие динамические параметры, можно убрать от поисковых роботов с помощью директивы Clean-param. Такие страницы имеют разный URL, но идентичное наполнение, то есть к одной страницы есть доступ по разным адресам. Такие динамические адреса скрываются с помощью данной директивы.

Директива Crawl-delay

На сайтах с огромным количеством страниц, например, интернет-магазинах или крупных форумах, используют данную директиву для снижения уровня нагрузки на сервер. Такое случается из-за большого числа посетителей, которые заходят на ресурс.

Директива Crawl-delay дает команду поисковым роботам, чтобы она не так часто скачивали страницы сайта.

Выглядит директива таким образом:

Здесь команда поступает к роботу Яндекс, который будет скачивать страницу не чаще чем один раз в три секунды. Некоторые поисковики считывают дробные числа в параметрах директивы.

Как писать комментарии в robots.txt?

Если вначале троки написать символ решетку (#), то эта строка будет игнорироваться роботами. Таким образом, для написания комментария в роботс нужно ставить решетку в начале строки, или же в качестве продолжения директивы – в середине.

Отличия robots.txt и noindex

Альтернативный вариант, который помогает полностью закрыть страницы от индексации, — это использовать noindex в метатеге роботс.

Для этого в добавляется:

Такая манипуляция позволит оградить страницу от индексации не один раз, а каждый последующий. Это не придется делать вручную, что также является плюсом. Мета-тег Noindex передает ссылочный вес страницы.

Закрывать страницы с помощью такого мета-тега очень удобно, так как при внесении малейших изменений на сайте, вам не придется заново закрывать админку от индексации, также скрывать страницы для регистрации на ресурсе, восстановления пароля и авторизации.

Robots.txt

Файл robots.txt является одним из самых важных при оптимизации любого сайта. Его отсутствие может привести к высокой нагрузке на сайт со стороны поисковых роботов и медленной индексации и переиндексации, а неправильная настройка к тому, что сайт полностью пропадет из поиска или просто не будет проиндексирован. Следовательно, не будет искаться в Яндексе, Google и других поисковых системах. Давайте разберемся во всех нюансах правильной настройки robots.txt.

Для начала короткое видео, которое создаст общее представление о том, что такое файл robots.txt.

Как влияет robots.txt на индексацию сайта

Поисковые роботы будут индексировать ваш сайт независимо от наличия файла robots.txt. Если же такой файл существует, то роботы могут руководствоваться правилами, которые в этом файле прописываются. При этом некоторые роботы могут игнорировать те или иные правила, либо некоторые правила могут быть специфичными только для некоторых ботов. В частности, GoogleBot не использует директиву Host и Crawl-Delay, YandexNews с недавних пор стал игнорировать директиву Crawl-Delay, а YandexDirect и YandexVideoParser игнорируют более общие директивы в роботсе (но руководствуются теми, которые указаны специально для них).

Максимальную нагрузку на сайт создают роботы, которые скачивают контент с вашего сайта. Следовательно, указывая, что именно индексировать, а что игнорировать, а также с какими временны́ми промежутками производить скачивание, вы можете, с одной стороны, значительно снизить нагрузку на сайт со стороны роботов, а с другой стороны, ускорить процесс скачивания, запретив обход ненужных страниц.

К таким ненужным страницам относятся скрипты ajax, json, отвечающие за всплывающие формы, баннеры, вывод каптчи и т.д., формы заказа и корзина со всеми шагами оформления покупки, функционал поиска, личный кабинет, админка.

Для большинства роботов также желательно отключить индексацию всех JS и CSS. Но для GoogleBot и Yandex такие файлы нужно оставить для индексирования, так как они используются поисковыми системами для анализа удобства сайта и его ранжирования (пруф Google, пруф Яндекс).

Директивы robots.txt

Директивы — это правила для роботов. Есть спецификация W3C от 30 января 1994 года и расширенный стандарт от 1996 года. Однако не все поисковые системы и роботы поддерживают те или иные директивы. В связи с этим для нас полезнее будет знать не стандарт, а то, как руководствуются теми или иными директивы основные роботы.

Давайте рассмотрим по порядку.

User-agent

Это самая главная директива, определяющая для каких роботов далее следуют правила.

Для всех роботов:
User-agent: *

Для конкретного бота:
User-agent: GoogleBot

Обратите внимание, что в robots.txt не важен регистр символов. Т.е. юзер-агент для гугла можно с таким же успехом записать соледующим образом:
user-agent: googlebot

Ниже приведена таблица основных юзер-агентов различных поисковых систем.

Бот Функция
Google
Googlebot основной индексирующий робот Google
Googlebot-News Google Новости
Googlebot-Image Google Картинки
Googlebot-Video видео
Mediapartners-Google Google AdSense, Google Mobile AdSense
Mediapartners Google AdSense, Google Mobile AdSense
AdsBot-Google проверка качества целевой страницы
AdsBot-Google-Mobile-Apps Робот Google для приложений
Яндекс
YandexBot основной индексирующий робот Яндекса
YandexImages Яндекс.Картинки
YandexVideo Яндекс.Видео
YandexMedia мультимедийные данные
YandexBlogs робот поиска по блогам
YandexAddurl робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
YandexFavicons робот, индексирующий пиктограммы сайтов (favicons)
YandexDirect Яндекс.Директ
YandexMetrika Яндекс.Метрика
YandexCatalog Яндекс.Каталог
YandexNews Яндекс.Новости
YandexImageResizer робот мобильных сервисов
Bing
Bingbot основной индексирующий робот Bing
Yahoo!
Slurp основной индексирующий робот Yahoo!
Mail.Ru
Mail.Ru основной индексирующий робот Mail.Ru
Rambler
StackRambler Ранее основной индексирующий робот Rambler. Однако с 23.06.11 Rambler перестает поддерживать собственную поисковую систему и теперь использует на своих сервисах технологию Яндекса. Более не актуально.

Disallow и Allow

Disallow закрывает от индексирования страницы и разделы сайта.
Allow принудительно открывает для индексирования страницы и разделы сайта.

Но здесь не все так просто.

Во-первых, нужно знать дополнительные операторы и понимать, как они используются — это *, $ и #.

* — это любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.
$ — показывает, что символ перед ним должен быть последним.
# — комментарий, все что после этого символа в строке роботом не учитывается.

Примеры использования:

Disallow: *?s=
Disallow: /category/$

Следующие ссылки будут закрыты от индексации:
http://site.ru/?s=
http://site.ru/?s=keyword
http://site.ru/page/?s=keyword
http://site.ru/category/

Следующие ссылки будут открыты для индексации:
http://site.ru/category/cat1/
http://site.ru/category-folder/

Во-вторых, нужно понимать, каким образом выполняются вложенные правила.
Помните, что порядок записи директив не важен. Наследование правил, что открыть или закрыть от индексации определяется по тому, какие директории указаны. Разберем на примере.

Allow: *.css
Disallow: /template/

http://site.ru/template/ — закрыто от индексирования
http://site.ru/template/style.css — закрыто от индексирования
http://site.ru/style.css — открыто для индексирования
http://site.ru/theme/style.css — открыто для индексирования

Если нужно, чтобы все файлы .css были открыты для индексирования придется это дополнительно прописать для каждой из закрытых папок. В нашем случае:

Allow: *.css
Allow: /template/*.css
Disallow: /template/

Повторюсь, порядок директив не важен.

Sitemap

Директива для указания пути к XML-файлу Sitemap. URL-адрес прописывается так же, как в адресной строке.

Директива Sitemap указывается в любом месте файла robots.txt без привязки к конкретному user-agent. Можно указать несколько правил Sitemap.

Директива для указания главного зеркала сайта (в большинстве случаев: с www или без www). Обратите внимание, что главное зеркало указывается БЕЗ http://, но С https://. Также если необходимо, то указывается порт.
Директива поддерживается только ботами Яндекса и Mail.Ru. Другими роботами, в частности GoogleBot, команда не будет учтена. Host прописывается только один раз!

Пример 1:
Host: site.ru

Пример 2:
Host: https://site.ru

Crawl-delay

Директива для установления интервала времени между скачиванием роботом страниц сайта. Поддерживается роботами Яндекса, Mail.Ru, Bing, Yahoo. Значение может устанавливаться в целых или дробных единицах (разделитель — точка), время в секундах.

Пример 1:
Crawl-delay: 3

Пример 2:
Crawl-delay: 0.5

Если сайт имеет небольшую нагрузку, то необходимости устанавливать такое правило нет. Однако если индексация страниц роботом приводит к тому, что сайт превышает лимиты или испытывает значительные нагрузки вплоть до перебоев работы сервера, то эта директива поможет снизить нагрузку.

Чем больше значение, тем меньше страниц робот загрузит за одну сессию. Оптимальное значение определяется индивидуально для каждого сайта. Лучше начинать с не очень больших значений — 0.1, 0.2, 0.5 — и постепенно их увеличивать. Для роботов поисковых систем, имеющих меньшее значение для результатов продвижения, таких как Mail.Ru, Bing и Yahoo можно изначально установить бо́льшие значения, чем для роботов Яндекса.

Clean-param

Это правило сообщает краулеру, что URL-адреса с указанными параметрами не нужно индексировать. Для правила указывается два аргумента: параметр и URL раздела. Директива поддерживается Яндексом.

Clean-param: author_id http://site.ru/articles/

Clean-param: author_id&sid http://site.ru/articles/

Яндекс также рекомендует использовать эту директиву для того, чтобы не учитывались UTM-метки и идентификаторы сессий. Пример:

Другие параметры

В расширенной спецификации robots.txt можно найти еще параметры Request-rate и Visit-time. Однако они на данный момент не поддерживаются ведущими поисковыми системами.

Смысл директив:
Request-rate: 1/5 — загружать не более одной страницы за пять секунд
Visit-time: 0600-0845 — загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

Закрывающий robots.txt

Если вам нужно настроить, чтобы ваш сайт НЕ индексировался поисковыми роботами, то вам нужно прописать следующие директивы:

Проверьте, чтобы на тестовых площадках вашего сайта были прописаны эти директивы.

Правильная настройка robots.txt

Для России и стран СНГ, где доля Яндекса ощутима, следует прописывать директивы для всех роботов и отдельно для Яндекса и Google.

Чтобы правильно настроить robots.txt воспользуйтесь следующим алгоритмом:

  1. Закройте от индексирования админку сайта
  2. Закройте от индексирования личный кабинет, авторизацию, регистрацию
  3. Закройте от индексирования корзину, формы заказа, данные по доставке и заказам
  4. Закройте от индексирования ajax, json-скрипты
  5. Закройте от индексирования папку cgi
  6. Закройте от индексирования плагины, темы оформления, js, css для всех роботов, кроме Яндекса и Google
  7. Закройте от индексирования функционал поиска
  8. Закройте от индексирования служебные разделы, которые не несут никакой ценности для сайта в поиске (ошибка 404, список авторов)
  9. Закройте от индексирования технические дубли страниц, а также страницы, на которых весь контент в том или ином виде продублирован с других страниц (календари, архивы, RSS)
  10. Закройте от индексирования страницы с параметрами фильтров, сортировки, сравнения
  11. Закройте от индексирования страницы с параметрами UTM-меток и сессий
  12. Проверьте, что проиндексировано Яндексом и Google с помощью параметра «site:» (в поисковой строке наберите «site:site.ru»). Если в поиске присутствуют страницы, которые также нужно закрыть от индексации, добавьте их в robots.txt
  13. Укажите Sitemap и Host
  14. По необходимости пропишите Crawl-Delay и Clean-Param
  15. Проверьте корректность robots.txt через инструменты Google и Яндекса (описано ниже)
  16. Через 2 недели перепроверьте, появились ли в поисковой выдаче новые страницы, которые не должны индексироваться. В случае необходимости повторить выше перечисленные шаги.

Пример robots.txt

Как добавить и где находится robots.txt

После того как вы создали файл robots.txt, его необходимо разместить на вашем сайте по адресу site.ru/robots.txt — т.е. в корневом каталоге. Поисковый робот всегда обращается к файлу по URL /robots.txt

Как проверить robots.txt

Проверка robots.txt осуществляется по следующим ссылкам:

  • В Яндекс.Вебмастере — на вкладке Инструменты>Анализ robots.txt
  • В Google Search Console — на вкладке Сканирование>Инструмент проверки файла robots.txt

Типичные ошибки в robots.txt

В конце статьи приведу несколько типичных ошибок файла robots.txt

  • robots.txt отсутствует
  • в robots.txt сайт закрыт от индексирования (Disallow: /)
  • в файле присутствуют лишь самые основные директивы, нет детальной проработки файла
  • в файле не закрыты от индексирования страницы с UTM-метками и идентификаторами сессий
  • в файле указаны только директивы
    Allow: *.css
    Allow: *.js
    Allow: *.png
    Allow: *.jpg
    Allow: *.gif
    при этом файлы css, js, png, jpg, gif закрыты другими директивами в ряде директорий
  • директива Host прописана несколько раз
  • в Host не указан протокол https
  • путь к Sitemap указан неверно, либо указан неверный протокол или зеркало сайта

Если у вас есть дополнения к статье или вопросы, пишите ниже в комментариях.
Если у вас сайт на CMS WordPress, вам будет полезна статья «Как настроить правильный robots.txt для WordPress».

Полезное видео от Яндекса (Внимание! Некоторые рекомендации подходят только для Яндекса).

Добавить комментарий