Google отключил инструмент для индексации URL в поисковой выдаче


Содержание материала:

8 главных вопросов про индексацию сайта. Часть 2

Продолжаем отвечать на главные вопросы про индексацию сайтов. В первой части статьи мы уже дали ответы на 4 вопроса. Сегодня вновь начнем с самого простого.

Начнем с простого.

Вопрос 5. Сколько страниц уже в индексе поисковой системы?

Есть сразу несколько простых способов, которые вы наверняка уже знаете. Во-первых, это можно проверить с помощью специальный поисковых операторов. Просто введите в поисковой строке оператор site: и домен сайта:

Внизу под строкой поиска (в Яндексе — в самой строке правее) отображается примерное количество страниц вашего сайта, проиндексированных поисковой системой.

Второй способ — посмотреть в панели вебмастеров. В Google Search Console — вкладка “Индекс”, подраздел “Покрытие”. Здесь вы увидите график индексирования и сможете понимать саму тенденцию. Вверху также в табах есть количество страниц с ошибками, точное число проиндексированных страниц и количество страниц, заблокированных в файле robots.txt:

Ниже вы можете ознакомиться с каждой ошибкой, возникшей при сканировании ваших страниц роботом. Кроме того, вы можете выгрузить полный список всех страниц, которые не были проиндексированы по различными причинам. Также в списке будет указана дата последнего сканирования страницы поисковым роботом:

В Яндексе: заходим в Яндекс.Вебмастер, там выбираем раздел “Индексирование сайта”, подраздел “Страницы в поиске”. Здесь вы увидите, сколько страниц было добавлено в индекс и сколько было из индекса удалено за выбранный определенный период:

Вопрос 6. Как ускорить процесс индексации?

Это особенно актуально для медиа-порталов или для интернет-магазинов, где регулярно обновляются акции и новости. Такие страницы нужно отправить в индекс поисковика как можно быстрее. Как это сделать:

В Яндекс.Вебмастере: во вкладке “Индексирование” переходим в подраздел “Переобход страниц”. Здесь введите URL тех страниц, которые вы бы хотели проиндексировать в первую очередь в приоритетном порядке (от самого важного до менее важного). Обратите внимание, что в этой полезной функции существует лимит — не более 20 страниц в день:

Здесь же есть еще один полезный инструмент — “Проверить статус URL”. С его помощью можно проверить, проиндексирована ли конкретная страница:

В Google Search Console: в обновленном интерфейсе этот процесс делается немного иначе, чем в старых версиях. Вверху в шапке панели либо на боковой панели в разделе “Проверить URL” введите URL интересующей вас страницы и… проверьте его!

Дальше вы увидите результаты проверки, здесь вам просто нужно нажать на кнопку “Запросить индексирование”:

Кроме того, не забывайте про ряд общих требований — их соблюдение обязательно оценит поисковый робот и будет заглядывать к вам на сайт чаще:

  • Правильно составленные файлы robots.txt и Sitemap — об этом мы писали в предыдущей части статьи, и снова напоминаем. Поисковые роботы обращают на них внимание в первую очередь.
  • Как можно чаще обновляйте информацию на сайте. Роботы учитывают это и подбирают определенную тактику обхода под сайт.
  • Общие требования по юзабилити и контенту. Удобно и интересно пользователю — нравится роботам.
  • Постинг, активность в социальных сетях. Роботы могут также заходить на ваш сайт и по внешним ссылкам с крупных сайтов с хорошей репутацией и релевантной тематикой.

Вопрос 7. Какими должны быть ссылки и размер страниц?

  1. Количество входящих ссылок на ресурс, должно в разы превышать количество ссылок исходящих (seo in>seo out).
  2. Не увлекайтесь редиректами. А если ставите постоянное или временное перенаправление — ведите на целевую работоспособную страницу.
  3. Дублирующий контент на страницах усложняет процесс индексирования, такие страницы тратят краулинговый бюджет. Тег canonical помогает указать приоритетную страницу для выдачи
  4. Страницы с установленным тегом noindex не участвуют в выдаче, но сканируются роботом, т.е. на них расходуется бюджет, выделенный на весь сайт. Проверьте, оправданно ли наличие данного тега на странице, или ее можно спокойно закрыть в robots.
  5. Страницы с минимальным количеством контента чаще всего помечаются как некачественные и не участвуют в ранжировании, а страницы весом менее 1кб вообще не индексируются.
  6. Наличие ошибочных кодов ответа сервера (неработающие страницы, с кодом ответа 4xx, проблемы с сервером и ответ с кодом 5xx) для всех переобходов напрасно тратится бюджет. Только постоянный мониторинг сайта поможет избежать таких проблем.
  7. К URL также масса требований:
  • без динамических параметров;
  • ЧПУ;
  • латиницей (кириллицу лучше не использовать, но допустимо);
  • в идеале должен включать ключевой запрос, без пересапама, естественно;
  • длиной 3-5 слов;
  • не должен совпадать с H1;
  • прописаны в нижнем регистре;
  • в качестве разделителей использовать дефис, а не нижнее подчеркивание.

Вопрос 8. Краулинговый спрос и бюджет: что об этом нужно знать?

Этот вопрос касается исключительно поисковой системы Google и, судя по заявлениям представителя компании Гэри Илша, должен беспокоить только крупные сайты.

Под краулинговым спросом понимается то количество страниц сайта, которые изначально хочет просканировать Google. Краулинговый бюджет — это число страниц, которое Googlebot и хочет, и может просканировать за определенный период. Смысл в том, что чем выше этот показатель у вашего сайта, тем быстрее робот Google сможет просканировать по-настоящему важные и ценные страницы вашего сайта.

Проверить примерный краулинговый бюджет можно только в старой версии GSC. Для этого во вкладке “Сканирование” перейдите в раздел “Статистика сканирования”:

Как контролировать эту цифру? Для начала очистить сайт от мусора. Снова вспоминаем про robots и sitemap: правильно составленные файлы индексации становятся первоочередным ориентиром для поискового робота, какие страницы не нужно обходить, а какие — нужно в первую очередь.

Кроме того, можно настроить параметр last-modified:

HTTP заголовок Last-Modified сообщает клиенту время последнего изменения страницы. Если клиент (браузер, поисковый робот) получил заголовок Last-Modified, то при следующем обращении к адресу, (при условии, что страница есть в локальном кеше), он добавит вопрос If-Modified-Since (не изменилась ли страница после даты, полученной в Last-Modified). В свою очередь сервер, получив запрос If-Modified-Since должен сверить полученную временную метку с временем последнего изменения страницы и, если страница не изменялась ответить 304 Not Modified.

Проще говоря: код ответа сервера 304 дает понять поисковому роботу, что страница не менялась, следовательно ее не нужно повторно сканировать. В таком случае количество страниц, которые боту нужно просканировать, может существенно снизиться, что позитивно повлияет на показатель скорости обхода.

Индексация — вещь очень объемная, вопросов явно больше, чем 8. Наверняка они найдутся и у вас. Пишите в комментариях — постараемся ответить как можно детальнее.

с SEO-аудита вашего сайта

Подпишись и следи за выходом новых статей в нашем монстрограмме

Остались вопросы?

Не нашли ответ на интересующий Вас вопрос? Или не нашли интересующую Вас статью? Задавайте вопросы и темы статей которые Вас интересуют в комментариях.

Яндекс.Вебмастер и Google Search Console

Сервисы Яндекс.Вебмастер и Google Search Console позволяют реализовать две категории задач: управлять индексацией собственных веб-проектов и отслеживать корректность функциональности своих ресурсов, их соответствие стандартам поисковых систем. Правила использования каждого сервиса особенные, поэтому остановимся на них подробнее.

Как работать с Яндекс.Вебмастер

В этой инструкции мы рассмотрим принципы работы с обновленной версией вебмастера – она отличается большим удобством и функциональностью.

Добавление сайта в Яндекс.Вебмастер

Использование сервиса Яндекс.Вебмастер начинается с добавления сайта. Для этого достаточно иметь аккаунт в Яндексе (обычный почтовый, он является входом во все сервисы системы). После авторизации достаточно добавить сайт, нажав плюсик в верхней части и подтвердить права предложенным способом.

Общая информация о Вебмастере

Итак, сайт добавлен. Кликаем на его название в Вебмастере и попадаем в панель управления. Самые важные элементы в ней:

  • Диагностика – информация о технических ошибках и дополнительные рекомендации по сайту;
  • Индексирование – динамика добавления страниц в индекс поисковика;
  • Поисковые запросы – виды запросов, позиции вашего сайта по ним и переходы;
  • Настройка индексирования – внесение технических настроек для грамотной интеграции сайта в поисковик;
  • Инструменты – набор сервисов для анализа основных технических аспектов.

Диагностика сайта в Яндекс.Вебмастере

Этот раздел можно назвать самым важным, так как он содержит информацию о проблемах с сайтом, которые могут повлиять на индексацию или выдачу. В нем три подраздела: Диагностика сайта, Безопасность и Нарушения. В разделе Диагностика демонстрируются ошибки по мере критичности: фатальные помечены красным цветом, критичные – оранжевым, вероятные проблемы – желтым. Первые серьезно сказываются на позициях сайта, вторые могут ухудшить ранжирование, третьи могут косвенно повлиять, но не обязательно. Есть еще отдельный подраздел с рекомендациями по улучшению ресурса. В подразделе Безопасность появляется информация о том, что сайт заражен вредоносным кодом (если это вдруг произойдет). Подраздел Нарушения содержит информацию о санкциях, которые наложены на ресурс и нарушениях в продвижении, которые вы допускаете.

Поисковые запросы

Это удобный инструмент, позволяющий работать с запросами, по которым находят ваш сайт. В разделе 2 подраздела: Статистика и Последние запросы. В Статистике у вас есть возможность проанализировать изменения показателей: показов, кликов, CTR по группам запросов и регионам. В подразделе Последние запросы отображаются все фразы, по которым сайт демонстрируется в поиске и по которым переходят пользователи. Запросы можно объединить в группы (по умолчанию это ТОП 3, 10, 50). В новом Вебмастере можно загружать свои запросы – благодаря этому проще отслеживать, насколько эффективна текущая стратегия продвижения ресурса.

Индексирование

Этот набор инструментов дает возможность подробно изучить процесс индексации ресурса и определить проблемы, из-за которых не индексируются те или иные страницы. Подраздел Статистика – это информация о количестве загруженных и исключенных страниц, а также ссылках, которые проиндексированы и находятся в поиске. Отслеживая эти данные, можно вовремя заметить изменения или проблемы. В частности, если разница между количество загруженных и находящихся в поиске страницах очень большая – нужно проводить анализ сайта и определять причину. Подраздел Структура сайта отображает данные в виде иерархического древа с данными о загруженных страницах и страницах, которые находятся в индексе. В подразделе Проверка URL можно протестировать любую ссылку с сайта: сервис продемонстрирует информацию, находится ли страница в поиске, и какой она дает код ответа. Подраздел Входящие ссылки на данный момент находится в разработке. В целом он создан для демонстрации информации о внешних и внутренних ссылках и их динамике. Подразделом удобно пользоваться для поиска неработающих ссылок и отслеживания их качества.

Настройка индексирования

Пройдемся по порядку:

  • Подраздел Файлы Sitemap представляет собой удобный инструмент для добавления Sitemap.xml.
  • Переезд сайта – инструмент для того, чтобы сообщить поисковику о смене домена или протокола.
  • Региональность – инструмент для присвоения сайта основного региона. Отдельно можно присвоить регион по Яндекс.Вебмастер, Яндекс.Справочник и Яндекс.Каталог.
  • Регистр имени – инструмент для смены регистра домена с целью привлечения внимания в сниппете.
  • Быстрые ссылки. Инструмент для настройки быстрых ссылок, которые формируются в выдаче Яндекса: можно менять анкоры и отключать ненужные ссылки.
  • Оригинальные тексты. Сервис для защиты авторских прав на контент.

Инструменты

И снова воспользуемся списком для перечисления всех доступных сервисов:

  • Анализ robots.txt – инструмент для проверки одноименного файла;
  • Анализ файлов Sitemap.xml – проверка файла на ошибки;
  • Проверка ответа сервера – анализ ответов сервера для разных ботов Яндекса. Самые важные показатели для проверки: Код статуса, Время ответа сервера и Размер страницы;
  • Проверка мобильных страниц – инструмент для проверки соответствия новому алгоритму «Владивосток», который пессимизирует все страницы, не подходящие для просмотра с мобильных устройств. Инструмент показывает, оптимизирована ли страница, и какие есть ошибки оптимизации под мобильные устройства;
  • Переобход страниц – указываем страницы, которые нужно проиндексировать в первую очередь.

Яндекс.Вебмастер – современный, удобный и развивающийся сервис, с помощью которого можно провести достаточно хороший аудит сайта, выявить ошибки и увеличить шансы на рост позиций в поисковой выдаче.

Как работать с Search Console Google

Google Search Console – сервис, который ранее носил название «Инструменты для веб-мастеров». Рассмотрим подробнее возможности, которые он предоставляет.

Добавление сайта в Google Search Console

Для этой операции нужно нажать кнопку «Добавить ресурс», расположенную на главной странице консоли. Дополнительных объяснений особо не нужно: в процессе следует указать ссылку сайта, подтвердить права на него удобным способом – и все, ресурс уже добавлен.

Получение общих данных об индексировании

Кликнув на добавленный в консоль сайт, вы перейдете на общую страницу. В левой части расположено меню Панель инструментов, содержащее набор функций для проверки индексирования и безопасности. В центральной части доступны модули с информацией о новых сообщениях системы, об ошибках, анализе поисковых запросов, проверке файлов Sitemap.

Оценка и улучшения вида сайта в поиске

Раздел Вид в поиске дает возможность оценить, насколько корректно используются структурированные данные. Особое внимание следует обратить на обнаруженные ошибки.

Подраздел Маркер позволяет проинформировать поисковую систему о структурированных данных – это позволит отображать в выдаче боле емкий и качественный сниппет . О ток, как этого добиться, рассказано в видеоинструкции. Подраздел Оптимизация HTML позволяет отслеживать проблемы, возникающие в мета-данными и кодом ресурса. Можно просматривать страницы с обнаруженными проблемами, просто переход по ссылкам. Подраздел Ссылки сайта позволяет управлять рейтингом страниц, понижая в рейтинге ссылки, которые не должны присутствовать на выгодных позициях выдачи.

Оценка поискового трафика

Раздел Поисковый трафик дает возможность анализировать запросы, по которым посетители попадают на страницы ресурса. В частности, можно оценивать эффективность запросов по кликам, показам, средней позиции и показателю CTR. Есть возможность отфильтровать данные по типу поиска, странам, используемым устройствам, запросам и страницам.

Подраздел Ссылки на ваш сайт демонстрирует информацию о ссылающихся на ресурс сайтах, страницах акцепторах, анкорном контенте. Подраздел Внутренние ссылки показывает соответствующую информацию с возможностью просмотра ссылок. В подразделе Меры, принятые вручную, доступна информация о ручных санкциях поисковой системы. Подраздел Таргетинг по странам и языкам доступны соответствующие данные. Последний подраздел – Удобство просмотра на мобильных устройствах – дает возможность оценить этот фактор ресурса и получить список конкретных ошибок, которые нужно устранить.

Отслеживание индексации сайта

Подраздел Статус индексирования позволяет получить данные о количестве страниц, прошедших индексацию. Включив демонстрацию расширенных данных, можно увидеть количество проиндекцированных, а также удаленных или заблокированных страниц.

В подразделе «Ключевые слова в содержании представлена соответствующая информация – ее, кстати, можно загрузить в формате таблицы. Подраздел Заблокированные ресурсы показывает информацию о страницах, которые нельзя индексировать полностью либо частично. В подразделе Удалить URL-адреса можно убрать из выдачи определенные страницы.

Оценка и настройка сканирования

Оценим все инструменты по очереди:

  • Ошибки сканирования – данные об ошибках на сайте и сервере;
  • Статистика сканирования – отслеживание работы поискового робота;
  • Посмотреть, как Googlebot – возможность «увидеть» сайт «глазами» поискового робота. Это позволит увидеть ошибки сканирования, подтвердить доступность контента;
  • Инструмент проверки файла robots.txt – все понятно без объяснений;
  • Файлы Sitemap – проверка доступности карты сайта и загрузка актулаьного файла с картой;
  • Параметры URL – настройка параметров сканирования ссылок.

Яндекс.Вебмастер и Google Search Console нужно использовать одновременно

Оба сервиса крайне важны для оценки сайта и исправления текущих ошибок. Учитывая, что Яндекс лидирует в Рунете, его Вебмастер можно выбрать в качестве ежедневного сервиса. Набор инструментов в нем достаточный для отслеживания основных проблем, на которые обращают внимание все крупные поисковики. В Google Search Console можно сравнивать данные, которые демонстрирует Яндекс.Вебмастер, делать соответствующие выводы и выполнять нужные действия.

Индексация сайта: как управлять индексом

Важной составляющей при поисковой оптимизации является работа с внутренними факторами. К таким факторам относят, в том числе, управление индексацией ресурса — настройка его взаимодействия с роботами поисковых систем. Данный вопрос функционирования сайта необходимо решать еще на этапе проектирования, что позволит избежать проблем с продвижением в дальнейшем.

Что такое индексация сайта и краулинговый бюджет?

Индексация сайта — это процесс обхода страниц веб-ресурса поисковыми роботами и внесение полученной информации в базу поисковых систем, и для того, чтобы ресурс появился в выдаче Яндекса или Google необходимо, чтобы он был просканирован и добавлен в их индекс.

Поисковые роботы посещают регулярно страницы ресурса, но то, с какой периодичностью они это делают, зависит от нескольких факторов:

  • частота изменения контента;
  • количество страниц на сайте;
  • объем трафика.

О новых страницах поисковые роботы узнают из ссылок, которые появляются на ранее известных им документах, а также по трафику на них с различных источников.

При этом необходимо учитывать, что за один заход робот обрабатывает некоторое количество страниц сайта. Такое явление связано с тем, что поисковые роботы не хотят перенагружать сервер своими запросами. Но каким образом определяется этот лимит загружаемых документов?

Топ-пост этого месяца:  Как добавить разделитель в меню админки Wordpress

В начале 2020 года представитель компании Google Гэри Илш рассказал про такое понятие как Краулинговый бюджет, который объединяет в себе такие показатели: скорость сканирования сайта и краулинговый спрос (количество документов, которое хочет обойти робот Google, основанное на популярности ресурса и актуальности контента). Под краулинговым бюджетом Google подразумевает количество страниц сайта, которые может обойти Googlebot.

Внутренние факторы сайта, которые уменьшают показатель краулингового бюджета (по версии Google):

  • доступные к индексации документы, в адресе которых указаны идентификаторы сессий, переменные фильтрации или поиска, UTM-метки;
  • дубли страницы;
  • документы с 404-откликом сервера;
  • страницы с низкокачественным и спамным контентом.

Способы управления индексацией сайта

Для того чтобы оптимизировать расход краулингового бюджета необходимо корректно управлять индексацией сайта — давать возможность индексировать роботам только те страницы, которые важны для продвижения ресурса.

Канонические страницы

С помощью настройки канонического адреса (canonical) можно явно поисковым системам указать, какая страница является предпочтительной для индексации. Настраивать атрибут canonical необходимо в том случае, если на сайте присутствуют документы с одинаковым содержанием:

  • страницы пагинации;
  • страницы с UTM-метками;
  • страницы фильтрации;
  • и др

Для настройки канонических страниц необходимо в разделе head указать следующий код:

Если страница должна участвовать в поиске, то в атрибуте href указывается ее url, если не должна и является полным или частичным дублем, то в атрибуте href указывается адрес канонического документа.

Robots.txt

С помощью файла robots.txt, который находится в корне сайта, можно управлять поисковыми роботами:

  • Директива Disallow закрывает от индексации указанные страницы;
  • User-Agent позволяет указать поисковую систему, для которой написаны инструкции индексации;
  • Crawl-delay задает частоту обращения роботов к страницам ресурса (Google пропускает данную инструкцию);
  • Clean-param запрещает к индексации страницы с указанными динамическими параметрами.

Мета-тег Robots

Данный мета-тег предназначен для управления индексацией конкретной страницы. Для настройки мета-тега необходимо в разделе head указать:

Список параметров мета-тега robots:

  • index — разрешение на индексирование документа;
  • noindex — запрет на индексирование документа;
  • follow — разрешение на следование по ссылкам на странице;
  • nofollow — запрет на следование по ссылкам на странице;
  • all — равносильно указанию content=”index, follow”;
  • none — равносильно указанию content=”noindex, nofollow”.

Отсутствие мета-тега в коде страницы расценивается как автоматическое разрешение на индексацию документа и следование по ссылкам.

Важно учитывать, что при закрытии страницы от индексации таким образом — робот все равно “тратит” свой краулинговый бюджет на ее прочтение, лучше всего данный мета-тег использовать для запрета перехода по ссылкам.

Какие страницы необходимо закрывать от индексации?

От индексации поисковыми системами следует закрывать следующие типы страниц:

  • Для страниц пагинации следует указывать канонический адрес (не стоит закрывать такие их с помощью мета-тега robots или robots.txt: широкий ассортимент — один из важных коммерческих факторов);
  • Технические страницы (без полезного контента) следует закрывать в robots.txt;
  • Страницы персональной информации (личный кабинет, регистрации и др.) стоит закрывать в robots.txt:
  • Для страниц, которые формируются при сортировке товаров в каталоге, стоит указывать канонический адрес;
  • Страницы версии для печати стоит закрывать в robots.txt;
  • Страницы с результатами поиска по сайту стоит закрывать в robots.txt и с помощью тега robots, если их нельзя оптимизировать под получение дополнительного трафика.

Грамотное управление индексацией поможет оптимизировать краулинговый бюджет и направить лимиты на продвигаемые страницы ресурса.

Проверка проиндексированных страниц

Для проверки корректной индексации ресурса можно воспользоваться несколькими способами.

Проверка индексации в панелях Вебмастера Яндекса и Google

В Яндекс Вебмастере в разделе Индексации есть возможность проанализировать индексацию ресурса:

  • просмотреть общее количество страниц, проиндексированных поисковой системой;
  • настроить отслеживание изменений на важных страницах (изменение ответа сервера, выпадение из индекса);
  • проверить статус индексации отдельных документов:
  • узнать причины выпадения страниц из поиска. Причинами могут быть:
      • наличия дубля;
      • неверный отклик;
      • неканоническая;
      • запрет для индексации в robots.txt

Владея этой информацией можно оперативно устранять ошибки на сайте для возврата необходимых страниц в индекс поисковой системы Яндекс.

Google, к сожалению, не обладает столь удобным инструментом для анализа проиндексированных документов. С помощью консоли Google для вебмастеров можно посмотреть:

  • Количество проиндексированных страниц;
  • Количество закрытых страниц в файле robots.txt:

Использование поисковых операторов

Поисковые системы разработали специальные поисковые операторы, позволяющие уточнять поисковой запрос. Например, с помощью оператора «site:» можно узнать приблизительное количество проиндексированных страниц.

Большая разница между количеством проиндексированных страниц в Яндексе и в Google может свидетельствовать о том, что у сайта проблемы с технической оптимизацией.

С помощью оператора url: в Яндексе можно проверить проиндексирована ли конкретная страница:

Проверка индексации с помощью RDS бара

Панель инструментов RDS бар — это плагин для браузеров Google Chrome и Mozilla Firefox, который в браузере отображается в виде дополнительной панели инструментов. Данный плагин позволяет быстро просмотреть основные показатели ресурса:

  • количество проиндексированных страниц в Яндексе и в Google;
  • проиндексирована ли текущая страница в Яндексе и в Google;

Программы для проверки индексации

Для автоматизации процесса анализа внутренних ошибок веб-ресурса и проблем индексации существуют специальные инструменты — парсеры сайта и индекса поисковых систем:

    • Netpeak Spider — программа позволяет проверить отклики страниц, посмотреть канонические адреса, закрыта ли страница в robots.txt или с помощью мета-тега robots:
  • Comparser — специализированная программа для глубокого анализа индексации сайта, которая позволяет выполнять следующие операции:
    • сканирование страниц всего веб-ресурса (откликов и канонических адресов);
    • сканирование индекса поисковых систем (Яндекс и Google);
    • поиск страниц, которые есть в индексе поисковых систем, но на сайте на них отсутствуют внутренние ссылки;
    • автоматическое удаление ненужных страниц из индекса Яндекса и Google.

Причины выпадения страниц из индекса

Большое количество выпавших посадочных страниц из поиска Яндекса и Google приводит к падению позиций сайта и трафика. Можно выделить несколько основных причин выпадения страниц из индекса поисковых систем:

  • 301 или 302 отклик (настроены редиректы на другой документ);
  • Наличие дублей (например, страницы пагинации, фильтрации, сортировки и другие типы страниц, где дублируются мета-данные и контент);
  • Ошибочное закрытие раздела сайта или страницы в файле robots.txt или мета-тегом robots;
  • 404 отклик;
  • 5xx отклик, говорящий о том, что есть сбои в работе хостинга или CMS, из-за чего страницы длительное время недоступны для роботов поисковых систем.

Для предотвращения выпадения посадочных страниц ресурса из индекса поисковых систем следует следить за технической оптимизацией сайта и своевременно устранять возникающие ошибки. Но если, поисковая система удалила страницу из поиска, то следует воспользоваться следующим алгоритмом:

  1. Определить причину выпадения из индекса;
  2. Устранить причину;
  3. Отправить выпавшую страницу на индексацию (переиндексацию).

Методы ускоренной индексации

Если страница новая или отсутствует в индексе по какой-то причине (и причина выпадения из индекса исправлена), то с помощью следующих способов, можно ускорить добавление ее в индекс:

  1. Указание страницы (страниц) в файле sitemap.xml с датой обновления и приоритетом на индексирование;
  2. Отправка в инструмент “Переобход страниц” в Яндексе;
  3. Размещение ссылок на документ на внешних ресурсах;
  4. Размещение ссылок на документ в социальных сетях;
  5. Получение моментального трафика с хорошей активностью, где источником трафика может быть даже e-mail-рассылка;
  6. Корректная настройка внутренней перелинковки на сайте.

Заключение

Управление индексацией — важная часть работы при продвижении. В отличие от работы с внешними факторами поисковой оптимизации — возможность влиять на индексацию страниц всегда доступна и изменения быстрее отражаются в индексе поисковых систем, но лучше всего предусмотреть грамотное взаимодействие сайта с поисковыми роботами еще на этапе разработки ресурса.

Важно вовремя отслеживать все внутренние ошибки на сайте, чтобы иметь возможность быстро их устранить до того, как поисковые системы удалят страницы из индекса. А если это уже произошло — необходимо оперативно отправить выпавшие (либо новые) страницы на индексацию.

Как закрыть сайт от индексации поисковых систем: 5 проверенных способов

Очень часто требуется закрыть сайт от индексации, например при его разработке, чтобы ненужная информация не попала в индекс поисковых систем или по другим причинам. При этом есть множество способов, как это можно сделать, все их мы и рассмотрим в этой статье.

Зачем сайт закрывают для индекса?

Есть несколько причин, которые заставляют вебмастеров скрывать свои проекты от поисковых роботов. Зачастую к такой процедуре они прибегают в двух случаях:

      Когда только создали блог и меняют на нем интерфейс, навигацию и прочие параметры, наполняют его различными материалами. Разумеется, веб-ресурс и контент, содержащийся на нем, будет не таким, каким бы вы хотели его видеть в конечном итоге. Естественно, пока сайт не доработан, разумно будет закрыть его от индексации Яндекса и Google, чтобы эти мусорные страницы не попадали в индекс.

    Не думайте, что если ваш ресурс только появился на свет и вы не отправили поисковикам ссылки для его индексации, то они его не заметят. Роботы помимо ссылок учитывают еще и ваши посещения через браузер.

    Какие есть способы запрета индексации сайта?

    1. Панель инструментов в WordPress.
    2. Изменения в файле robots.txt.
    3. Посредством мета-тега name=“robots”
    4. Написание кода в настройках сервера.

    1. Закрытие индексации через WordPress

    Если сайт создан на базе WordPress, это ваш вариант. Скрыть проект от ботов таким образом проще и быстрее всего:

    1. Перейдите в «Панель управления».
    2. Затем в «Настройки».
    3. А после – в «Чтение».
    4. Отыщите меню «Видимость для поисковиков».
    5. Возле строки «Рекомендовать поисковым роботам не индексировать сайт» поставьте галочку.
    6. Сохраните изменения.

    Благодаря встроенной функции, движок автоматически изменит robots.txt, откорректировав правила и отключив тем самым индексацию ресурса.

    На заметку. Следует отметить, что окончательное решение, включать сайт в индекс или нет, остается за поисковиками, и ниже можно увидеть это предупреждение. Как показывает практика, с Яндексом проблем не возникает, а вот Google может продолжить индексировать документы.

    2. Посредством файла robots.txt

    Если у вас нет возможности проделать эту операцию в WordPress или у вас стоит другой движок сайта, удалить веб-сайт из поисковиков можно вручную. Это также реализуется несложно. Создайте обычный текстовый документ, разумеется, в формате txt, и назовите его robots.

    Затем скиньте его в корневую папку своего портала, чтобы этот файл мог открываться по такому пути site.ru/robots.txt

    Но сейчас он у вас пустой, поэтому в нем потребуется прописать соответствующие команды, которые позволят закрыть сайт от индексации полностью или только определенные его элементы. Рассмотрим все варианты, которые вам могут пригодиться.

    Закрыть сайта полностью для всех поисковых систем

    Укажите в robots.txt команду:

    Это позволит запретить ботам всех поисковиков обрабатывать и вносить в базу данных всю информацию, находящуюся на вашем веб-ресурсе. Проверить документ robots.txt, как мы уже говорили, можно, введя в адресной строке браузера: Название__вашего_домена.ru/robots.txt. Если вы все сделали правильно, то увидите все, что указано в файле. Но если, перейдя по указанному адресу, вам выдаст ошибку 404, то, скорее всего, вы скинули файл не туда.

    Отдельную папку

    Так вы скроете все файлы, находящиеся в указанной папке.

    Только в Яндексе

    Чтобы перепроверить, получилось ли у вас удалить свой блог из Яндекса, добавьте его в Яндекс.Вебмастер, после чего зайдите в соответствующий раздел по ссылке https://webmaster.yandex.ru/tools/robotstxt/. В поле для проверки URL вставьте несколько ссылок на документы ресурса, и нажмите «Проверить». Если они скрыты от ботов, напротив них в результатах будет написано «Запрещено правилом /*?*».

    Только для Google

    Проверить, получилось ли сделать запрет, или нет, можно аналогичным способом, что и для Яндекса, только вам нужно будет посетить панель вебмастера Google Search Console. Если документ закрыт от поисковика, то напротив ссылки будет написано «Заблокировано по строке», и вы увидите ту самую строку, которая дала команду ботам не индексировать его.

    Но с большой вероятностью вы можете увидеть «Разрешено». Здесь два варианта: либо вы что-то сделали неправильно, либо Google продолжает индексировать запрещенные в документе robots страницы. Я уже упоминал об этом выше, что для поисковых машин данный документ несет лишь рекомендационный характер, и окончательное решение по индексированию остается за ними.

    Для других поисковиков

    Все поисковики имеют собственных ботов с уникальными именами, чтобы вебмастера могли прописывать их в robots.txt и задавать для них команды. Представляем вашему вниманию самые распространенные (кроме Яндекса и Google):

    • ПоисковикYahoo. Имя робота – Slurp.
    • Спутник. Имя робота – SputnikBot.
    • Bing. Имя робота – MSNBot.

    Список имен всех ботов вы с легкостью найдете в интернете.

    Скрыть изображения

    Чтобы поисковики не могли индексировать картинки, пропишите такие команды (будут зависеть от формата изображения):

    Закрыть поддомен

    Любой поддомен содержит собственный robots.txt. Как правило, он находится в корневой для поддомена папке. Откройте документ, и непосредственно там укажите:

    Если такого текстового документа в папке поддомена нет, создайте его самостоятельно.

    3. С применением тега name=”robots”

    Еще один способ, который поможет скрыть от роботов поисковых систем какой-либо документ или полностью весь сайт – использование мета-тега robots. Данный вариант является одним из самых приоритетных к исполнению для поисковиков. Для этого в любом месте, но обязательно внутри тегов и , нужно прописать код:

    4. В настройках сервера

    И последний способ, о котором хочу вам рассказать – обращение к серверу. К этому варианту вебмастера прибегают в тому случае, когда роботы вообще никак не реагируют на действия, описанные выше. Такое иногда случается, и тогда приходится решать проблему в настройках сервера посредством файла .htaccess. Откройте его и пропишите в нем это:

    5. С помощью HTTP заголовка X-Robots-Tag

    Это тоже своего рода настройка сервера с помощью файла .htaccess, но этот способ работает на уровне заголовков. Это один из самых авторитетных способов закрытия сайта от индексации, потому что он настраивается на уровне сервера.

    Мы подробно расписали как этот способ настроить и использовать в нашей статье.

    Заключение

    Вне зависимости от того, по какой причине вы хотите закрыть сайт, отдельные его страницы или материалы от индексации, можете воспользоваться любым из перечисленных способов. Они простые в реализации, и на их настройку не потребуется много времени. Вы самостоятельно сможете скрыть нужную информацию от роботов, однако стоит учесть, что не все методы помогут на 100%.

    Пожалуйста, оцените эту статью. Чтобы мы могли делать лучший контент! Напишите в комментариях, что вам понравилось и не понравилось!

    Как исключить из индексации страницы с определёнными параметрами в URL и другие техники контроля индексации сайта поисковыми системами

    Оглавление

    Вы можете контролировать, какие страницы можно индексировать поисковым системам, а какие разделы сайта закрыты от них

    Передо мной возникла задача исключить из индексирования поисковыми системами страницы, содержащие определённую строку запроса (уникальные для пользователя отчёты, каждый из которых имеет свой адрес). Я решил эту задачу для себя, а также решил полностью разобраться с вопросами разрешения и запрещения индексирования сайта. Этому посвящён данный материал. В нём рассказывается не только о продвинутых случаях использования robots.txt, но также и других, менее известных способах контроля индексации сайта.

    В Интернете много примеров, как исключить определённые папки из индексации поисковыми системами. Но может возникнуть ситуация, когда нужно исключить страницы, причём не все, а содержащие только указанные параметры.

    Пример страницы с параметрами: сайт.ru/?act=report& >

    Здесь act – это имя переменной, значение которой report, и id – это тоже переменная со значением 7a98c5. Т.е. строка запроса (параметры) идут после знака вопроса.

    Закрыть страницы с параметрами от индексирования можно несколькими способами:

    • с помощью файла robots.txt
    • с помощью правил в файле .htaccess
    • с помощью метатега robots

    Контроль индексации в файле robots.txt

    Файл robots.txt

    Файл robots.txt – это простой текстовый файл, который размещается в корневой директории (папке) сайта, и содержащий одну или более записей. Типичный пример содержимого файла:

    В этом файле из индексации исключены три директории.

    Помните, что строку с «Disallow» нужно писать отдельно для каждого URL префикса, который вы хотите исключить. То есть вы не можете написать «Disallow: /cgi-bin/ /tmp/» в одну строку. Также помните о специальном значении пустых строк – они разделяют блоки записей.

    Регулярные выражения не поддерживаются ни в строке User-agent, ни в Disallow.

    Файл robots.txt должен размещаться в корневой папке вашего сайта. Его синтаксис следующий:

    В качестве значения User-agent указана * (звёздочка) – это соответствует любому значению, т.е. правила предназначены для всех поисковых машин. Вместо звёздочки можно указать имя определённой поисковой машины, для которой предназначено правило.

    Можно указать более чем одну директиву Disallow.

    В файле robots.txt можно использовать подстановочный символы:

    • * обозначает 0 или более экземпляров любого действительного символа. Т.е. это любая строка, в том числе и пустая.
    • $ обозначает конец URL.

    Другие символы, в том числе &, ?, = и т.д. понимаются буквально.

    Запрет индексации страницы с определёнными параметрами с помощью robots.txt

    Итак, я хочу заблокировать адреса вида (вместо ЗНАЧЕНИЕ может быть любая строка): сайт.ru/?act=report& >

    Для этого подойдёт правило:

    В нём / (слеш) означает корневую папку сайта, затем следует * (звёздочка), она означает «что угодно». Т.е. это может быть любой относительный адрес, например:

    • /ru
    • /page.php
    • /order/new/ > Затем следует ? (знак вопроса), который трактуется буквально, т.е. как знак вопроса. Следовательно далее идёт строка запроса.

    Вторая * означает, что в строке запроса может быть что-угодно.

    Затем идёт последовательность символов act=report& >

    Запрет индексации поисковыми системами, но разрешение для сканеров рекламных сетей

    Если вы закрыли сайт от индексирования для поисковых систем, либо закрыли определённые его разделы, то на них не будет показываться реклама AdSense! Размещение рекламы на страницах, закрытых от индексации, может считаться нарушением и в других партнёрских сетях.

    Чтобы это исправить, добавьте в самое начало файла robots.txt следующие строки:

    Этими строками мы разрешаем ботам Mediapartners-Google, AdsBot-Google* и YandexDirect индексировать сайт.

    Т.е. файл robots.txt для моего случая выглядит так:

    Запрет индексации всех страниц со строкой запроса

    Это можно сделать следующим образом:

    Данный пример блокирует все страницы, содержащие в URL ? (знак вопроса).

    Помните: знак вопроса, стоящий сразу после имени домена, например, site.ru/? равнозначен индексной странице, поэтому будьте осторожны с данным правилом.

    Запрет индексации страниц с определённым параметром, передающимся методом GET

    К примеру, нужно заблокировать URL, содержащие в строке запроса параметр order, для этого подойдёт следующее правило:

    Запрет индексации страниц с любым из нескольких параметров

    Предположим, нам нужно запретить индексировать страницы, содержащие в строке запроса или параметр dir, или параметр order, или параметр p. Для этого перечислите каждый из параметров для блокировки в отдельных правилах примерно следующим образом:

    Как запретить поисковым системам индексировать страницы, в URL которых несколько определённых параметров

    К примеру, нужно исключить из индексации страницы, содержание в строке запроса параметр dir, параметр order и параметр p. К примеру, страница с таким URL должна быть исключена из индексации: mydomain.com/new-printers?dir=asc&order=price&p=3

    Этого можно добиться используя директиву:

    Вместо значений параметров, которые могут постоянно меняться, используйте звёздочки. Если параметр всегда имеет одно значение, то используйте его буквальное написание.

    Как закрыть сайт от индексации

    Чтобы запретить всем роботам индексировать весь сайт:

    Разрешение всем роботам полный доступ

    Чтобы предоставить всем роботам полный доступ для индексации сайта:

    Либо просто создайте пустой файл /robots.txt, либо вообще не используйте его – по умолчанию, всё, что не запрещено для индексации, считается открытым. Поэтому пустой файл, либо его отсутствие – означают разрешение на полное индексирование.

    Запрет всем поисковым системам индексировать часть сайта

    Чтобы закрыть некоторые разделы сайта от всех роботов, используйте директивы следующего вида, в которых замените значения на свои:

    Блокировка отдельных роботов

    Для закрытия доступа отдельным роботам и поисковым системам, используйте имя робота в строке User-agent. В данном примере закрыт доступ для BadBot:

    Помните: многие роботы игнорируют файл robots.txt, поэтому это не является надёжным средством закрыть сайт или его часть от индексирования.

    Разрешить индексировать сайт одной поисковой системой

    Допустим, мы хотим разрешить индексировать сайт только Google, а другим поисковым системам закрыть доступ, тогда сделайте так:

    Первые две строки дают разрешение роботу Google на индексацию сайта, а последние две строки запрещают это всем остальным роботам.

    Запрет на индексацию всех файлов, кроме одного

    Директива Allow определяет пути, которые должны быть доступны указанным поисковым роботам. Если путь не указан, она игнорируется.

    Важно: Allow должна следовать до Disallow.

    Примечание: Allow не является частью стандарта, но многие популярные поисковые системы её поддерживают.

    В качестве альтернативы, с помощью Disallow вы можете запретить доступ ко всем папкам, кроме одного файла или одной папки.

    Как проверить работу robots.txt

    В Яндекс.Вебмастер есть инструмент для проверки конкретных адресов на разрешение или запрет их индексации в соответствии с файлом robots.txt вашего файла.

    Для этого перейдите во вкладку Инструменты, выберите Анализ robots.txt. Этот файл должен загрузиться автоматически, если там старая версия, то нажмите кнопку Проверить:

    Затем в поле Разрешены ли URL? введите адреса, которые вы хотите проверить. Можно за один раз вводить много адресов, каждый из них должен размещаться на новой строчке. Когда всё готово, нажмите кнопку Проверить.

    В столбце Результат если URL адрес закрыт для индексации поисковыми роботами, он будет помечен красным светом, если открыт – то зелёным.

    В Search Console имеется аналогичный инструмент. Он находится во вкладке Сканирование. Называется Инструмент проверки файла robots.txt.

    Если вы обновили файл robots.txt, то нажмите на кнопку Отправить, а затем в открывшемся окно снова на кнопку Отправить:

    После этого перезагрузите страницу (клавиша F5):

    Введите адрес для проверки, выберите бота и нажмите кнопку Проверить:

    Запрет индексации страницы с помощью мета тега robots

    Если вы хотите закрыть страницу от индексации, то в теге пропишите:

    Слова noindex,nofollow означают, что страница закрыта от индексации и что поисковые машины не должны следовать по ссылкам, которые присутствуют на этой странице.

    Если вы хотите закрыть страницу от индексации, но разрешить поисковым системам следовать по ссылкам на этой странице (чтобы можно было просканировать другую часть сайта), то используйте следующую строку:

    Запрет индексации с помощью заголовка X-Robots-Tag в HTTP

    Вы можете добавить в файл .htaccess строку:

    В результате в каждый ответ вашего сайта будет добавляться X-Robots-Tag HTTP заголовок, который запретит поисковым системам индексировать сайт.

    Если вы добавили строку в файл .htaccess в корне вашего сайта, то это действие (запрет индексации) будет распространяться на весь сайт. Вы также можете разместить файл .htaccess с этой строкой в любой папке, чтобы запретить индексацию только её.

    Если вы достаточно продвинутый пользователь Apache, вы можете использовать директиву , чтобы указывать файлы какого именно типа запрещены для индексации.

    Например, запрет для индексации всех файлов с расширением .PDF:

    Запрет для индексации всех файлов изображений (.png, .jpeg, .jpg, .gif):


    Блокировка доступа поисковым системам с помощью mod_rewrite

    На самом деле, всё, что было описано выше, НЕ ГАРАНТИРУЕТ, что поисковые системы и запрещённые роботы не будут заходить и индексировать ваш сайт. Есть роботы, которые «уважают» файл robots.txt, а есть те, которые его просто игнорируют.

    С помощью mod_rewrite можно закрыть доступ для определённых ботов

    Приведённые директивы заблокируют доступ роботам Google и Yandex для всего сайта.

    Если, допустим, нужно закрыть для индексирования только одну папку report/, то следующие директивы полностью закроют доступ к этой папке (будет выдаваться код ответа 403 Доступ Запрещён) для сканеров Google и Yandex.

    Если вам интересна блокировка доступа для поисковых систем к отдельным страницам и разделам сайта с помощью mod_rewrite, то пишите в комментариях и задавайте ваши вопросы – я подготовлю больше примеров.

    Связанные статьи:

    • А как долго на ваших сайтах «залипают» пользователи? (50.4%)
    • Как сбросить пароль WordPress без доступа к почте (50.4%)
    • Безопасность сайтов на WordPress (50.4%)
    • Пропал редактор файлов темы WordPress – как вернуть (50.4%)
    • Как настроить автоматическое резервное копирование сайта WordPress с выгрузкой в облако (БЕСПЛАТНО) (50.4%)
    • Как делать разворот на мотоцикле (RANDOM — 50%)

    Рекомендуется вам:

    13 observations on “ Как исключить из индексации страницы с определёнными параметрами в URL и другие техники контроля индексации сайта поисковыми системами ”

    Здравствуйте Автор подскажите, а как закрыть все файлы от индексации типа:

    самое близкое по значению, но тут папка

    Если, допустим, нужно закрыть для индексирования только одну папку report/, то следующие директивы полностью закроют доступ к этой папке (будет выдаваться код ответа 403 Доступ Запрещён) для сканеров Google и Yandex.

    А вот как закрыть (а может лучше перенаправление на главную) именно страниц по маске *.html с помощью mod_rewrite подскажите пожалуйста

    Заранее Спасибо, С Уважением Тс

    Приветствую! Для настройки индексации я бы в первую очередь рекомендовал использовать файл robots.txt. Для того, чтобы запретить индексировать все страницы, которые оканчиваются на .html, в файл robots.txt запишите:

    Если вам всё равно хочется использовать mod_rewrite, то помните, что без острой необходимости не нужно делать так, чтобы показывался разный контент для пользователей и для поисковых систем, поскольку это может быть воспринято как клоакинг.

    Тем не менее, если хотите с помощью mod_rewrite перенаправлять на главную страницу все запросы поисковых роботов к адресам, заканчивающимся на .html, то следующие правила в файле .htaccess сделают это:

    Есть еще пару вопросов в robots.txt (уже сделано) у меня так Disallow: /*.html это верно или обязательно добавить $ ?

    для .htaccess вот так сделал

    знакомый посоветовал последнюю строчку вот так

    может страницы лучше блокировать чем перенаправлять?

    Символ $ означает конец строки. В этом правиле он для того, чтобы не было ложных срабатываний, если, к примеру, .html встретится где-нибудь в неожиданной части имени файла или в передаваемой переменой, то опять же, эта страница будет закрыта от индексации. Может такая ситуация и не возникнет, но если возникнет, то будет сюрпризом для вас.

    • NC — означает независимо от регистра (например, .html и .HTML будут подходить)
    • F — означает запрет доступа (вы просили сделать редирект на главную)
    • L — означает не рассматривать другие правила в этом цикле, в этом случае не нужно, так как F срабатывает сразу, другие правила не рассматриваются в любом случае

    В общем, то, что вам порекомендовали, подойдёт для блокировки доступа. Что лучше, блокировать или перенаправлять — не знаю. Редиректы лучше без особой нужды не использовать — со стороны это может выглядеть подозрительно, особенно если они делаются только для поисковых систем — опять же, можно подумать на клоакинг.

    Добрый день, подскажите зеленому.
    На сайте есть страницы со статьями ( картинки+текст). внизу каждой статьи есть блок » читатйте так же»- в котором есть изображние+ анотация другой статьи из этого же раздела.
    Заметил такой «косяк»- робот индексирует все картинки и те что отнносятся к статье и те что предложены из блока читайте также под одну статью.
    как запретить индексировать именно блок «читатйте так же»

    Скажите, пожалуйста, как будет правильно закрыть от индексации в этой ссылки https://site.ru/product/lobovoe-steklo-4133agnblhmv1b-fyg/?format=application/ld+json вот эту часть /?format=application/ld+json

    так будет правильно?

    Если нужно заблокировать страницы с одной и той же строкой, то есть если всегда format=application/ld+json, то правильно так:

    Если же значение format могут быть разными, например, format=application/ld+xml и все их нужно заблокировать, то правильно будет так:

    Второй вариант заблокирует вообще все страницы, в которых присутствует строка ?format=.

    После редактирования файла robots.txt, не забудьте сделать проверку в Яндекс.Вебмастере и Поисковой консоли Google как тут тоже показано.

    Спасибо большое! Очень помогли

    Подскажите как закрыть страницы где в адресе 2 слэша и более ///

    Таже закрыть где вконце в адресе нет слеша сайт.ru/каталог/страница

    Оставить только такие: сайт.ru/каталог/страница/

    Приветствую! Закрывать страницы от индексации, которые различаются количеством слэшей, — это неправильный подход. Правильно в этом случае сделать так, чтобы таких страниц не было.

    Несколько слэшей может появляться когда ссылка на внутреннюю страницу создаётся в PHP коде, например, когда она получается из строк «/cat/» и «/phones/», то в результате будет «/cat//phones/». В этом случае нужно исправить эти недочёты.

    Другой вариант появления страниц с несколькими слэшами, когда кто-то вручную вводит неправильный адрес на вашем сайте, например, «/cat///phones/», а сайт правильно его понимает и просто отображает страницу без редиректа. В результате такая страница также может попасть в индекс поисковых систем — чтобы этого не было, нужно настроить редирект. Легче всего это сделать с помощью mod_rewrite.

    Удаление лишних слешей в адресе URL

    Например, страница /catalog///stranica.html доступна и открывается. Чтобы избежать такой ситуации и не плодить бесконечное число дублей следует записать следующий редирект:

    Здесь последовательно используется два правила для того, чтобы удалять многократные слеши из любой части URL: начала, середины, конца.

    Это же касается наличия или отсутствия конечного слэша — можно выбрать любой вариант, но только один — это называется «канонический вид». Если движок вашего сайта не умеет работать с этим, то также на помощь придёт mod_rewrite.

    Принудительное добавление конечного слеша к адресу сайта

    Если вам нужно добавить к URL конечный слеш (в том случае, если он отсутствует), то воспользуйтесь этим правилом перезаписи:

    В результате вы добьётесь того, что не нужно будет исключать из индексации страницы без слэша на конце и с множественными слэшами подряд по той причине, что такие страницы просто не будут существовать. Это намного более правильный метод, поскольку если кто-то сделает ссылку на страницу в неканоническом виде, то такая страница всё равно проиндексируется! Запреты в файле robots.txt не помогут — страницы, на которые даны ссылки с внешних источников, попадают в индекс в любом случае.

    День добрый! Намедни обнаружил в вебмастере яндекс, что индексируются изображения капчи. Будьте добры объясните чайнику, как правильно прописать в роботс запрет на индексацию, вот пример: сайт/image_captcha?s >

    Скорее всего, по пути /image_captcha вообще ничего не должно индексироваться — независимо от параметров. Поэтому можно просто заблокировать целиком весь этот путь для индексации:

    Спасибо! Прописал в роботс, проверил несколько ссылок в вебмастере, пишет, что страница запрещена к индексированию.

    Как проиндексировать сайт в Яндексе, Google и других поисковиках

    Индексирование сайта — что это и для чего необходимо?

    Индексация сайта в поисковых системах — необходимое условие его видимости при поиске в интернете. Если просто создать сайт и не заботиться о его индексации, скорее всего, на него смогут попасть только те, кто знает непосредственный адрес домена.

    Индексирование — это процесс считывания страниц сайта роботом той или иной поисковой системы с последующим добавлением данных страниц в базу поисковой системы

    Краулеры с некоторой периодичностью обходят страницы сайта, считывая

    • Метаданные;
    • Контент;
    • Внутренние и внешние ссылки;
    • Ответ сервера;

    И множество других данных.

    Благодаря тому, что поисковая система узнаёт о сайте, она способна предлагать и продвигать его в результатах поиска. На основе контента, ссылок и ряда факторов определяется тематическая категория сайта, ключевые фразы, по которым он наиболее релевантен поисковым запросам.

    Таким образом, поисковая система предлагает пользователям страницы вашего сайта, максимально соответствующие их запросам.

    В то же время, не стоит возлагать больших надежд на продвижение сайта в выдаче. Ведущую роль здесь играют не настройки обхода страниц, а поведенческие факторы .

    Индексация всего лишь способствует актуализации материалов сайта. Благодаря этому страницы и их содержимое, во-первых, попадают в поисковую выдачу с наименьшей задержкой. А, во-вторых, постоянно обновляются.

    Как эффективно проиндексировать сайт

    Чтобы сайт как можно быстрее начали индексировать поисковые системы, его надо добавить в базу поисковиков через инструменты для вебмастеров.

    Добавьте сайт в Яндекс.Вебмастер

    Простой ответ на вопрос «Как проиндексировать сайт в Яндексе?» — добавить его в Вебмастер.

    Для начала, заведите личный кабинет в сервисе и добавьте сайт в главном меню по адресу https://webmaster.yandex.ru/sites/add/ .

    На следующем шаге скопируйте код подтверждения и добавьте его в исходный код главной страницы сайта в раздел .

    Для повышения точности данных привяжите Яндекс.Метрику к сайту в пункте Настройки -> Привязка к Яндекс.Метрике . Информацию из Метрики робот будет использовать при обходах.

    Чтобы проверить, проиндексированы ли какие-то страницы на текущий момент, перейдите в меню Индексирование -> Проверить статус URL .

    В том же меню есть информация о том, когда и с каким результатом робот обходил страницы, какие из них есть в поиске, а также функция добавления Sitemap, запуска переобхода и настройки скорости обхода.

    Добавьте сайт в Google Search Console

    Перейдите на https://search.google.com/search-console/welcome и войдите в учётную запись. Добавьте сайт в систему.

    Как и в Яндекс.Вебмастере, инструмент предлагает множество отчётов о состоянии индексации сайта. Вы может увидеть, какие страницы проиндексированы и добавлены в поиск, внутренние и внешние ссылки и многое другое.

    При этом, если Яндекс автоматически обнаруживает файлы Sitemap и имеет гибкие настройки переиндексации, то у Google Search Console с этим возникнуть проблемы. Иногда он не может найти файлы Sitemap и их обязательно нужно загрузить вручную. Настройки повторного обхода страниц после обновлений не так удобны — сперва необходимо проверить конкретный URL, а лишь затем появится кнопка Запросить индексирование .

    Добавление сайта в прочие поисковые системы

    В российском сегменте интернета доля поисковых систем помимо Яндекса и Google стремится к нулю. Тем не менее, не следует ими пренебрегать, если сайт является важным имиджевым элементом крупного проекта или организации.

    Рамблер основан на тех же данных индексации, которые собирает Яндекс — в этом случае нет необходимости в дополнительных настройках.

    Mail.ru, в свою очередь, пока располагает своим кабинетом для вебмастеров https://webmaster.mail.ru/ . В нём предусмотрен минимальный набор управления и отслеживания индексации в системе.

    Как ни странно, в определённый момент Bing, принадлежащий Microsoft, поглотил поисковый движок Yahoo, объединив помимо прочего их сервисы для вебмастеров под вывеской https://www.bing.com/toolbox/webmaster/ .

    Как ускорить индексацию сайта в поисковиках

    Создайте файл robots.txt

    Файл robots.txt даёт поисковым роботам указание — какие страницы и разделы сайта следует читать, а какие — нет.

    На сайте всегда присутствуют технические страницы — в частности, результаты поиска, этапы регистрации, системные файлы, теги и подобное. Также со временем может скопиться некоторый объём неактуальных страниц — контент на них может быть устаревшим или наоборот, он ждёт публикации не ранее назначенной даты.

    Для запрета индексации определённых разделов они прописываются в robots.txt. Благодаря настройке файла содержимое страниц будет релевантным запросам и полезным, а вы меньше рискуете получить санкции со стороны Яндекса и Google. Проверьте само наличие robots.txt и его синтаксис. Например, Яндекс.Вебмастер делает это в разделе ИнструментыАнализ robots.txt .

    Создайте и загрузите файлы Sitemap.xml

    Файл sitemap.xml — это «гид» для поискового робота. Он указывает, какие страницы есть на сайте. С помощью таких файлов Яндекс и Google тратят меньше времени на обход сайта, однажды читая его структуру.

    • Во-первых, укажите путь к файлу в robots.txt. Это позволит роботу быстрее найти файл и ознакомиться со схемой сайта.
    • Добавьте файл в Яндекс.Вебмастер и Google Search Console.
    • Также ознакомьтесь с функцией создания динамического sitemap.xml.

    Сделайте внутреннюю перелинковку

    Внутренняя перелинковка — это проставление ссылок между страницами вашего сайта. Например, для интернет-магазина это может быть подробная навигация, при которой на каждой странице товара указаны ссылки на разделы и подразделы, составляющие путь к нему.

    В хорошем блоге материал в статьях содержит ссылки на более ранние статьи, подробнее раскрывающие рассматриваемые вопросы.

    В отличном блоге ранние статьи содержат ссылки на поздние. Возвращаясь к ним и добавляя ссылки из свежего материала, вы улучшаете параметры индексации и ранжирования страниц.

    Поддерживайте актуальность и уникальность контента

    Касается как перелинковки, так и непосредственно текстов на сайте.

    Создавая вторичное наполнение или контент, не отвечающий запросам пользователей, владельцы сайтов ухудшают параметры ранжирования и индексации.

    Более важно регулярное обновление материалов на страницах. Постоянно размещайте новый контент — тогда поисковики чаще будут совершать индексацию.

    Полезно разместить заголовки Last-Modified и If-Modified-Since, чтобы старые страницы посещались краулерами после обновлений.

    Расширяйте ссылочную базу

    Поисковики положительно относятся к сайтам, на которые даны ссылки с других доменов — и чем авторитетнее таковые, тем выше авторитет самого сайта.

    Наработайте базу ссылок с более крупных ресурсов, в том числе, из соцсетей. Тот же Яндекс учитывает ИКС (Индекс Качества Сайта) при сборе внешних ссылок.

    Возможные проблемы с индексацией

    Разного рода ошибки и угрозы могут отрицательно сказаться на индексации сайта, вплоть до бана.

    Иногда поисковые системы устанавливают запрет на обход сайтов.

    Чтобы избежать санкций, регулярно уточняйте наличие проблем.

    Яндекс.Вебмастер имеет целый раздел Диагностика , в котором подробно расписаны несколько видов угроз по степени влияния:

    • Фатальные проблемы;
    • Критичные проблемы;
    • Возможные проблемы;
    • Рекомендации.

    Для всех расписаны критерии оценки и подсказки по устранению.

    В подразделе Безопасность и нарушения отображаются проблемы, связанные с вирусами и вредоносным кодом.

    Система покажет, откуда сайт получил заражение и что именно следует исправить. После исправления вы можете запустить переобход страниц.

    Как удалить страницы из индекса поисковых систем? Какие страницы нужно удалить из выдачи? Зачем?

    Исходя из задач поисковой оптимизации, в поисковых системах Google и Yandex должны находиться не все страницы сайта.

    Как удалить страницы из поисковой выдачи?

    Зачем удалять страницы?

    Какие страницы следует удалить из поисковых систем?

    Разберемся с вопросами далее.

    Как удалить страницы из поисковой выдачи Google и Yandex?

    Есть различные способы, применяя которые можно удалить страницы из индекса поисковых систем. Но есть важные нюансы.

    Главные способы такие:

    1. Директива noindex. Применение данной директивы допустимо в метатегах и HTTP-заголовках. Директива noindex является наиболее эффективным способом удаления страниц из индекса, если сканирование страниц разрешено в принципе;
    2. 404 и 410 HTTP коды ответа сервера.
    3. Директива Disallow в файле robots.txt. Есть важный нюансы. Ошибка с использованием директивы disallow зачастую приводит к проблемам с ранжированием;
    4. Защиты паролем;
    5. Google Search Console Remove URL. Инструмент является простым и быстрым способом удалить страницу из результатов поисковой выдачи. Но есть нюансы;

    Способ 1 — Noindex

    Директива noindex поддерживается поисковыми системами только в тех случаях, если запись прописана в метатеге и/или HTTP-ответе страницы.

    Ранее применение директивы допускалось в файле robots.txt. Но стандарт Robots Exclusion Protocol был изменен и теперь использование директивы в файле является недопустимым.

    Рекомендованный материал в блоге MegaIndex по теме robots.txt по ссылке далее — Google обновляет правила для robots.txt. Что изменится и что делать?

    На практике для запрета индексации следует использовать метатег robots. Например, если для сайта indexoid требуется запретить индексацию страницы, то на страницах подлежащих запрету следует использовать такой код:

    Если требуется запретить индексацию страницы применяя для этого HTTP-заголовок, то в коде ответа сервера следует указать следующее:

    Пример кода ответа сервера:

    HTTP/1.1 200 OK
    Date: Tue, 25 May 2010 21:42:43 GMT

    Как результат, поисковая система удалит страницы из индекса после следующей итерации краулинга.

    Способ 2 — 404 и 410 HTTP коды ответа сервера

    Как инструмент для запрета индексации можно использовать 404 и 410 HTTP коды ответа сервера.

    Оба кода означают, что страница не существует:

    • 404 Not Found/Страница не найдена;
    • 410 Gone/Страница удалена.

    Рекомендованный материал в блоге MegaIndex по теме процесса краулинга по ссылке далее — Google обновил поисковый краулер. Что изменилось? Как это повлияет на ранжирование?

    Поисковые системы такие как Google и Yandex удаляют такие страницы после повторного краулинга и обработки.

    Способ 3 — Disallow в файле robots.txt

    Директива Disallow поддерживается стандартом Robots Exclusion Protocol.

    Применяя данную директиву можно задать список страниц, которые поисковому краулеру следует игнорировать, то есть не посещать.

    Но есть важный нюанс.

    Несмотря на запрет директивы Disallow, страницы сайта все равно могут быть добавлены в индекс, если на такие страницы есть ссылки с других страниц. Данная информация является проверенной на практике.

    В результате такой подход является неэффективным.

    Итак, директива Disallow используется для указания ссылок на страницы, которые не должны быть проиндексированы, но контент все же может попасть в индекс. К примеру, в случае наличия любых открытых ссылок на закрытые страницы с других страниц.

    Способ 4 — Защита страниц паролем

    Защита страницы паролем не позволяет поисковой системе получить доступ к содержанию страницы сайта.

    Такая защита обычно используется для ограничения доступа к разделам сайта, которые доступны по модели платной подписки.

    Поисковые системы индексируют страницы защищенные паролем, на зачастую удаляют такие страницы из индекса.

    Способ 5 — Google Search Console Remove URL

    Инструменты от поисковых систем позволяют исключить страницы из индекса, но есть нюансы.

    Применяя инструменты поисковых систем страницы сайта можно исключить из индекса, но на временной основе.

    Значит в перспективе такие страницы будут проиндексированы снова.

    Еще данный способ требует подтверждения прав на сайт, поэтому не всегда удобно использовать такой инструмент. В частности такой способ усложняет работу, если речь про частную сеть сайтов.

    Ссылка на инструмент Google — Google URL Removal.

    Применяя данный инструмент на практике удалить страницу сайта можно как из индекса, так и из кеша поисковой системы.

    Какие страницы следует удалить из поисковой выдачи? Для достижения каких целей такие страницы следует удалить из индекса поисковой системы?

    Какие страницы следует удалить из индекса? Зачем?

    Из поисковых систем Google и Yandex следует удалить все ненужные страницы.

    Под ненужными страницами подразумеваются страницы, по которым не планируется привлечения трафика из поисковой выдачи.

    Зачем удалить страницы? Есть ряд причин для таких действий.

    Например, цели могут быть следующие:

    • Улучшение хостовых поведенческих факторов на поисковой выдаче.
    • Скрытие анкет пользователей и защита от парсинга клиентской базы или e-mail;
    • Безопасность;
    • Удаление из индекса страниц копий;
    • Замена сайта. Например, при регистрации освобожденного доменного имени для последующего создания на нем нового сайта;
    • Повышение релевантности контента сайта в отношении тематики;

    Что такое хостовые факторы на поисковой выдаче? В алгоритмах поискового ранжирования используются различные данные, включая данные о действиях пользователей на выдаче. Информация об этом следует из практики и патентов поисковых систем.

    Итак, под хостовыми факторами на поисковой выдаче подразумеваются такие факторы как:

    • Среднее значение СTR страниц;
    • Среднее значение Dwell Time;
    • Прочее.

    Рекомендованный материал в блоге MegaIndex на тему патентов Google по ссылке далее — Google запатентовал поведенческие факторы: что нужно знать и что делать?

    Что такое Dwell Time? Рекомендованный материал в блоге MegaIndex по теме Dwell Time по ссылке далее — Dwell Time (Длина клика) — что это за фактор ранжирования и как его оптимизировать?

    Итак, если в поисковой выдаче находится множество страниц по которым не бывает кликов, то значение хостовых факторов на поисковой выдаче занижается.

    Если в поисковой выдаче находятся только те страницы, которые должны привлекать трафик, то значение хостовых факторов на поисковой выдаче будет выше.

    На открытых к индексации страницах сайта следует провести комплекс мер по улучшению сниппетов. Инвестиции в оптимизацию сниппетов проводят к повышению метрики кликабальности и улучшению поведенческих факторов на выдаче.

    Идеи по созданию кликабельных сниппетов можно подсмотреть у конкурентов, или у компаний с большими бюджетами на маркетинг. Например, если вы продвигаете автосалон в регионе, вы можете посмотреть как сделаны сниппеты на сайте московского автосалона.

    MegaIndex индексирует сниппеты всех сайтов в интернете и предоставляет пользователям собранные данные о сниппетах всех сайтов в сервисе анализа сниппетов.

    Пример использования сервиса:

    Вопросы и ответы

    Через какое время страницы будут удалены из поисковой выдачи?

    Страницы будут удалены после переиндексации. Иными словами, после визита краулера и дальнейшей обработки страниц поисковой системой.

    На практике переиндексацию можно ускорить.

    Рекомендованный материал в блоге MegaIndex по теме индексации по ссылке далее — Как добавить страницы сайта в поисковую выдачу? Нестандартные способы.

    Следует ли удалять из поисковой выдачи дубли страниц?

    Следует удалить копии страниц.

    Дубли страниц из поисковой выдачи удалять не следует.

    В чем разница между дублем и копией страницы?

    Google различает дубликаты (duplicate) и копии (copy) контента.

    Сайты с копиями подвергаются санкциям от поисковой системы.

    К скопированному контенту относятся все виды контента с уникализацией. Например:

    • Spinning content;
    • Контент с заменой слов (если заменить в тексте слово «найти» на «поиск», то контент останется копией);
    • Контент содержащий набор копий из разных источников;
    • Страницы копирующие контент с динамических страниц.

    Дубликаты не подвергаются санкциям и даже могут ранжироваться выше за оригинал.

    Дубликатом считается скопированный контент, но с добавочной ценностью.

    Выводы

    Какие страницы не должны находиться в индексе поисковых систем? В индексе не должны находиться ненужные страницы. Зачастую в индексе находятся различные страницы, по которым не планируется привлечение трафика. Такие страницы являются ненужными.

    Почему в индексе поисковых систем должны быть не все страницы? Есть различные причины. Как пример, исключение ненужных страниц позволяет улучшить релевантность сайта, удалить копии, улучшить поведенческие хостовые факторы на выдаче.

    Как удалить ненужные страницы из индекса? Есть 5 основных способов для удаления страниц из поисковой выдачи:

    • Директива noindex;
    • Коды ответа сервера 404 и 410;
    • Директива Disallow;
    • Защита страниц паролем.
    • Инструменты поисковых систем.

    В чем разница? Какие способы являются наиболее эффективными? Итак, есть ряд способов для удаления страниц из индекса. Но есть нюансы, ввиду которых некоторые способы по удалению страниц из выдачи различаются по эффективности.

    Директива Disallow указывает поисковому краулеру на то, что в индексации контента нет необходимости. Такие страницы все равно могут быть проиндексированы. Например, в случае наличия ссылок на такие страницы с других страниц.

    Итак, использование директивы Disallow в файле robots.txt для скрытия страниц сайта, которые находятся в разработке является ошибкой. Скрытые страницы все равно могут попадать в индекс поисковых систем.

    Защита страниц паролем является эффективным способом, но создает сложности для пользователей.

    Инструменты поисковых систем Google и Yandex позволяют быстро удалить из индекса страницы сайта, но страницы вновь появятся в индексе после следующей волны индексации.

    Наиболее эффективными способами для удаления URL из поисковой выдачи являются такие — директива noindex и 404, 410 коды ответа сервера.

    Размещение директивы noindex допускается в метатеге и HTTP-заголовке X-Robots-Tag. Директиву следует размещать на каждой странице, которая подлежит исключению из индекса.

    Применение директивы noindex и/или кодов ответа сервера 404 и 410 позволяет исключить страницы из поисковой выдачи сразу после следующей волны индексации. Статус коды 404 и 410 не указывают на запрет индексации как таковой, но позволяют исключить страницы из индекса Google и Yandex.

    Мусорные страницы следует удалить из поисковой выдачи, так как наличие таких страниц в индексе приводит к ряду проблем при продвижении сайта. Например, к занижению поведенческих факторов на выдаче, что приводит к занижению хостовых факторов и сказывается на ранжировании.

    Остались ли у вас вопросы, замечания или комментарии по теме удаления страниц из индекса поисковых систем?

    Удаляем страницу или раздел сайта с поиска Google

    Я думаю, что многие знакомы с поисковой системой Google. Но вот мало кто знает алгоритм ее работы. Сам по себе Google, в отличие от Яндекса, с удовольствием индексирует сайты, причем даже те разделы, которые запрещены для индексации в файле robots.txt.

    Поясню: если вы запретили в файле robots.txt индексирование той или иной страницы вашего сайта, то Гугл не будет этого делать согласно указанным правилам, но и ссылку на страницу в поисковой выдаче он тоже не удалит. То есть ее упоминание все равно будет присутствовать в поисковой системе.

    Мой сайт тоже не стал исключением – я обнаружил несколько страниц, запрещенных к индексированию в файле robots.txt, но находящихся в поисковой выдаче. Как же быть в таком случае?

    Удаление страниц и разделов с поиска Google

    У Гугла существует сервис для веб-мастеров, который называется «Search Console». Чтобы не бороздить просторы интернета, найти этот сервис вы сможете тут. Именно с помощью его вы можете временно удалить нужную вам страницу или раздел из результатов поиска Google.

    1. Прежде чем начать удаление страниц, вам необходимо авторизоваться в сервисе.

    2. Далее необходимо добавить ваш сайт в панель управления и подтвердить права на него. Для этого будет предложено несколько вариантов, самые удобные из них – файл и meta-тег.

    3. После того как сайт успешно добавлен (если возникли трудности с добавлением – пишите в комментариях), мы наблюдаем такую картину:

    Здесь вам необходимо кликнуть по домену, после чего откроется меню с дополнительными разделами.

    4. В этом меню нас интересует раздел «Индекс Google» пункт «Удалить URL-адреса».

    5. Здесь надо нажать «Временно скрыть» и ввести нужные URL для скрытия.

    Но почему можно лишь временно скрыть или временно удалить? Все довольно просто: если при переобходе сайта удаленные страницы вновь доступны для индексации, то они попадут в поисковую выдачу.

    Как же быть в таком случае?

    Запрет Google на повторную индексацию удаленных страниц

    Для решения этой проблемы существует несколько способов.

    1. Meta-тег. Тут все просто – на нужном разделе или странице между тегами прописываете meta-тег:

    При его наличии страница больше не будет индексироваться. Но сам Google говорит, что это не самый лучший метод (что странно, поскольку у меня все сработало).

    2. Страница должна возвращать код ошибки 404 (Не найдено) или 410 (Удалено). Тут не обязательно удалять вашу страницу, а просто прописать код в самом верху страницы на нужных вам разделах:

    3. Запретить доступ к контенту, например, установив пароль на страницу. Как это сделать, мы рассмотрим в отдельной статье.

    Как проверить наличие страницы вашего сайта в Google?

    Для этого в поиск Google вставьте:

    где your_site.ru/page.html – это страница или раздел вашего сайта.

    Стоить заметить, что удаление страниц из поисковой выдачи – процесс не быстрый, так что наберитесь терпения.

    Почему сайт не индексируется в поисковых системах Яндекс и Google

    Форумы вебмастеров пестрят грустными постами по поводу того, что сайт плохо индексируется поисковыми системами. А ведь это основа SEO-продвижения, без которой популяризация интернет-ресурса практически невозможна.

    Обидней всего, когда над созданием web-проекта трудился дорогостоящий программист, а на его наполнение контентом ежемесячно тратится внушительная сумма.

    Однако Яндекс и Гугл не спешат индексировать отдельные страницы или даже целый сайт. Почему так происходит?

    На этот вопрос нет однозначного ответа: существует множество причин.

    Важно выявить конкретную проблему (технические ошибки, дубляж страниц, нестабильную работу хостинга или санкции поисковиков) и сделать все для ее решения. Есть хорошая новость — ситуацию можно исправить. Хотите, знать как? Читайте дальше!

    Нормы индексации сайтов

    В Яндекс

    Yandex сканирует и добавляет новые страницы примерно два-четыре раза в месяц. Попасть в поисковую выдачу раньше способны лишь трастовые и часто обновляемые порталы — внушающие доверие сайты индексируются быстроботом Яндекса ежедневно.

    В Google

    Что касается Гугла, обновления могут занять от одного дня до двух недель. Здесь многое зависит от категории вашего сайта. Например, ресурсы с актуальными новостями и живые форумы роботы проверяют с завидной регулярностью.

    Материалы часто обновляемых порталов обычно сканируются в тот же день или на следующий. Индексация блога, в котором каждую неделю появляется новый контент, нередко задерживается на 2–4 дня.

    Совсем печально обстоит дело с третьесортными сайтами, а также совсем молодыми веб-проектами, только что появившимися в Сети. Поисковые роботы могут игнорировать их в течение месяца.

    Важно! Вышеописанные данные актуальны при добавлении малого количества страниц в индекс. При добавлении большого количества страниц одномоментно, скорость индексации может увеличиться в несколько раз.

    Особенно долго будут индексироваться страницы с малой ценностью для посетителей.

    Что делать, если новый сайт не индексируется поисковиками?

    Под это определение подходит ресурс с возрастом домена до полугода, который не имеет обратных ссылок и ранее не продвигался.

    Добавить сайт в панели вебмастеров

    Вы только что создали сайт и ждете чуда под названием «быстрая индексация»? Такая стратегия ошибочная, ведь в первое время Гугл и Яндекс не обращают на новый сайт внимание. Помогите своему проекту заинтересовать роботов — сделать это достаточно просто: надо лишь добавить сайт в поисковые системы.

    Важно! Использование сервиса Яндекс. Вебмастер и Google Webmaster не только ускорит добавление страниц в индекс, но и позволит эффективнее работать над оптимизацией сайта. Представленные инструменты бесплатно открывают вебмастерам множество возможностей для диагностики, получения рекомендованных для продвижения запросов и привязки сайта к конкретному региону.

    Улучшить сайт

    Пора заняться внутренней оптимизацией: систематически создавать первоклассный контент, улучшить юзабилити, сделав удобные рубрики, а также позаботиться об адаптивности и перелинковке. После этого следует задуматься о внешнем продвижении. Оно включает в себя работу с социальными факторами и размещение естественных ссылок у надежных доноров.

    Если сайт все так же не индексируется Яндексом, необходимо написать в техническую поддержку поисковика. В результате вашего запроса вы получите информацию о наличии бана, фильтра или установите другую объективную причину возникшей проблемы.

    Как проверить индексацию сайта?

    Используйте в запросе оператор Site

    Узнайте количество просканированных и добавленных в индекс страниц путем введения в строку поиска Гугл и Яндекс «site: url вашего сайта». Благодаря дополнительным настройкам легко получить данные о произошедших за конкретный промежуток времени изменения.

    К примеру, сегодняшняя проверка российской версии Википедии показала, что за последние 2 недели на этом сайте появилось 143 новых материалов.

    Учтите! Разница между показателями разных поисковых систем является поводом для тревоги. Чаще всего это свидетельствует о возможном попадании под фильтр Гугла или Яндекса.

    Введите в поисковик url страницы

    Этот способ идеален для проверки индексации отдельно выбранной страницы.
    Для Google

    Для Яндекс

    Через панель вебмастеров

    Если вы ранее уже зарегистрировались в Яндекс. Вебмастер, то при переходе на данный сервис сразу увидите число загруженных материалов и тех, что находятся в поиске. В идеале их количество должно совпадать или быть похожим на реальное количество страниц сайта.

    Более детальную информацию вы получите при переходе на основную панель, после чего необходимо нажать «Индексирование» и «Страницы в поиске».

    Анализируя полученный отчет и ищите страницы, которые не индексируются.

    В новом Google вебмастере также есть инструмент для анализа индексации.

    С помощью Key Collector проверяем индексацию большого количества страниц

    Скачанный и установленный на компьютере многофункциональный инструмент облегчит работу любому оптимизатору. Он позволяет автоматизировать процесс, значит, вам не придется вручную проверять сотни, а то и тысячи документов.

    Чтобы воспользоваться этим методом, требуется собрать парсером список всех страниц, а затем добавить перед каждым адресом оператор url для Google или info для Яндекс. Хотите сэкономить время и нервы — воспользуйтесь для этого автозаменой в блокноте. Дальше надо загрузить полученные данные в Key Collector, не забыв о настройке XML для быстрого анализа результатов.

    Также, нужно настроить правильно поисковые системы, для корректного парсинга. URL лучше добавлять без смены регистра.
    У проиндексированных материалов в графе «Позиция по запросу» будет стоять единица. Сверьте ваш URL со страницей на первом месте. Они должны совпадать.

    Это метод не идеален, но имеет право жизнь.

    Как решить проблемы индексации?

    Вариант 1: Сайт долго не индексируется, роботы не видят свежие материалы — в индекс попадает мало новых страниц, процесс осуществляется медленно.

    Узнайте далее, что может быть причиной столь плачевной ситуации.

    Редкое обновление контента

    Для SEO-продвижения нужно вовремя подкармливать роботов новой порцией качественного контента, тогда они будут чаще заходить на ваш сайт. Причем на поведение поисковиков положительно влияют даже незначительные улучшения старых статей в виде более удачных иллюстраций, обновлений даты публикации или добавления цитаты эксперта.

    А вот если робот приходит и видит, что за период его последнего посещения ничего не изменилось, сайт не будет нормально индексироваться в будущем. Более того, ждите ухудшения позиций в выдаче: ресурс, остановившийся в развитии, опережают конкуренты.

    То есть

    Если вы публикуете не регулярно — это может быть причиной. Если это не ваша ситуация, то читайте далее.

    Плохое качество контента

    За последние годы и читатели, и роботы стали более требовательными к размещенной в Рунете информации. Важную роль играет не только техническая, но и смысловая уникальность / полнота статей, картинок, видео.

    При этом ключевые слова должны вписываться в текст естественно, а за переспам есть шанс попадания под фильтры поисковиков.

    То есть

    Если публикуемый контент малополезен или состоит из 100 слов, то вряд ли он попадет в индекс. Необходимо менять подход к написанию контента или качеству страниц.

    Заинтересованы в генерации отличного контента?

    Возьмите на вооружение LSI-копирайтинг, который сейчас в почете у поисковых систем. При качественном оформлении, полном раскрытии темы с использованием ключей и списка дополнительных синонимов, ассоциаций вам не придется беспокоиться о том, что страница не будет индексироваться в поисковых системах.

    Наличие дубликатов

    Секретом успешной технической оптимизации является отсутствие одинаковых мета-тегов и текстов; полных копий страниц. Если таковые имеются, закройте лишние данные от индекса при помощи meta name=«robots» content=«noindex, nofollow» или пропишите на них 301 редирект.

    В противном случае поисковики запутаются в похожих документах и удалят их из выдачи.

    Проблемы с краулинговым бюджетом

    Существует определенный лимит на количество страниц, индексируемых роботом за единицу времени.

    Краулинговый бюджет Google напрямую зависит от PageRank ресурса. Чем выше данный показатель, тем большее число документов будет проиндексировано. Соответственно, для масштабных сайтов крайне важно повышать критерий своей ценности путем регулярных обновлений, увеличения посещаемости и приобретения ссылок. Иначе некоторые страницы могут не индексироваться в Гугле.

    То есть

    Если сайт молодой, то у него низкий краулинговый бюджет. И если вы хотите проиндексировать большое количество страниц, то эта процедура может занять на порядок больше времени.

    Технические нюансы для ускорения сканирования

    Добавление sitemap.xml

    Эта карта, созданная для поисковых систем, дает роботам возможность быстро найти все страницы, независимо от их числа и уровней вложенности. Кроме того, она повышает доверие к вашему сайту, позволяет указывать дату обновления и расставлять приоритеты.

    Алгоритм действий следующий: сгенерируйте sitemap.xml с учетом стратегии продвижения, загрузите карту в корень сайта и добавьте в панели вебмастеров.

    Обновление http-заголовков Last-Modified и If-Modified-Since.

    Last-Modified сообщает поисковикам о последних изменениях в документе, направляя роботов сразу к обновленным страницам и свежим материалам.

    Ответ сервера на запрос If-Modified-Since снижает нагрузку на краулинговый бюджет, к тому же улучшает позиции контента при сортировке по дате.

    Вариант 2: Сайт вообще не индексируется в Яндексе и Гугле, страницы выпадают из индекса.

    Код ответа сервера

    Убедитесь, что страница содержит код сервера 200 ОК — это означает: она действительно существует, доступна к просмотру для пользователей и поисковых систем.

    Проверка осуществляется при помощи специальных сервисов.

    Например, http://www.bertal.ru/index.php?a1910327/
    Если код ответа не 200 ОК, то именно в этом может быть причина не индексации страницы.

    Robots.txt

    В файле robots.txt недопустимы запреты на индексацию сайта и отдельных страниц, а также работу конкретного поисковика.

    Важно! Обязательно проверьте сформированный robots.txt на ошибки. Сделать это можно в Google Вебмастер: нажмите на «Сканирование», а затем на «Инструмент проверки файла robots.txt».

    Meta Robots

    Часто сайт не индексируется в Гугле, если добавление сведений в базу данных запрещено в мета-тегах. Обязательно удалите в HTML-коде строкии если они есть на важных страницах.

    Чтобы проверить откройте код страницы и сделайте поиск строки.

    Либо используйте плагины для браузера, такие как расширение Seo Meta in 1 Click для Google Chrome.

    Rel Canonical

    Многие неопытные оптимизаторы неверно настраивают атрибут rel=canonical.

    Хотите, чтобы страница попала в индекс поисковика? Тогда она не должна ссылаться на другой канонический документ.

    Чтобы проверить откройте код страницы и сделайте поиск строки.

    Либо через тот же плагин

    Вебмастера

    Используйте Google Webmaster Tools для выявления ошибок сканирования, из-за которых роботы не получают ответы на запросы.

    Перейдите в раздел «Просмотреть как Googlebot» введите адрес страницы, и нажмите кнопку «Получить и отобразить».

    Когда получите результат, сравните, что видит Google и пользователь. Картинки должны быть одинаковыми. Если нет, то ищите причины блокировки файлов.

    Протестируйте скорость загрузки и время ответа сервера. Убедитесь, что выбранный вами хостинг работает стабильно.

    Файл .htaccess

    Если сайт не индексируется, он может быть заблокирован в файле .htaccess.

    Проверьте .htaccess на наличие таких строк:

    RewriteCond % Googlebot
    RewriteRule.* — [F]

    Либо такой вариант, который будет отдавать роботу Google 404 ошибки.

    RewriteCond % Googlebot
    RewriteRule.* — [R=404]

    Поищите в файле другие варианты блокировок с использованием USER_AGENT или названия поисковых ботов: googlebot, yandex и т. д.

    AJAX и JavaScript

    Распространены проблемы с языками AJAX и JavaScript. Блог Яндекса для вебмастеров рекомендует создать в структуре ресурса определенную схему, которая сообщит поисковым системам о необходимости индексации.

    Санкции

    Еще одна серьезная проблема — наложение санкций на страницу или даже весь сайт. Узнайте в техподдержке поисковой системы (только Яндекс), за что именно (ссылки, переспам, неуникальный контент) вас наказали, после чего оперативно исправьте ситуацию.

    Как уже говорилось ранее, причиной отсутствия внимания к странице часто является низкокачественный и дублированный контент.

    Вряд ли робот будет заинтересован в ваших материалах, если в выдаче уже имеются похожие документы, продвигаемые по тому же семантическому ядру.
    Негативно влияет на скорость индексирования незрелый возраст домена, а также забаненный ранее б/у домен. В таком случае стоит написать запрос на пересмотр в Яндекс.

    Итоги

    Если сайт не индексируется Яндексом или Гуглом, значит, на то есть объективная причина. Ваша цель — выявить и решить проблему. Спустя некоторое время необходимо снова проверить индексацию страницы. Если вы все сделаете правильно, положительные изменения не заставят себя долго ждать!

    Если у вас сложный случай, рекомендую обратиться за консультацией к специалистам. Команда Livepage проконсультирует и выполнит SEO-аудит, который решит все проблемы с индексацией в поисковых системах.

    Google уберет URL-адреса из поисковой выдачи?

    Судя по всему, Google проводит очередной эксперимент со своей поисковой выдачей. На этот раз популярнейшая поисковая система убрала URL-адреса сайтов со страницы результатов поиска.

    Как видно из приведенного выше скриншота результаты поисковой выдачи Google действительно не содержат привычные для пользователей URL-адреса, выделенные зеленым цветом со стрелкой.

    При этом стоит отметить, что Google довольно часто тестирует различные изменения в интерфейсе поисковой выдачи. По словам представителей корпорации, поисковая система Google на протяжении каждого года проводит около 20 тысяч самых разнообразных экспериментов. Причем большинство из них остаются незаметными для обычных пользователей.

    Вполне возможно, что нынешнее изменение приведет к тому, что поисковая выдача Google станет менее информативной. Впрочем, отсутствие URL-адресов на странице результатов поиска многие пользователи могут и не заметить.

    В такой ситуации сниппеты, которые и до нынешнего момента имели довольно большое значение, становятся еще более важным элементом. Вместе с тем не стоит забывать о том, что Google пока всего лишь экспериментирует. Это еще не значит, что нынешнее нововведение будет внедрено в работу на постоянной основе.

    Топ-пост этого месяца:  Темная тема приложения быстрая реализация с помощью переменных CSS
Добавить комментарий