В Google рассказали, кому и зачем нужен краулинговый бюджет


Содержание материала:

В Google рассказали, что такое краулинговый бюджет

Подпишись
на наши новости!

Заголовки новых статей для вас

  • Yandex28,06
  • Mail.ru Group27,15
  • Facebook150,33
  • Google932,22
  • Twitter18,61

Лучшие статьи

Спасибо, что следите за рынком Интернет-маркетинга с AdCrunch.ru

Мы очень ценим Ваше доверие

Нажмите «Нравится», чтобы читать нас в Facebook.

Спасибо, что следите за рынком Интернет-маркетинга с AdCrunch.ru

Мы очень ценим Ваше доверие

Нажмите «Подписаться», чтобы читать нас в Вконтакте.

Что такое краулинговый бюджет и как его можно увеличить

Определение и особенности краулингового бюджета

Про краулинг сайта известно, что это процесс считывания, также называемого сканированием, страниц ресурса пауками поисковиков с целью сбора информации для последующей индексации. В этой связи seo-специалисты оперируют двумя похожими взаимосвязанными терминами — краулинговый бюджет и краулинговый спрос. Познакомимся с определениями этих понятий и различиями между ними.

Краулинговым спросом называется число страниц веб-ресурса, включенных в своеобразный «список планов» поисковых роботов по сканированию с целью дальнейшей индексации.

Краулинговый бюджет — это максимальное число страниц ресурса, со сканированием которых боты поисковика способны справиться за конкретный отрезок времени.

Пожалуй, главная особенность любого бюджета — его ограниченность. Краулинговый бюджет не является исключением. Его необходимо учитывать для эффективного продвижения ресурса, если сайт имеет большое количество регулярно обновляющихся страниц (от 1000). Ведь усилия seo-специалиста и затраты владельца на его работу не принесут должного результата, если доступный краулинговый бюджет сайта не позволяет проиндексировать добрую половину важных оптимизированных страниц.

Влияние на оптимизацию краулингового бюджета собственного сайта

Информацию о текущем краулинговом бюджете легко посмотреть, например, в Google Search Console, проверив среднее количество просканированных ботами страниц за день во вкладке «Статистика сканирования».

Обновление сайта, наполнение его страниц интересным и полезным контентом, полностью раскрывающим тему, актуализация ранее размещенных статей, качественный визуальный контент — всё это повышает лояльность пользователей и популярность ресурса. В результате поисковые системы отмечают сайт как полезный и влияют на его более активное продвижение, в том числе с помощью дополнительного краулингового бюджета. Смысл такой симпатии со стороны поисковиков вполне понятен и оправдан: чем лучше сайт, тем больше внимания он заслуживает и тем больше возможностей следует ему предоставлять для общей пользы юзеров.

Рассмотрим основные и самые эффективные методы, позволяющие оптимизировать ресурс. Они положительно влияют на факторы, увеличивающие краулинговый бюджет, а также помогают настроить взаимодействие с поисковыми ботами, а, следовательно, получить большую выгоду.

Ускорение загрузки страниц ресурса

«Долгий» сайт не только заставляет пользователей искать конкурентные предложения, но и замедляет сканирование URL поисковыми ботами. Для улучшения скорости загрузки сайта следует:

  • отдать предпочтение качественному хостингу;
  • выполнить настройку кэширования;
  • оптимизировать размер графических элементов сайта и т.д.

Устранение битых ссылок

Ссылки, приводящие к несуществующим страницам или документам, в результате чего может выскакивать ошибка 404, способны отпугнуть пользователей. Вместе с тем они негативно влияют на поведенческие факторы и мешают нормальной работе поисковых ботов. При этом в пустоту выбрасывается краулинговый бюджет.

Для поиска битых ссылок рекомендуем использовать специальные плагины, программы или сервисы. Например, программу Netpeak Spider. С её помощью можно быстро и совершенно бесплатно найти «мёртвые» гиперссылки и в последующем удалить их с сайта.

Продуманная структура сайта

План размещения страниц сайта влияет на частоту (или полное отсутствие) их сканирования. Чем важнее страница, тем выше по уровню вложенности её необходимо располагать. «Умная» структура сайта помогает не только роботам, но и пользователям сайта, что в свою очередь благоприятно сказывается и на росте числа URL, которые боты готовы просканировать в заданный отрезок времени.

Настройка файлов robots.txt и sitemap

О том, зачем и как правильно настроить sitemap.xml и robots.txt мы подробно рассказывали ранее. Тщательная и грамотная проработка этих файлов важна и для целей оптимизации расхода краулингаового бюджета веб-сайта. Роботы Google и Яндекса далеко не всегда четко следуют нашим указаниям, но часто ориентируются именно на них. Поэтому своевременное закрытие «лишних» страниц позволит исключить их из списка сканирования, а открытие важных URL поможет роботам не пройти мимо.

Отказ от цепочек редиректов

Редиректы автоматически переадресуют пользователей на другой URL, а вместе с пользователями на другую страницу перемещается и краулер (поисковый скан-бот), расходуя немалую часть краулингового бюджета ресурса. Кроме того, слишком длинные цепочки вообще могут привести к тому, что робот не дойдёт до конечного URL. Во избежание всех этих неприятностей следует чистить ресурс от больших цепочек редиректов.

Проверить наличие цепочек редиректов можно также с помощью программы Netpeak Spider.

«Чистка» сайта

Регулярная проверка и удаление пустых, устаревших и «мусорных» страниц, а также избавление от дублей упростят жизнь сео-специалиста и владельца сайта, вместе с тем избавят ботов поисковиков от необходимости сканирования бесполезных некачественных страниц и траты на них краулингового бюджета.

Грамотная перелинковка между страницами

На небольших ресурсах проблем с перелинковкой обычно не возникает: связать 20-50 страниц между собой по смыслу не так сложно. Но для оптимизаторов крупных сайтов с несколькими сотнями и даже тысячами страниц в этом процессе могут возникнуть серьезные трудности, которые в итоге превращаются в неудобство для пользователей и, собственно, нецелевой расход краулингового бюджета.

Выводы

Итак, мы имеем возможность, а, значит, должны влиять на процесс взаимодействия собственного ресурса с поисковыми системами. Для этого существуют различные приемы, правильное применение которых помогает успешно контактировать с поисковыми роботами, превращая «общение» с ними в собственную выгоду. Используя все возможности, чтобы повлиять на рост краулингового бюджета сайта и добиться его оптимального расходования, можно положительно повлиять на индексацию и продвижение ресурса.

Узнайте еще больше фишек о продвижении собственного сайта на курсе SEO Рывок. А с промо-кодом «Сrawling-07-10» Вы получите дополнительный бонус на него.

Google подтвердил, что вызовы AJAX расходуют краулинговый бюджет

В январе 2020 года сотрудник отдела качества поиска Google Гэри Илш (Gary Illyes) опубликовал
документ для вебмастеров, в котором объяснил, как работает краулинговый бюджет.
Вчера он обновил этот пост, чтобы прояснить, что на вызовы AJAX также расходуется
бюджет.

JFYI: based on @ajkohn ‘s recommendation, i added AJAX/XHR calls explicitly to the list of things that will consume your site’s crawl budget. https://t.co/kVYj6XaNn0

«Как правило, любой URL, который сканируется роботом Googlebot, засчитывается в бюджет сканирования сайта. Альтернативные URL-адреса, такие как AMP или hreflang, а также встроенный контент, такой как CSS и JavaScript, включая вызовы AJAX (то есть XHR), тоже могут сканироваться и в таком случае будут потреблять краулинговый бюджет. То же самое касается длинных цепочек редиректов, которые также могут оказывать негативное влияние на сканирование», — говорится в документе.

Напомним, сотрудник Google Джон Мюллер считает, что значение краулингового бюджета и необходимости его оптимизации преувеличено. По его мнению, для большинства сайтов это не нужно, а заниматься этим имеет смысл только на действительно крупных ресурсах.

Краулинговый бюджет и как это работает

В данной статье я решил разложить по полочкам такое понятие как краулинговый бюджет и разобрать факторы, которые влияют на нормальное состояние и рост краулингового бюджета.

У каждого сайта свой краулинговый бюджет и посмотреть его можно на странице https://www.google.com/webmasters/tools/crawl-stats?hl=ru&authuser=1&siteUrl

Что такое краулинговый бюджет

Простыми словами говоря, это лимит страниц, которые поисковой робот Google например обойдет для Вашего сайта за один день. Для обычных блогов с этим как правило нет проблем, а вот для больших сервисов и порталов, где ежедневно публикуется и обновляется множество нового материала и все это роботам поисковых систем нужно обойти, часто возникают проблемы с индексированием.

Топ-пост этого месяца:  rel=shortlink не влияет на результаты сканирования веб-страниц

Владельцы порталов просто не понимают. Почему хороший и уникальный материал не попадает быстро в индекс, почему поисковые роботы его обходят стороной и не индексируют.

Ниже на скрине представлен краулинговый бюджет моего блога — Crawl Stats или статистика сканирование как это называется в Google. Он значительно просел в последнее время и на то есть свои причины. Буду работать над тем, чтобы увеличить этот показатель.

На скрине видно, что ежедневный краулинговый бюджет моего сайта составляет всего 83 страницы. Лучше ориентироваться именно на число в среднем т.к. низкий и высокий краулинговый бюджет это просто крайности.

Получается, что Если при правильно настроенной карте сайта sitemap.xml для первоочередного и повторного сканирования роботам поисковых систем должны предлагаться не более 83 страниц в сутки.

К этим страницам относятся все новые материалы, опубликованные на сайте, все изменения страниц по контенту, вроде новых комментариев или дополнения статей содержимым. Комментарии кстати учитываются именно встроенные в сам сайт, а не сторонние сервисы вроде формы комментариев от вконтакте.

Как увеличить краулинговый бюджет сайта

Ну во-первых как было сказано выше, у Вас должна быть хорошо настроена карта сайта sitemap.xml и файл robots.txt, ведь именно на них первым делом обращают свое внимание поисковые роботы, при посещения сайта. Именно из их содержимого они узнают что не надо индексировать и на что нужно обратить внимание и обойти в первую очередь.

Если спустя определенное время, после приведения в порядок этих файлов Вас все еще не устраивает результат по цифрам краулингового бюджета можете обратить внимание на такую штуку как параметр last-modified, о котором я напишу в отдельной статье.

Если говорить простыми словами, то настроив этот параметр у себя на сайта, При посещении страницы сайта поисковым роботом ему будет отдаваться код ответа сервера 304 — это означает что страницы не изменилась с момента последнего посещения и не надо ее повторно индексировать.

При это не растрачивается зазря единица краулингового бюджета и робот идет дальше по страницам в поисках новых или обновленных страниц. Это очень удобно использовать в крупных проектах.

В самом начале статьи, я говорил, что размер краулингового бюджета у всех сайтов разных. Связано это с тем, что каждый проект публикует разное количество материала на сайт ежедневно и краулинговый бюджет старается примерно построиться под эту цифру с небольшим запасом. К тому же и обновляется материал у кого-то по несколько раз на день, у кого-то раз в 3 месяца.

Создаваемые самим движком сайта, всевозможными фильтрами и прочими скриптами множество бесполезных страниц, которые еще и в карту сайта попадают, могут наоборот несколько подорвать краулинговый бюджет проекта и тогда заместо полезных страниц сайта в индекс будет попадать много ненужного мусора.

Поисковые роботы с легкостью могут оценивать качество таких страниц и на основе этого снижать лимит сканирования страниц для этого проекта — ибо не заслужили.

Что такое краулинговый бюджет в Google?

Под краулинговым спросом определяют число страниц, которые требуется просканировать поисковой системе, сообщает блог Canwas. Значение основывается на том, насколько сайт актуален при запросах.

Краулинговым бюджетом называют объединенный показатель краулингового спроса, а также уровня скорости при сканировании. Для поисковых систем это число URL, которые могут быть просканированы посредством Googlebot (здесь принимают во внимание как альтернативные URL, так контент, являющийся встроенным).

Влияют на это страницы низкого качества, а именно следует говорить о фасетной навигации; страницах, которые были взломаны или выдают ошибку-404, страницах-дубликатах и спаме, а также тех, на которых обнаружен бесконечный контент.

Если у сайта высокие показатели скорости, то это свидетельствует о качественной работе сервера. Сотрудники компании советуют не допускать большого количества ошибок у серверов, что указывается в соответствующих отчетах Search Console. Однако это не может в обязательном порядке способствовать тому, что сайт окажется выше на несколько позиций.

Директива «crawl-delay» и вовсе не обрабатывается Googlebot. Что касается директивы «nofollow», то ссылка с ней может быть просканирована, если на остальных страницах в сети она не отмечена таким образом.

Краулинговый бюджет: что это, как определить, повысить и оптимизировать

Краулинговый бюджет – это число страниц, которые краулер (робот поисковика) способен просканировать за определенный промежуток времени. Обычно seo оптимизаторы считают за сутки.

Например, если Googlebot за один день может обойти 30 страниц, то его краулинговый бюджет за месяц составит 900 страниц. Другими словами, это лимит документов, которые краулер собирается и может обойти на вашем сайте за один день.

Владельцев небольших сайтов данный вопрос вообще не должен беспокоить, а крупные веб-ресурсы и порталы, ежедневно пополняющиеся десятками новых страниц, могут страдать от того, что поисковые роботы просто обходят их стороной. Все потому, что они не успевают индексировать часто обновляющейся в большом количестве контент.

Как определить краулинговый бюджет?

Приблизительный краулинговый бюджет можно определить, посмотрев через логи сервера, как часто поисковый бот заходит к вам на сайт.

А так же через сервис Google Search Console и Яндекс Вебмастер. Где тоже можно увидеть примерную статистику посещений роботов ваш сайт.

Как повысить краулинговый бюджет?

На рост краулинговово бюджет влияет 3 фактора:

Увеличивая эти показатели, вы улучшаете краулинговый бюджет. И если на первых два фактора вы можете влиять самостоятельно, то третий фактор не зависит от вас.

Многие вебмастера считают, что увеличение краулингового бюджета зависит от частоты публикаций контента на сайте. Но это не совсем так, если вы будете ежесуточно публиковать по 100 статей в день, а три фактора которые мы описали выше не будут изменяться, то вы увеличите его несущественно. Так что это косвенный фактор, но никак не основной

Оптимизация краулингового бюджета

Бывает и такое, что краулинговый бюджет у сайта большой, но в связи с нерациональным использованием сайта, он тратится не на те ресурсы. В таком случае улучшить расход краулингового бюджета возможно несколькими путями.

Проверьте доступ ботов к документам

Естественно, краулеры могут попадать на ресурс и проходить по ссылкам внутри него лишь в том случае, если они не скрыты. Поэтому есть смысл заглянуть в robots.txt и .htaccess и настроить файлы так, чтобы все необходимые страницы находились в открытом доступе для ботов.

Если какие-то документы вы не желаете показывать поисковикам, пропишите соответствующие команды в robots и .htaccess. Но Google не всегда следует директиве disallow. Лучше применить мета-тег robots либо HTTP-заголовок X-Robots-Tag, прописав им значение noindex для запрета индексирования страницы. Более подробно, как это сделать читайте здесь.

Найдите и устраните недействительные ссылки

Битые ссылки тратят время краулингового бюджета на определение их недействительности, чтобы ощутить их влияние на краулинговый бюджет их конечно должно быть огромное количество. Но все же, лучше добиваться того, чтобы их не было даже в маленьком количестве на сайте.

Используйте редиректы разумно

На любую ссылку, перенаправляющую пользователя с одного сайта на другой, тратится краулинговый бюджет. Если ресурс содержит огромную цепочку из 301 или 302 редиректов, боты с большой вероятностью не дойдут до целевой страницы и не включат ее в индекс. Поэтому лучше уменьшить число переадресаций насколько это возможно, не применяя более двух подряд перенаправлений.

Минимизируйте использование мультимедийных файлов

Когда-то пауки Google не умели индексировать HTML, JavaScript и Flash. Сейчас такой проблемы у Googlebot нет, но еще далеко не все поисковики научились работать с каждым файлом мультимедиа. Лучше не популярные форматы мультимедиа не применять на важных страницах, от которых вы ожидаете высокие позиции в результатах выдачи.

Представители Google даже рекомендуют для таких файлов создавать аналоги в текстовом формате, чтобы его можно было с легкостью найти и занести в базу данных. Здесь вы найдете полный список файлов, индексируемых Google.

Настройте Sitemap

Карта сайта полезна не столько для пользователей, сколько для краулеров, так как облегчает поиск контента. Файл XML Sitemap должен содержать всегда актуальную информацию. Удалите отсюда все, что негативно сказывается на юзабилити сайта:

  • страницы с ошибками 4XX;
  • чрезмерное количество переадресаций;
  • лишние нерелевантные и скрытые от роботов URL.

Контролируйте динамические URL-адреса

Боты воспринимают динамические УРЛы, ссылающиеся все на одну страницу, как разные. Это ведет к перерасходованию краулингового бюджета. Не пренебрегайте данной проблемой. В Search Console в разделе Параметры URL есть функция настройки адресов. Тут можно указать поисковику, как именно генерировать URL с конкретным параметром, тем самым избежав повторную обработку одного и того же контента на ресурсе.

Структурируйте внутренние ссылки продуманно

Хотя внутренние ссылки и не сильно сказываются на сканировании, их правильная структура поможет паукам отыскивать материалы без лишнего расходования краулингового бюджета.

Топ-пост этого месяца:  Как удалить пустые строки в Notepad ++

Да и для пользователя хорошая структура внутренних ссылок явно ощущается, ведь так он сможет перейти на любую ключевую страницу ресурса всего в 2-3 клика. Благодаря этому посетитель будет проводить на сайте больше времени, что положительно скажется на поведенческих факторах и, как следствие, на ранжировании.

Применяйте фиды

XML, Atom и RSS-ленты позволяют отсылать пользователям новые публикации на почту – им даже не нужно заходить на сайт с целью проверки обновлений. RSS-ленты – один из эффективнейших способов привлечения трафика. Но кроме того их часто посещают краулеры поисковых систем.

Увеличивайте число внешних ссылок

Внешние ссылки взаимосвязаны с числом заходов на ресурс роботов. Это было доказано в процессе эксперимента, проводимого Йоханом Кутарнюком.


На графике мы видим, что число внутренних ссылок практически везде одинаковое, а внешних – уменьшается. И где меньше внешних ссылок, там и реже бывали боты.

Взаимосвязь между посещениями и внешними ссылками составила аж 0,978, тогда как с внутренними – 0,171.

Важно! Краулинговый бюджет также распределяется между вашими соседями по хостингу. И чем их больше, тем меньше способность ботов сканировать суммарное количество страниц ресурсов, находящихся на конкретном хостинге.

Вопросы-ответы по краулинговому бюджету

В рамках общения с вебмастерами, Google отвечал на вопросы связанные с краулинговым бюджетом.

Вопрос: Сказывается ли на краулинговом бюджете скорость загрузки ресурса? Что по поводу ошибок сканирования?

Ответ: Снижение скорости загрузки сайта положительно сказывается на пользовательском опыте, вместе с тем увеличивается скорость обхода. А для краулера поисковой системы быстрый ресурс говорит о нормальном функционировании сервера. Проще говоря, Googlebot сможет собрать больше материала за одинаковое число соединений. Однако чрезмерное количество ошибок 5XX провоцирует замедление сканирования.

Поэтому стоит постоянно посещать Search Console и мониторить раздел Ошибки сканирования, чтобы контролировать количество ошибок и держать их в допустимых пределах.

Вопрос: А расходует ли краулинговый бюджет директива nofollow?

Ответ: Вообще все УРЛы, посещаемые роботом, так или иначе расходуют краулинговый бюджет. И если ссылка скрыта от индексирования, она все-равно с большой долей вероятности будет сканироваться, если на какой-либо странице того же или другого веб-ресурса ей не приписана директива nofollow.

Вопрос: Сканирование – это один из факторов ранжирования?

Ответ: Если страница попадет в индекс быстрее, это не значит, что она «взлетит» в позициях результатов выдачи. У Google не одна сотня факторов, которыми он руководствуется при составлении рейтинга сайтов, но сканирование отыгрывает здесь далеко не основную роль, хоть без него страницы и не попадут в поиск.

Вопрос: Тратится ли краулинговый бюджет на встроенный контент (CSS, JavaScript) и альтернативные URL-адреса (AMP, hreflang)?

Ответ: – Да. При сканировании ресурсов Googlebot учитываются все УРЛы, в том числе и альтернативные. Аналогичная ситуация происходит и со встроенным контентом.

Вопрос: Есть ли у меня возможность управлять поисковым роботом Google посредством директивы crawl-delay?

Ответ: Нет. Данная директива не обрабатывается краулером.

Пожалуйста, оцените эту статью. Чтобы мы могли делать лучший контент! Напишите в комментариях, что вам понравилось и не понравилось!

Что такое «краулинговый бюджет» для Google – бота?

Сегодня мы поговорим о краулинговом бюджете на примере Google, из чего он строится и от чего зависит.

Краулинговый бюджет — количество страниц, которые Googlebot хочет и может просканировать на определенном сайте.

Что такое «краулинговый бюджет» для Google – бота?

В последнее время мы слышим достаточно много вариантов определения «краулингового бюджета», но нет единого термина, которым можно было бы описать все возможности «краулинга».

Лимит скорости обхода страниц

Googlebot предназначен для того, чтобы делать обход страниц, не мешая пользователям просматривать страницы сайта. Потому существует лимит скорости сканирования, препятствующий обработке слишком большого количества страниц сайта, и как следствие – повышение нагрузки на сервер.

Иначе говоря, лимит краулинга означает количество возможных одновременных соединений, используемых Googlebot для сканирования страниц сайта и время ожидания между посещениями новых страниц.

Скорость сканирования может повысится или наоборот понизиться, и зависит это от вида краулинга:

  • Естественный краулинг: если сервер быстро отвечает на запросы googlebot, то может быть использовано больше соединений для сканирования контента, соответственно выше скорость. Если сайт отвечает медленно, выдает ошибки сервера – то будет использовано меньшее число соединений googlebot, а значит и ниже скорость.
  • Лимитированный краулинг: если скорость обхода страниц сайта задается веб-мастером вручную. Однако, увеличение скорости краулинга таким способом не приведет к автоматическому усилению скорости обхода страниц.

Краулинговый спрос

Даже если предел скорости обхода страниц не был достигнут, но необходимости в индексации не возникает, нет спроса – то и активность Goooglebot будет низкой.

На определение спроса сканирования страниц влияют 2 фактора:

  • Популярность: известные домены (url) имеют неоспоримый приоритет и спрос к сканированию страниц, таким образом поддерживая свежий индекс в выдаче.
  • Свежесть: система Google следит за тем, чтобы индекс избавлялся от устаревших url-ов.

Кроме этого, увеличение краулинг – спроса может быть инициировано крупным событием на сайте, например, его перенос или переиндексация страниц под новыми URL – адресами.

Таким образом, скорость краулинга и спрос образуют краулинговый бюджет – количество страниц, которые Googlebot хочет и может просканировать на определенном сайте.

Что может влиять на краулинговый бюджет?

  • Ограниченная навигация и идентификация сеанса;
  • Дублированный контент на сайте;
  • Страницы ошибки – soft 404;
  • Взломанные страницы;
  • Бесконечные пространства и прокси – сервера;
  • Некачественный контент или спам.

Перерасход ресурсов сервера влечет за собой понижение активности Googlebot’a что может стать последствием задержки в обходе новых страниц сайта.

Таким образом, краулинговый бюджет сейчас не является поводом для беспокойства владельцев большинства сайтов. Если сайт имеет меньше нескольких тысяч страниц и url-ов, то новые страницы как правило попадают под обход робота буквально в день публикации, а значит поводов для беспокойства нет, и большая часть контента сайта будет просканирована быстро и эффективно.

Поэтому определение приоритетов: что сканировать, когда сканировать, сколько ресурсов сервера отдать для этого — наиболее важно для больших сайтов и сайтов с динамически страницами.

Совет эксперта:

Всегда легче предупредить болезнь, чем ее «лечить». Рекомендуем Вам внимательно относится к выбору хостинг – провайдера, а также следить за отчетом «Ошибки сканирования» в веб-мастерской Google.

Краулинговый бюджет и как это работает

В данной статье я решил разложить по полочкам такое понятие как краулинговый бюджет и разобрать факторы, которые влияют на нормальное состояние и рост краулингового бюджета.

У каждого сайта свой краулинговый бюджет и посмотреть его можно на странице https://www.google.com/webmasters/tools/crawl-stats?hl=ru&authuser=1&siteUrl

Что такое краулинговый бюджет

Простыми словами говоря, это лимит страниц, которые поисковой робот Google например обойдет для Вашего сайта за один день. Для обычных блогов с этим как правило нет проблем, а вот для больших сервисов и порталов, где ежедневно публикуется и обновляется множество нового материала и все это роботам поисковых систем нужно обойти, часто возникают проблемы с индексированием.

Владельцы порталов просто не понимают. Почему хороший и уникальный материал не попадает быстро в индекс, почему поисковые роботы его обходят стороной и не индексируют.

Ниже на скрине представлен краулинговый бюджет моего блога — Crawl Stats или статистика сканирование как это называется в Google. Он значительно просел в последнее время и на то есть свои причины. Буду работать над тем, чтобы увеличить этот показатель.

На скрине видно, что ежедневный краулинговый бюджет моего сайта составляет всего 83 страницы. Лучше ориентироваться именно на число в среднем т.к. низкий и высокий краулинговый бюджет это просто крайности.

Получается, что Если при правильно настроенной карте сайта sitemap.xml для первоочередного и повторного сканирования роботам поисковых систем должны предлагаться не более 83 страниц в сутки.

К этим страницам относятся все новые материалы, опубликованные на сайте, все изменения страниц по контенту, вроде новых комментариев или дополнения статей содержимым. Комментарии кстати учитываются именно встроенные в сам сайт, а не сторонние сервисы вроде формы комментариев от вконтакте.

Как увеличить краулинговый бюджет сайта

Ну во-первых как было сказано выше, у Вас должна быть хорошо настроена карта сайта sitemap.xml и файл robots.txt, ведь именно на них первым делом обращают свое внимание поисковые роботы, при посещения сайта. Именно из их содержимого они узнают что не надо индексировать и на что нужно обратить внимание и обойти в первую очередь.

Если спустя определенное время, после приведения в порядок этих файлов Вас все еще не устраивает результат по цифрам краулингового бюджета можете обратить внимание на такую штуку как параметр last-modified, о котором я напишу в отдельной статье.

Если говорить простыми словами, то настроив этот параметр у себя на сайта, При посещении страницы сайта поисковым роботом ему будет отдаваться код ответа сервера 304 — это означает что страницы не изменилась с момента последнего посещения и не надо ее повторно индексировать.

При это не растрачивается зазря единица краулингового бюджета и робот идет дальше по страницам в поисках новых или обновленных страниц. Это очень удобно использовать в крупных проектах.

Топ-пост этого месяца:  Кастомизация формы создания заказа в админке, добавление полей с автоподстановкой

В самом начале статьи, я говорил, что размер краулингового бюджета у всех сайтов разных. Связано это с тем, что каждый проект публикует разное количество материала на сайт ежедневно и краулинговый бюджет старается примерно построиться под эту цифру с небольшим запасом. К тому же и обновляется материал у кого-то по несколько раз на день, у кого-то раз в 3 месяца.

Создаваемые самим движком сайта, всевозможными фильтрами и прочими скриптами множество бесполезных страниц, которые еще и в карту сайта попадают, могут наоборот несколько подорвать краулинговый бюджет проекта и тогда заместо полезных страниц сайта в индекс будет попадать много ненужного мусора.

Поисковые роботы с легкостью могут оценивать качество таких страниц и на основе этого снижать лимит сканирования страниц для этого проекта — ибо не заслужили.

Оптимизация краулингового бюджета

«Краулинговый бюджет» — термин, подразумевающий количество страниц, которые может просканировать поисковый робот за одну сессию визита на сайт.

Для сайтов с большим количеством целевых страниц скорость сканирования и индексации является крайне важным параметром, так как от нее зависит, насколько быстро в индекс поисковых систем попадут новые страницы или обновятся изменения на уже проиндексированных.

Пример статистики сканирования сайта поисковым роботом Google:

Сайт из примера содержит около 48 тысяч посадочных страниц.

Нетрудно посчитать, что сканирование всех страниц сайта произойдет примерно через 13 дней. Отметим, что ситуация усугубляется установленными приоритетами на индексацию страниц, частотой их обновления и уровнем вложенности самих страниц. Как результат, часть страниц будет просканирована поисковым роботом значительно позже.

Краулинговый бюджет рассчитывается для каждого сайта индивидуально, но точная формула, к сожалению, неизвестна.

Как узнать, какое количество страниц могут проиндексировать поисковые системы?

Для поисковой системы Google можно узнать примерное количество страниц, сканируемых поисковым роботом, с помощью сервиса Google Search Console (на момент написания статьи — старой версии): раздел «Сканирование – статистика сканирования» («Crawl – crawl status»).

Статистика по сканированию страниц поисковым роботом «Яндекса» доступна в сервисе «Яндекс.Вебмастер», в разделе «Индексирование» –> «Статистика обхода»

Как оптимизировать краулинговый бюджет

Оптимизация краулингового бюджета является крайне важным аспектом поисковой оптимизации для сайтов с большим количеством страниц.

В целом оптимизацию можно разделить на работы двух типов:

Оптимизация краулингового бюджета с помощью уменьшения общего количества страниц, которые будут обнаружены и проиндексированы поисковым роботом.

  • Удаление технических дублей страниц, которые генерируются множеством популярных CMS.
  • Удаление внутренних ссылок, целевые страницы с которых передают код ответа «404».
  • Удаление цепочек редиректов и циклических ссылок.
  • Уменьшение количества и объема файлов JS и CSS-таблиц.
  • Предоставление поисковым роботам рекомендаций, указывающих, какие страницы необходимо просканировать в первую очередь, а какие — не нужно сканировать.

    • Создание в файле robots.txt директив, указывающих на то, какие страницы не должны быть проиндексированы. Используется директива disallow.
    • Корректная настройка генерации файлов sitemap. Файлы следует регулярно обновлять, в них должны содержаться ссылки на все страницы сайта, которые должны быть проиндексированы. Крайне не рекомендуется добавлять в файлы sitemap ссылки на страницы сайта, которые передают код ответа, отличный от «200 ОК», или закрыты для индексации в файле robots.txt. Также рекомендуем для всех ссылок указывать корректные данные в тегах — дата последнего изменения страницы,

    — приоритетность загрузки и индексации страниц: 0.0 — минимальный приоритет, 1.0 — максимальный приоритет, допускаются промежуточные значения, например 0.7. Тег

    поддерживается только ПС «Яндекс».

  • Установка корректных правил обхода страниц с GET-параметрами и UTM-метками. Сканирование таких страниц также расходует краулинговый бюджет, но в большинстве случаев они не содержат полезного контента. Для запрета их сканирования используйте директиву clean-param в robots.txt (для ПС «Яндекс») и настраивайте правила сканирования страниц с параметрами в разделе «Параметры URL» в Google Search Console (для ПС Google).
  • Настройка передачи всеми страницами сайта заголовка Last-Modified и корректной обработки заголовка If-Modified-Since. Страницы сайта всегда должны передавать клиенту дату последнего обновления в заголовке Last-Modified, а при получении заголовка If-Modified-Since — сравнивать полученную дату с датой последнего изменения страницы. Если страница изменялась в указанный интервал, передавать код ответа «200 ОК» и загружать страницу; если страница не изменялась, передавать код ответа «304» и останавливать загрузку страницы. Для проверки настройки заголовков можно использовать сервис last-modified.com или «Проверка ответа сервера» в панели веб-мастера ПС «Яндекс».
  • Отметим, что установка атрибута rel=”canonical” в код никак не повлияет на краулинговый бюджет, так как страницы, на которых установлен этот атрибут, все равно будут просканированы поисковыми роботами для проверки отличий от канонической страницы.

    Использование тега (или настройка HTTP-заголовка X-Robots-Tag: noindex) также не повлияет на краулинговый бюджет, потому что тег запрещает индексацию страницы, а не ее сканирование.

    Запрет на индексацию

    В первую очередь требуется проверить два технических момента:

    • То что документы, которые не в индексе, не закрыты от индексации с помощью файла robots.txt или meta-тегов.
    • То что документы, отдают верный (корректный для индексации) код ответа сервера — 200 OK (сервис bertal.ru).

    Если вы уверены, что это так, то переходим к дальнейшим возможным причинам проблемы.

    Статические факторы документов

    Дело в том, что поисковые системы включают в свой индекс только те документы, которые:

    1. Не нарушают их поисковую лицензию (Яндекс: http://legal.yandex.ru/termsofuse/).
    2. Не дублируют уже имеющуюся в индексе информацию (скажем, страницы очень сильно похожи друг на друга и не представляют ценности для пользователей).
    3. Обладают достаточными статическими факторами, чтобы попасть в ТОП хотя бы по какому-то поисковому запросу.

    Скорее всего, мы имеем дело с третьей ситуацией, когда у карточек товаров в вашем интернет-магазине недостаточные значения статических факторов и улучшив их, можно «загнать» документы в индекс. В первую очередь требуется улучшить для каждой карточки следующие показатели:

    Уровень вложенности документа. Постарайтесь добавить с главной страницы ссылки на данные карточки товаров, можно организовать ротацию по 15-25 карточек в блоге, чтобы они стали УВ=2. Это должно будет улучшить ситуацию.

    Число внутренних входящих ссылок на документ. Проверьте, с помощью панели Вебмастера Яндекса, сколько внутренних входящих ссылок видит робот на данный документ? Число должно быть выше 15-20. Оптимально поставить — от 20 ссылок, тогда документ повысит свою вероятность попадания в индекс.

    Дополнительно проверьте число внутренних ссылок с помощью программы PageWeight.

    Посещаемость документа. Число уникальных посетителей документа — существенно сказывается на включении его в индекс. Здесь поможет привлечение пользователей на данные страницы внутри сайта с помощью различных акций, модуля «Похожие товары» и прочих приёмов.

    Объем уникального текста. Постарайтесь добиться того, чтобы объем уникального текста на карточках товаров был от 700 до 1 500 символов без пробелов. Наличие текста на документах повышает вероятность включения документа в основной индекс.

    Число и значимость внешних входящих ссылок на документ. Нарастив число входящих на карточки товаров ссылок, можно улучшить индексацию. Здесь часто бывает достаточно получить от 2 ссылок на каждую карточку. Это также улучшит и их ранжирование по коммерческим поисковым запросам. Чем большую долю PR будут передавать данные ссылки — тем лучше.

    Статический вес документа. С помощью программы PageWeight или сервиса SEOTO.ME можете рассчитать текущий статический вес карточек товаров не в индексе по классической формуле PR. Постарайтесь увеличить это число с помощью привлечения внутренней перелинковки (изначально — в 1.5–2 раза).

    Уникальный заголовок Title и meta-теги. Заполните уникальным содержимым тег Title и meta-тег description на карточках товаров.

    Длина URL-адреса в символах. Поисковые системы охотней включают в индекс документы с короткими адресами, а при наличии очень длинного имени — могут наблюдаться проблемы с индексацией. Оптимально иметь URL-адрес (без учёта доменного имени) до 85-90 символов.

    В 95% случае, выполнив описанные выше работы, вы достигните желаемого результата. Но есть и более экзотические случаи…

    Размер сайта, краулинговый бюджет

    Если мы имеем дело с довольно большим сайтом, от 70–100 тысяч страниц и выше, то истинной причиной отсутствия документов в индексе Яндекса могут быть и другие проблемы. В частности, у каждого сайта имеется, так называемый, краулинговый бюджет. Это число, которое определяет:

    • Какое количество документов с данного хоста/владельца может быть в принципе включено в индекс. При достижении данного порога, документы с заданного сайта — далее не включаются в индекс.
    • Какое количество документов может быть просканировано за один заход паука поисковой системы.

    Для увеличения краулингового бюджета требуется повышать уже не статические факторы какого-то заданного документа, а статические факторы всего сайта/хоста (подробнее о статических факторах).

    Для грамотного расходования краулингового бюджета требуется — верно настроить индексацию сайта, скрыть от робота все ненужные/мусорные документы, настроить заголовок Last-Modified (чтобы робот проверял на обновление только документы, которые действительно изменились с последнего его захода), сформировать XML-карты сайта, настроить работу самого сервера .

    Маловероятно, что вы «упёрлись» в данный лимит, обратите в первую очередь на раздел «Статические факторы документов» этого ответа.

    Удачи в самостоятельном продвижении сайта в Яндексе и включении большей части документов в индекс!

    Добавить комментарий