Google опубликовал более точную документацию по работе поискового краулера


Содержание материала:

Google опубликовал более точную документацию по работе поискового краулера

Для получения больших объемов информации, необходимых для апробации и изучения моделей в рамках вебометрического анализа, можно применить несколько известных подходов, таких как использование возможностей расширенного поиска поисковых систем, использование открытых баз данных, созданных другими исследователями, покупка вебометрических данных у компаний, специализирующихся на таких видах деятельности, разработка собственных инструментов.

Наконец, можно использовать специализированные программы, предназначенные для сбора данных о Вебе, которые могут быть свободными или коммерческими.

Основные преимущества и недостатки каждого из подходов были проанализированы еще 15 лет назад в работе [5], и их рассмотрение выходит за рамки данной статьи. Мы исходим из того, что открытые специализированные программы для сбора данных о Вебе сегодня позволяют не писать с нуля новые, а использовать существующие [19] и дорабатывать их под потребности конкретных задач.

Термин «краулер» (англ. crawler) в общем случае обозначает программу, реализующую процесс перемещения по страницам и/или документам Веба с целью сбора определенной информации, статистики или сохранения ресурсов сайта. Общие принципы работы краулеров изложены в [17]. В самом общем виде работу краулера по сканированию сайта можно описать следующим образом: сканирование сайта начинается с начальной страницы и затем программа использует ссылки, размещенные на ней, для перехода на другие страницы. Каждая страница сайта анализируется на наличие требуемой информации, которая копируется в соответствующее хранилище в случае обнаружения. Процесс повторяется до тех пор, пока будет проанализировано требуемое число страниц или достигнута некая цель.

В данной статье дается аналитический обзор наиболее популярных краулеров, для которых одним из главных критериев включения в данный обзор является наличие открытого исходного кода и нацеленность на представительские сайты организаций.

Класс содержательных задач и связанные с ним ограничения

В вебометрических исследованиях довольно часто рассматриваются задачи исследования связей между представительскими сайтами организаций, занимающихся одинаковыми видами деятельности и расположенных в одном географическом регионе. Понятие региона может рассматриваться достаточно широко – от города до континента.

Одним из примеров такой задачи может служить исследование сайтов гостиниц, расположенных в крупном городе. Данные, собранные с таких сайтов, должны содержать информацию о том, каким образом отели связаны между собой и сторонними сервисами (в частности, посредством гиперссылок), какой набор услуг они предоставляют помимо проживания, какими средствами они продвигают себя в Вебе.

Для того чтобы обеспечить сбор указанной информации, необходимо, чтобы искомый краулер поддерживал работу со следующими данными:

1) HTML, JavaScript, так как большинство сайтов разработано с использованием этих технологий;

2) Plain text, PDF и другие форматы представления текстовых данных;

3) URLs, с возможностью построения на их основе графа веб-ресурсов.

Краулер должен быть производительным, поскольку согласно первичной оценке объема данных, которые предстоит собрать и обработать, нужно извлечь данные более с чем 3000 представительских сайтов, при условии того, что каждый из них в среднем ссылается примерно на 11000 страниц, то есть обработать около 3300000 страниц. При средней скорости обработки 2 страницы/сек, которую обеспечивают краулеры с низкой производительностью [20], потребуется около 20 суток, чтобы собрать указанные данные. Такое время одной итерации неприемлемо, имея в виду, что предполагается наличие многих итераций для исследования динамики изменения связей.

В качестве отдельного ограничения отметим стоимость искомого инструмента. Для научных исследовательских целей правильнее рассматривать только инструменты с открытым исходным кодом, т.к. они распространяются бесплатно и их исходный код доступен для анализа и редактирования, что позволяет настраивать инструменты под меняющиеся требования, зачастую возникающие в ходе научного процесса.

Рассмотрим основные типы краулеров, которые принято выделять в литературе [6, 7], для того чтобы категоризовать искомые инструменты и понимать накладываемые на них ограничения.

Сфокусированный краулер (Focused Web Crawler) – это краулер, задача которого заключается в том, чтобы загрузить связанные с друг другом страницы по конкретной теме. Такой вид краулеров также называют тематическим (Topic Crawler).

Принцип его работы основывается на том, что каждый раз переходя к новому документу, данный краулер проверяет, насколько он релевантен обозначенной теме, переход осуществляется только на документы, соответствующие теме. Его достоинства состоят в том, что он экономичен и не требует значительных вычислительных ресурсов.

Инкрементный краулер (Incremental Crawler) – традиционный краулер, который периодически обновляет собранные в своем хранилище документы. Помимо замены старых версий документов на новые, он может обновлять ранг документов, сортируя их на менее важные и более важные.

Распределенный краулер (Distributed Crawler) – это тип краулера, базирующегося на распределенных вычислениях. Как правило, он реализован на нескольких вычислительных узлах, один из которых назначается главным, а другие являются дочерними узлами.

Этот тип краулеров использует алгоритмы типа Page Rank для улучшения релевантности поиска. Достоинство этого вида краулеров в их надежности и отказоустойчивости.

Параллельный краулер (Parallel Crawler) – такой краулер состоит из нескольких краулер-процессов, каждый из которых работает над своим выбранным множеством данных.

Кроссплатформенный краулер (Cross-platform Crawler) – такой краулер должен одинаково устанавливаться и настраиваться на машинах с различными операционными системами.

Требования к краулерам

Приведем основной стандартный набор требований к краулерам в соответствии с [19, 26]:

1. Надежность. Веб содержит ресурсы, которые могут вводить краулер в бесконечный цикл или отправлять на недоступные сервисы, ожидать выполнения которых он не должен.

2. Вежливость. Веб-ресурсы имеют явные и неявные политики, регулирующие частоту, с которой краулер может посетить их (как правило, они описаны в файле robots.txt).

3. Распределенность. Краулер должен иметь возможность запускаться на выполнение в распределенном режиме на нескольких машинах.

4. Масштабируемость. Краулер должен поддерживать возможность увеличения производительности за счет добавления дополнительных вычислительных узлов.

5. Производительность и эффективность. Краулер должен обеспечивать эффективное использование системных ресурсов.

6. Качество. Краулер должен уметь отделять спам-страницы от полезных, реализовывать процедуры нормализации URL, предотвращая дублирование обработки.

7. Актуальность. Краулер должен поддерживать обновление собранных данных.

8. Расширяемость. Краулер должен позволять добавлять новую функциональность для анализа новых форматов данных, протоколов и т.д.

Для нашего класса содержательных задач необходим инструмент, который должен:

1) быть кроссплатформенным, чтобы его можно было одинаково конфигурировать на вычислительных узлах с разными операционными системами;

2) обеспечивать производительность обработки порядка 100 страниц/сек, чтобы время сбора описанного выше объема данных составляло часы, а не дни;

3) интегрироваться с базой данных для хранения информации и полнотекстовым индексом, позволяющим быстро извлекать собранные данные;

4) реализовывать стратегию сбора данных в ширину и вертикального поиска, так как в нашей задаче необходима информация о предметной области, а не узкое множество фактов.

Обзор основных первоисточников

Есть несколько источников информации, дающих представление относительно тех или иных программных продуктов с открытым исходным кодом, но далеко не все из них можно воспринимать как достоверные.

Например, из перечня на блог-ресурсе «Top 50 open source web crawlers» [27] можно почерпнуть названия веб-краулеров с открытым исходным кодом, но при этом не разъясняется, на основании чего было произведено ранжирование краулеров. Более того, здесь содержатся ссылки на устаревшие и не развивающиеся инструменты.

Другой список предоставляет Best Open Source: 36 best open source web crawler projects [6]. Рейтинг основан на общественном рейтинге проектов с открытым исходным кодом. Список не является полным, например в него не попал известный и широко используемый краулер Scrapy. Обоснование ранжирования краулеров можно увидеть в академических обзорах, таких как [11, 23].

Первоисточники позволили определить базовый перечень из восьми краулеров, которые будут рассмотрены далее.

Краулеры с открытым исходным кодом

Далее приводится краткое описание наиболее популярных краулеров с открытым исходным кодом, взятых из приведенных выше первоисточников.

1. Nutch [3]. Типизация: инкрементный, параллельный, распределенный, кроссплатформенный. Инструмент поиска в Вебе и краулер, написанный на java, поддерживающий граф связей узлов, различные фильтры и нормализацию URL [22].

Интегрирован со свободной библиотекой полнотекстового поиска Apache Lucene [2], набором утилит, библиотек и фреймворков для разработки и выполнения распределённых программ Apache Hadoop [4] и позволяет использовать хранилища данных, такие как СУБД Cassandra [1].

Является масштабируемым (до 100 узлов в кластере), легко настраивается и расширяется, является «вежливым». Заявленная производительность 1000 страниц/сек. Более детальное описание можно найти в [29].

2. Scrapy [25]. Типизация: сфокусированный, параллельный, кроссплатформенный. Расширяемый и гибкий краулер, написанный на Python, который легко устанавливается, поддерживает выгрузку данных в форматах JSON, XML, CSV.

Подходит для сфокусированного сбора данных в Вебе. «Вежливый», устойчивый, расширяемый краулер. Считается, что данный краулер менее производительный, нежели Apache Nutch [23].

3. Open Search Server [18]. Типизация: инкрементный, параллельный, кроссплатформенный. Краулер и поисковый движок, ядро которого написано на java, являющийся «вежливым» и поддерживающий современные подходы к полнотекстовому поиску.

Обеспечивает автоматическую классификацию текстов и подключение базы синонимов, поддерживает 18 языков. Использует такие технологии, как Apache Lucene, фреймворк для разработки веб-приложений ZK [17] и другие. Это надежный и производительный инструмент [9, 10].

4. Norconex HTTP Collector [16]. Типизация: инкрементный, параллельный, кроссплатформенный. Позволяет выполнять задачи крулинга и сохранять собранные данные в любое настроенное хранилище, в том числе и в поисковый индекс, написан на java, является «вежливым».

Производительный, поддерживает все востребованные функции: фильтрацию, нормализацию, а также распознавание языков, гибкость извлечения данных и т.д. Активно развивается и поддерживается коммерческим проектом [14].

5. Bixo [7]. Типизация: инкрементный, параллельный, распределенный, кроссплатформенный. Написан на java. Работает на основе Cascading (платформа для создания приложений на Hadoop) [8].

Позволяет переносить данные в предметно-ориентированную информационную базу данных Data Warehouse [9].

Расширяемый, настраиваемый, устойчивый и «вежливый». Масштабируем до 1000 вычислительных узлов и подходит для анализа данных больших объемов [23].

Разработчики этого инструмента сделали его после разработки одного из проектов для вертикального поиска, основанного на Nutch [11]. Данный инструмент рекомендуют использовать для таких задач, как нахождение и анализ комментариев по поводу конкретного продукта, отслеживание популярности объекта в социальной сети, анализ данных о стоимости продукта и т.д. [7].

6. Crawler4j [12]. Типизация: параллельный, кроссплатформенный. Написан на java с простым API (Application Programming Interface – интерфейс прикладного программирования). С его помощью можно легко организовать многопоточный краулинг.

Данный инструмент можно легко встроить в проект, но при этом не поддерживается индексирование. Является «вежливым», но обнаружено, что может порождать излишнюю нагрузку на исследуемый хост [20, 23].

7. Arachnode.net [13]. Типизация: инкрементный, параллельный, кроссплатформенный. Написан на C# с использованием платформы .NET и SQL Server 2008.

Является «вежливым» и поддерживает загрузку, индексацию и сохранение веб-контента, включая адреса e-mail, файлы и веб-страницы.

Сведения о производительности разноречивы: в [21] говорится о 3145 страницах/cек, но в свободной версии данный краулер имеет гораздо более низкую производительность 1,29 страниц/сек [20].

8. GNU Wget [30]. Типизация: сфокусированный. Продолжающий развиваться инструмент, написанный на C на Linux-платформе, который позволяет получать файлы из наиболее широко использующихся интернет-протоколов (HTTP, HTTPS, FTP). Данный краулер подходит в основном для выгрузки конкретных данных или сайта, но не масштабного краулинга сегментов Веба.

Кратко напомним дополнительные требования из пункта 1:

2) производительность обработки порядка 100 страниц/сек,

3) интеграция с базой данных и полнотекстовым индексом,

4) стратегия сбора данных «вначале вширь, потом в глубину»,

Таким образом, следуя этим требованиям:

— ввиду требования (1) GNU Wget не подходит, так как может использоваться только на платформе Linux;

— ввиду требования (2) Arachnode.net не подходит, так как в свободной версии данный краулер имеет производительность 1,29 страниц/сек;

— ввиду требования (3) Crawler4j и Norconex HTTP Collector не подходят, так как не имеют интегрированного хранилища и/или поискового индекса;

— ввиду требования (4) Scrapy не подходит, так как является сфокусированным, то есть не реализующим стратегию сбора данных «вначале вширь потом в глубину»;

— требование (5) выполняется всеми рассмотренными краулерами с открытым исходным кодом.

Из оставшихся трех программных продуктов Nutch, Open Search Server и Bixo по типизации все они почти одинаковы (у Open Search Server отсутствует распределенность, что, по-видимому, и влияет на производительность). По заявленной производительности наиболее предпочтительным представляется выбор Apache Nutch.

Заключение

Рассмотрены основные типы краулеров и дополнительные требования, сформулированные как результат предварительного изучения предметной области, представляющей собой некоторое заданное ограниченное, но достаточно большое множество представительских веб-сайтов.

В результате систематизации и анализа соответствия основным и дополнительным требованиям проведен отбор трех наиболее перспективных краулеров.

Поисковая система Google: попытка регистрации стандартов

Правила из этичности или удобства: стремление к стандартизации

Однако в процессе изучения темы выяснилось, что вопрос не ограничивается лишь одним отказом воспринимать директиву noindex. Компания решила полностью пересмотреть отношения к стандартам интернета. До сих пор сканирование сайтов происходило по правилам, прописанным внутри файла robots.txt. Ситуация сохранится до сентября 2020 года. Регламент формировался на основании того, что диктует протокол Robots Exclusion Protocol (REP). Однако этот документ нигде на официальном уровне не числится. Поэтому часто оптимизаторы подстраивались к вероятным действиям поисковых систем при ранжировании проектов. Теперь же Google заговорил о возможности утвердить протокол в специально созданном для таких целей органе сети: Internet Engineering Task Force (Инженерный совет интернета).

Разработчики Гугл подчеркивают:

  • До настоящего момента в сети нет четкого протокола действий, утвержденных официально.
  • Правила обработки трактуются по-разному, более того необязательны к исполнению.
  • Возникла потребность задокументировать REP-протокол, что станет удобным и полезным участникам сетевого общения.

Файл robots.txt: взаимодействие с поисковыми краулерами

Для появления сайта в интернете, кроме покупки хостинга и домена, необходимо выполнить и другие условия для его открытия. Создать изначально каркас, где прописаны мельчайшие детали его реализации в сети. Вместе с правилами о создании конкретных элементов, их функционала и размещением на экране прописывается регламент для поисковых ботов. Такие директивы, как noindex или disallow предназначаются краулерам поисковых систем, исходя из конкретики ситуации (только для Яндекс или Гугл, Yandex, Bing, прочих). Вместе с тем оптимизаторы могут ограничивать доступ к данным проектам любым ботам, запущенным для сканирования страниц. Задание ограничений необходимо, прежде всего, для снижения нагрузки на веб ресурс, что особенно актуально для проектов с высоким трафиком. Попутно с этим добиваются уменьшения расходов на пропускную поддержку канала.

Однако отсутствие официальных стандартов относительно протокола REP вызывало ряд неудобств. Некоторые из них затрагивали интересы Гугл.

Что ожидается от стандартизации протокола и его регистрации в ITTF?

Представители поисковой системы Google воздерживаются от развернутых комментариев. Однако из информации поданной на последней конференции, в мае 2020, а также публикаций в социальных сетей, напрашивается отчетливое видение последствий от документации протокола. Положительное решение вопроса должно помочь достичь таких целей:

  • Модернизация функциональной базы за счет задания точных правил для краулеров, обязательных к исполнению в конкретных объемах.
  • Уход от двояких формулировок и неоднозначной трактовки использования тех или иных указаний.
  • Повышение эффективности работоспособности аналитических систем, предсказуемости прочтения и выполнения краулерами файла robots.txt.

К каким конкретным изменениям готовиться?

Обновления коснутся самых разных сфер деятельности в интернете. Но главное– появится зарегистрированный протокол. Поэтому изменения скорее коснуться технической реализации проектов, чем маркетинговой или просто пользовательской сторон.

Что станет можно или должно исполнять краулерам:

  1. Разрешается применять директивы для любых типов URL. Кроме, HTTP/HTTPS, допускается установка правил для форматов FTP или CoAP.
  2. Фиксируется минимальный объем сканирования документа – первые 512 КБ.
  3. Краулеры не должны исследовать запись полностью, если объект слишком велик.
  4. Поисковый бот не обязан сканировать сайт при низкой стабильности соединения.
  5. Директивы обязательно кэшируются. Цель этого изменения – уменьшить число обращений к серверу.
  6. Сохранение остается актуальным не более чем на сутки. В Гугл посчитали, что этого времени достаточно оптимизаторам для своевременного обновления файла.
  7. Заголовок Cache-Control позволит самостоятельно задавать правила кэширования.
  8. Отсутствие доступа к файлу не отменяет действия директив, описанные правила сохраняют силу долгое время после утраты возможности сканировать документ.

Кроме перечисленных изменений в регламенте работы краулеров по ограничениям документа, рассматриваются и директивы, которые непосредственно формируют файл robots.txt.

Окончательный текст документа о стандартизации протокола еще не зарегистрирован и не утвержден в ITTF. Но уже сейчас есть данные, что Google не будет поддерживать правила, которые не попадут в официальную форму проекта.

Поскольку предварительная форма документа создана разработчиками указанной поисковой системы, стоит прислушаться к заявлениям, говорящим об отказе следовать правилу noindex. Анонсировано отключение поддержки на 1 сентября 2020 года.

Дополнительно ко всему, поисковая система Google открыла доступ к алгоритму анализа файла robots.txt (код парсера для конкретного объекта).

Изучение документа дает возможность понимать, приоритетные решения поискового краулера в различных ситуациях. Интересный факт, директива disallow не теряет силы даже, если ключевая фраза написана с опечаткой. Так, что консалтинговый компаниям придется пересмотреть некоторые пункты в аудитах сайтов. Например, упоминание ошибок, аналогичных приведенным – бессмысленное занятие.

Как надо привыкать делать?

До сих пор директива noindex считалась лучшим по эффективности методом, чтобы закрыть страницы от сканирования. Реализация устранения из индекса сервисов поиска станет возможной посредством задания noindex в следующих зонах:

Во втором случае необходимо прописывать заголовок X-Robots-Tag. Для любой страницы, закрываемой от индексации, правильный синтаксис выглядит так:

В ситуации с ограниченным доступом к ресурсам сайта, например, исключительно к его шаблонам, рекомендуется прописывать мета-тег, который стандартно выглядит так:

Что собственно означает указание для краулера Гугл – не проводить индексацию страницы.

Как и ранее ограничить доступ к сканированию документов от остальных ботов, надо использовать robots вместо имени краулера системы Google. Читатели могут поупражняться и в предшествующей командной строке выполнить самостоятельную замену имен.

Альтернативой noindex служит манипуляция с кодом ответа. Известные всем «Ошибка 404» или «Ошибка 410» также ведут к выводу страниц из кода поисковых систем.

Еще один актуальный вопрос для оптимизаторов, как регулировать временные рамки кэширования? Чтобы указать срок, на протяжении которого скачанные данные доступны к повторному использованию, теперь используют Cache-Control. Прописывается так:

Cache-Control: max-age=[время в секундах]

За начало периода принимается момент, когда совершен запрос. При этом max-age, указанный в секундах, сообщает длительность периода, когда доступно скачивание и использование ответа. Результирующая схема обработки объекта имеет вид:

Нюансы правильного конфигурирования robots.txt

Корректность написания директив в тексте файла смотрят посредством инструментов Google. Один из них — Google Robots.txt Tester. Сервис работает бесплатно, проверяет синтаксис, предупреждает об ошибках иного рода, если таковые имеются. Оптимизаторам следует проявлять внимательность, поскольку ссылки из robots.txt восприимчивы к стилю написания (прописные или строчные буквы). Например, ниже приведенные ссылки считаются абсолютно разными:

Надо учитывать, что тестировщик от Гугл не распознает подобные ошибки.

Как относятся к noindex прочие поисковики сети?

Проблема, которую «вскрыл» Гугл, заключалась в отсутствии каких-либо правил относительно прочтения robots.txt, в том числе, директивы noindex. Для оптимизаторов важно и то, как воспринимают правила аналитические системы, прочие сервисы интернета. Например, веб-архиватор Wayback Machine в разные периоды менял правила сканирования страниц. Среди известных поисковых систем, как минимум, две не поддерживают директиву noindex именно в robots.txt: Yandex и Bing. Яндекс предлагает прописывать правило в мета теге robots или X-Robots-Tag.

Файлы стилей и скрипты: как рекомендуется поступать с ними?

Сервис Гугл недавно обновил алгоритмы сканирования краулера Googlebot. Владельцы сайтов, использующие оптимизацию визуализации, получают массу преимуществ. Ранее в Google не учитывались многие факторы, присутствующие на страницах. Например, наличие «ленивой» загрузки, упрощение понимания скриптов. Теперь, когда обновление системы внедрено и уже используется, у владельцев есть стимул заботиться о более качественной и скоростной «отрисовке» страниц. Сайты, где доступ к стилям и скриптам окажется закрытым, не смогут в полной мере ощутить выгодные для них нововведений. Поисковая система не сможет корректно ранжировать проект из обязательной последовательности действий: сначала визуализация проекта в глазах краулера, затем присвоение странице места в выдаче. Если в документе имеются улучшения, которые закрыты для сканирования, даже очевидные преимущества останутся незамеченными.


Взаимодействие ботов с документацией страниц до ранжирования проходит по следующей схеме:

Краулинговый бюджет: изменится ли что-то в этом направлении?

Данная тема обсуждается в свете всех последних изменений в работе алгоритмов поисковой системы Гугл. Ранее выяснилось, как влияют изменения в принципах сканирования страниц. Эксперты пришли к выводу, что новое видение проектов, а также отношение к директивам noindex не оказывают влияния на краулинговый бюджет.

Тогда, как грамотное использование Disallow в robots.txt, позволяет сокращать расходы. Экономия достигается за счет сокращения числа сканируемых страниц.

В общих случаях, следует учитывать, что затраты по краулингу обусловлены только парой факторов:

  1. Авторитетность домена.
  2. Допустимая нагрузка на сервер.

Репутация определяется качеством и объемом ссылочного профиля. Для сокращения краулингового бюджета потребуется постоянный мониторинг внешней ссылочной массы проекта. Сделать это можно посредством различных аналитических приложений.

Особенности работы с поддоменами

Место размещения robots.txt влияет на область, где действуют правила, установленные в нем. Если документ загружен на site.com, то директивы действительны лишь для этого домена. Когда требуется применение правил на www.site.com, файл необходимо размещать на этом же хосте. Проще говоря, для использования директив на поддоменах robots.txt должен загружаться с поддоменов.

Подведем итоги

Стандарты, устанавливаемые в robots.txt, применялись для работы в глобальной сети более 25 лет. До сих пор это был документ, подчиняющийся каким-то общим соображениям. Вопросы исполнения директив поднимались исполнителями (владельцами сайтов), но дискуссии вокруг темы велись исключительно ознакомительные и образовательные. Если в итоге для документации robots.txt будет принят единый стандарт, появится определенность в применении устанавливаемых правил и их трактовке.

Впервые регламентированы минимальные размеры файла, достаточные для проведения индексации страниц.

Если сканируемый документ оказывается больше, то работать будут только первые 512 кбайт.

Ожидается, что протокол REP станет стандартом для всей сети. Проект документа опубликован на веб ресурсе ietf.org с пометкой «черновик».

Гугл отказывается от поддержки директивы noindex, прописанной в robots.txt.

Чтобы страницы не попадали в индекс системы надо использовать специальный заголовок или мета-тег. Проекты, которые необходимо удерживать «скрытыми» до момента запуска, закрываются на уровне серверов.

Топ-пост этого месяца:  Как восстановить и поменять пароль в Вордпресс

Сайты на HTTPS должны предоставлять доступ к robots.txt по соответствующему протоколу.

В реальности, анонсированные модификации ведут к необходимости выполнить ряд мероприятий:

Google притормозил краулеры, чтобы помочь протестующим сайтам

Xakep #246. Учиться, учиться, учиться!

Вчера множество крупных и мелких сайтов провели акцию протеста против SOPA и ушли в офлайн. Многие вместо привычной главной страницы выставили специальную заглушку с информацией о причинах акции. Разумеется, за такой «беспредел» сайты будут автоматически оштрафованы в выдаче поисковых систем.

Ситуация получается неоднозначная. С одной стороны, Google выступил категорически против законопроекта SOPA. С другой стороны, он вынужден штрафовать сайты, которые участвуют в протесте — ничего не поделаешь, это происходит автоматически.

Проблема в том, что поисковый краулер обходит сайты по расписанию, и если он видит там свежий контент, то скачивает его для индексации. Разумеется, старое содержимое сайта удаляется из поискового индекса.

Чтобы избежать такой ситуации, веб-мастер должен был предпринять специальные меры: сделать так, чтобы посетители сайта видели заглушку, а поисковый робот получал в ответ ошибку 503 (Service Unavailable). Но такая техника разделения трафика тоже не приветствуется алгоритмами поисковой системы, и сайт может быть оштрафован за клоакинг.

За день до акции протеста компании Google опубликовала специальные инструкции, как именно должен поступить веб-мастер, чтобы минимизировать негативный эффект в поисковой выдаче. Впрочем, в акции протеста приняли участие очень большое количество сайтов, и наверняка не все из них последовали инструкциям. И даже если вы сделали всё правильно и выдали краулеру ошибку 503, всё равно это не очень приятно, потому что после получения такой ошибки краулер уменьшит частоту посещения данного сайта, сочтя его временно неработоспособным. Значит, в среднесрочной перспективе уменьшится скорость обновления поискового индекса — и опять же, сайт потеряет часть поискового трафика. В любом случае, посещение поискового краулера во время акции протеста не сулит сайту ничего хорошего.

Чтобы хоть как-то помочь протестующим сайтам и избавиться от этой странной ситуации, компания Google всё-таки приняла правильное решение и объявила об изменении конфигурации Googlebot на один день 18 января. В этот день краулер работал в «облегчённом» режиме, посещая сайты гораздо реже.

Компания Google ещё раз выражает свою поддержку всем сайтам, которые приняли участие в акции протеста, и надеется, что никто из них не потеряет свои позиции в поисковой выдаче. Впрочем, это не относится к другим поисковым системам, особенно к Bing, ведь компания Microsoft не очень-то и протестует против SOPA, и поначалу даже поддерживала этот законопроект.

10 способов думать, как Googlebot и улучшить ваше техническое SEO

Пытаетесь преодолеть очередную планку роста органического трафика? Высококачественный контент и ссылки безусловно помогут вам в этом, но не стоит забывать о техническом SEO. Один из наиболее важных навыков в технической оптимизации сайтов, который вы можете приобрести в 2020-м – научиться думать, как Googlebot.

Прежде чем приступить к содержательной части, необходимо понять, что вообще из себя представляет этот Гугл-бот, как он работает и для чего нам всё это знать.

Что такое Googlebot

Googlebot – это веб-краулер (робот, паук), который собирает данные с веб-страниц. Всего лишь один из многих. У каждой поисковой системы есть свои фирменные пауки. В мире SEO их ещё называют «агентами пользователя». Вот наиболее известные:

  • Yandex – Яндекс
  • Googlebot – Google
  • Bingbot – Bing
  • Slurp Bot – Yahoo
  • Alexa Crawler – Amazon Alexa
  • DuckDuckBot – DuckDuckGo

Как работает Googlebot

Мы не можем начать оптимизировать сайты под Googlebot, пока не поймём, как он обнаруживает, читает и оценивает веб-страницы.

Как робот Google находит веб-страницы

Краткий ответ: ссылки, карты сайтов и запросы на обход.

Длинный ответ: самый быстрый способ заставить Google просканировать ваш сайт, это зайти в Search Console и добавить ссылку на карту вашего сайта. Однако это ещё не всё.

Несмотря на то, что карты сайта являются отличным способом заставить Google сканировать ваш сайт, этот метод не учитывает PageRank. Внутренние ссылки – это рекомендуемый способ сообщить Google, какие страницы связаны и имеют ценность. В Интернете опубликовано много замечательных статей о Google PageRank и внутренних ссылках, поэтому я не буду сейчас вдаваться в подробности.

Google также может обнаружить ваши веб-страницы, благодаря профилю «Google Мой бизнес», каталогам и ссылкам с других сайтов. Это упрощённая версия того, как работает робот Google. Чтобы узнать больше, вы можете прочитать официальную документацию Google по их пауку.

Как робот Google читает веб-страницы

Google прошёл долгий путь в рендеринге сайтов. Основная задача бота Гугла – прочитать страницу сайта так, как это сделал бы обычный пользователь. Чтобы проверить, как Google просматривает вашу страницу, воспользуйтесь инструментом проверки URL в Search Console. Так вы сможете сравнить страницу глазами посетителя и Googlebot.

Технические факторы ранжирования

Как и в традиционном SEO, в техническом SEO нет волшебной таблетки. Все 200+ факторов ранжирования важны!

Если вы являетесь техническим специалистом, думающим о будущем SEO, то самые значимые факторы ранжирования, на которые стоит обратить внимание, сосредоточены вокруг пользовательского опыта.

Зачем нам думать, как Googlebot

Когда представители поисковых систем говорят нам делать качественные сайты, они как раз вот это и имеют в виду. Все эти размытые формулировки являются в то же время очень точными.

Если вы можете удовлетворить пользователей интуитивным и полезным веб-сайтом, соответствующим требованиям Googlebot, то в итоге получите больше органического трафика.

Пользователи или роботы

На кого больше обращать внимание при создании сайта? На пользователей или на роботов?

Краткий ответ: на тех и на других.

Длинный ответ: это острый вопрос, который может вызвать напряжённость между дизайнерами интерфейсов, веб-разработчиками и SEO-специалистами. Тем не менее это даёт нам возможность поработать вместе и лучше понять баланс между поведением пользователей и ботов.

UX-дизайнеры отдают предпочтение в работе пользователям. SEO-специалисты – краулерам. Посередине находятся веб-разработчики, пытающиеся взять лучшее из обоих миров.

Опытный сеошник должен понимать важность пользовательского опыта. Поэтому необходимо оптимизировать сайты и под людей, и под роботов, одновременно. К счастью, Google изо всех сил старается ориентироваться на живых посетителей сайтов.

Следующие 10 советов по оптимизации под Гугл-бота позволят вам ублажить сразу обоих: дизайнера и разработчика.

1. Robots.txt

Robots.txt – это текстовый файл, который находится в корневом каталоге веб-сайта. Это одна из первых вещей, которую ищет робот Googlebot при сканировании сайта. Настоятельно рекомендуется добавить robots.txt на ваш сайт и включить в него ссылку на sitemap.xml.

Есть много способов оптимизировать файл robots.txt, но важно соблюдать осторожность. Разработчик может закрыть индексацию для всех роботов во время технических правок и забыть открыть её при внедрении на действующий сайт. В результате даже после устранения проблемы могут потребоваться недели на возврат органического трафика.

Существует множество советов и руководств по оптимизации файла robots.txt. Тщательно разберитесь в вопросе, прежде чем что-то внедрять на свой сайт. И не забывайте отслеживать результаты правок.

2. Sitemap.xml

Карты сайтов являются ключевым способом обнаружения новых страниц на ваших проектах ботом Гугла и считаются важным фактором ранжирования.

Вот несколько советов по оптимизации карты сайта:

  • У вашего сайта должна быть только одна карта.
  • Страницы блога и основные страницы сайта должны быть разделены на разные файлы, а затем объединены в общую карту.
  • Не устанавливайте высокий приоритет для каждой отдельно взятой страницы.
  • Удалите из карты сайта страницу для 404-ошибки и 301 редиректы.
  • Отправьте файл sitemap.xml в Google Search Console и следите за обходом.

3. Скорость сайта

Быстрота загрузки стала одним из важнейших факторов ранжирования, особенно для мобильных устройств. Если скорость загрузки вашего сайта слишком низкая, робот Google может понизить ваш рейтинг.

Самый простой способ выяснить, считает ли робот Google, что ваш сайт загружается слишком медленно, – это проверить скорость с помощью любого из бесплатных инструментов. Многие из этих инструментов предоставляют рекомендации, которые вы можете отправить вашим разработчикам.

4. Микроразметка Schema

Добавление структурированных данных на ваш сайт поможет роботу Google лучше понять контекст отдельных веб-страниц и веб-сайта в целом. Однако важно, чтобы вы следовали рекомендациям Google.

Для наибольшей эффективности лучше использовать JSON-LD при реализации разметки структурированных данных. Сам Google отметил у себя в рекомендациях, что JSON-LD является предпочтительным языком разметки.

5. Канонизация

Большой проблемой для крупных сайтов, особенно в секторе электронной коммерции, является дублированный контент. Есть множество практических причин для дублирования контента, например, мультиязычность сайта.

Если вы используете сайт с дублированным контентом, крайне важно указывать основные страницы при помощи тега rel=canonical и атрибута hreflang.

6. Таксономия URL

Наличие чёткой и понятной структуры URL, как показывает практика, приводит к более высоким позициям в поисковой выдаче и помогает пользователям лучше ориентироваться на сайте. Настройка родительских страниц позволяет роботу Google понимать взаимосвязь каждой страницы.

Однако, если у вас есть старые страницы, которые имеют хорошие позиции, Джон Мюллер из Google не рекомендует менять их URL. Грамотная таксономия URL-адресов – это то, что нужно установить с самого начала разработки сайта.

Если вы абсолютно уверены, что оптимизация URL-адресов поможет сайту, убедитесь, что настроили правильные 301-редиректы и обновили свой sitemap.xml.

7. Загрузка JavaScript

Несмотря на то, что со статичными HTML-страницами проще работать в плане SEO, динамический контент, созданный с помощью JavaScript, позволяет сделать ваш веб-сайт интереснее для пользователей. В 2020 году Google потратил много ресурсов на улучшения взаимодействия с JavaScript.

Во время недавней сессии вопросов и ответов с Джоном Мюллером, последний заявил, что Google планирует продолжить фокусироваться на JavaScript в 2020 году. Если ваш сайт сильно зависит от динамического рендеринга с помощью JavaScript, убедитесь, что ваши разработчики следуют официальным рекомендациям Google.

8. Изображения

Google давно намекает на важность оптимизации изображений, но в последние месяцы особенно много говорит об этом. Оптимизация изображений поможет роботу Google контекстуализировать, как ваши картинки связаны и улучшить ваш контент.

Если вы хотите быстро оптимизировать изображения, я рекомендую:

  • Имя файла изображения: опишите, что это за изображение, используя как можно меньше слов.
  • ALT-текст: можно скопировать имя файла и использовать дополнительные слова для описания изображения.
  • Структурированные данные: вы можете добавить schema-разметку для описания изображений на странице.
  • Карта картинок сайта: Google рекомендует добавить отдельную карту для ваших изображений.

9. Неработающие ссылки и зацикленные редиректы

Все мы знаем, что битые ссылки – это плохо, некоторые оптимизаторы утверждают, что они могут потратить впустую бюджет на обход сайта. Однако Джон Мюллер заявил, что неработающие ссылки не уменьшают этот бюджет.

Я полагаю, что, учитывая неоднозначность имеющейся информации, мы должны быть осторожны и убирать все неработающие ссылки. Используйте Google Search Console или ваш любимый инструмент для сканирования, чтобы найти неработающие ссылки на сайте!

Зацикленные редиректы – ещё одна характерная черта старых проектов. Такое явление обычно возникает, когда в цепочке редиректов присутствует несколько этапов.

Пример выше: третий вариант первоначальной страницы перенаправляет пользователя на второй вариант, который, в свою очередь, перенаправляет опять на третий вариант. Получается замкнутый цикл.

Поисковые системы часто испытывают трудности при сканировании циклов перенаправления и потенциально могут завершить обход сайта. Лучшее решение здесь – заменить исходную ссылку на каждой странице финальной ссылкой.

10. Заголовки страниц и мета-описания

Для многих SEO-профессионалов подобная информация может показаться устаревшей, но на практике доказано, что хорошо оптимизированные заголовки страниц и мета-описания могут улучшить ранжирование и CTR в поисковой выдаче.

Да, это самые основы поисковой оптимизации, но Googlebot читает их (title, description), поэтому не стоит пренебрегать дополнительной возможностью. Есть много различных теорий по поводу правильных meta-тегов, но общие рекомендации довольно просты:

  • Лучше использовать вертикальные чёрточки (|) вместо дефисов (-) в качестве разделителя, хотя боту Гугла без разницы.
  • В заголовок главной, страницы контактов и «о компании» включите название вашего бренда. В большинстве случаев другие типы страниц не имеют большого значения.
  • Не увлекайтесь длиной.
  • Для вашего мета-описания скопируйте первый абзац текста и отредактируйте его так, чтобы он соответствовал диапазону, который в данное время Google рекомендует использовать для тега description. Если это в результате не совсем точно описывает вашу страницу, то вам следует подумать о том, чтобы поработать над содержанием.
  • Проверьте! Использует ли Google ваши собственные заголовки и описания.

Подведём итог

Когда дело доходит до технического SEO и оптимизации под поисковых роботов, есть много вещей, на которые стоит обратить внимание. Многие из них требуют практических исследований, и я рекомендую попросить ваших коллег поделиться опытом, прежде чем вносить изменения в сайт.

Хотя новаторская тактика является захватывающей, она может привести к снижению органического трафика. Хорошее правило – проверить эту тактику, подождав несколько недель между изменениями. Это даст Googlebot определённое время, чтобы он смог разобраться с нововведениями на сайте и соответственно повысить вас в выдаче.

Автор оригинала: Джон Макалпин – руководитель SEO-департамента в Cardinal DIgital Marketing. Джон разрабатывает общую SEO-стратегию для CDM – SEO-агентства из Атланты, которое специализируется на обслуживании компаний, работающих в сфере здравоохранения на всей территории США. В настоящее время он живёт в Далласе, активно участвует в местном и национальном SEO-сообществе, имеет большой опыт в области технического SEO, веб-разработки и стратегии цифрового маркетинга.

Источник: www.searchenginejournal.com.

ПОНРАВИЛАСЬ СТАТЬЯ? ПОДЕЛИСЬ С ДРУЗЬЯМИ!

Алгоритмы Google: как улучшить позиции, не попав под санкции

Регулярно Гугл и Яндекс выпускают новые алгоритмы, задачей которых является улучшение выдачи, борьба с некачественными ресурсами. Если раньше пользователь на свой запрос получал бесконечное множество страниц и не всегда находил нужный ему ответ, то сейчас, благодаря поисковым алгоритмам, он в считаные секунды может получить решение на любой интересующий вопрос.

В статье мы расскажем об основных алгоритмах Google, выпущенных в последние годы, и их влиянии на выдачу. Разберемся, что нужно учитывать владельцам сайтов, чтобы не попасть под санкции и как следует оптимизировать и продвигать свой ресурс, чтобы улучшать позиции.

Таблица алгоритмов Google:

Название Дата выпуска Цель
Гугл Панда (Google Panda) 24.02.2011 г., проводятся регулярные апдейты борьба с неуникальным, низкокачественным контентом
Гугл Пингвин (Google Penguin) 24.04.2012 г., сейчас работает в режиме реального времени понижение позиций сайтов с некачественными и неестественными ссылками
Колибри (Hummingbird) 30.08.2013 г. предоставление более релевантных результатов, основанных на понимании смысла запросов пользователя
Антипиратский апдейт (Google’s Pirate Update) Август, 2012 г. понижение позиций сайтов, содержащих пиратский контент
Голубь (Pigeon) 24.07.2014 г. предоставление наиболее релевантных результатов поиска в зависимости от местонахождения пользователя
Mobile Friendly Update 21.04.2015 г. улучшение позиций сайтов, оптимизированных под мобильные устройства
Фред (Fred) 08.03.2020 г. чистка поисковой выдачи от сайтов, целью которых является получение прибыли. Страницы с большим количество рекламы, переоптимизированными текстами и множеством исходящих ссылок исключаются
RankBrain начало 2015 года понимание запросов пользователя

Теперь давайте поговорим отдельно о каждом алгоритме, поймем, какие факторы могут помешать продвижению сайта и что стоит изменить на своем ресурсе, чтобы улучшить позиции в результатах поиска.

Гугл Панда (Google Panda)

Под санкции этого алгоритма попадают сайты с неуникальным автоматически сгенерированным контентом, а также сайты с текстами, перенасыщенными ключевыми запросами. Помимо этого, алгоритм затрагивает ресурсы, на которых один и тот же текст повторяется на разных страницах. Более подробно об алгоритме Панда вы можете узнать в одной из наших статей.

Добавляйте только уникальные тексты на свой ресурс, желательно, чтобы оригинальность была не ниже 95%. Не перенасыщайте тексты ключевыми запросами – рекомендуем использовать 1 запрос на 300-500 символов. Проверьте сайты на дубли, их быть не должно, в противном случае закрывайте дубли от индексации, настраивайте тег canonical или next prev, если страницы являются полностью одинаковыми – настройте редирект.

Работа с контентом может значительно повлиять на продвижение вашего ресурса, поэтому добавляйте оптимизированные статьи как можно чаще, пишите продающие уникальные описания для товаров в магазине, и тогда никакая Панда вам будет не страшна.

Гугл Пингвин (Google Penguin)

Под санкции попадают сайты с покупными ссылками, ресурсы с низкосортной ссылочной массой (ссылки ведут с сайтов плохого качества или вовсе не подходят по тематике).

Регулярно проверяйте ссылочную массу, ведущую на ваш сайт, с помощью Вебмастеров и сервисов для анализа ссылок, например, Megaindex.com. Избавляйтесь от спамных ссылок, ссылок с низкосортных ресурсов. При продвижении наращивайте только естественную ссылочную массу (об этом читайте в нашей статье), старайтесь делать упор на безанкорные ссылки. За большое количество ссылок с ключевыми словами можно получить санкции.

Колибри (Hummingbird)


Можно сказать, что это основной алгоритм Гугл, который включает в себя и Панду, и Пингвин, и Фред и RankBrain. Он предоставляет пользователям страницы с точным вхождением запроса, учитывая смысл запроса и принимая во внимание синонимы поисковой фразы.

Пишите тексты, ориентируясь на людей, а не роботов. Точное вхождение ключевых фраз не обязательно, используйте LSI-копирайтинг. Контент на сайте должен быть разнообразным, поэтому стоит включать больше синонимов, касающихся тематики запроса.

Антипиратский апдейт (Google’s Pirate Update)

Алгоритм Гугл, который, согласно закону DMCA (рус. Закон об авторском праве в цифровую эпоху), обязует поисковые системы не показывать ресурсы, нарушающие авторское право. Название алгоритма говорит само за себя, он борется с сайтами, содержащими пиратский контент, а также ресурсами, которые публикуют информацию о том, как скачать авторский контент из интернета.

Алгоритм Google’s Pirate Update затрагивает как органическую, так и платную выдачу, то есть у ресурсов с пиратским контентом не будет возможности продвигаться даже в платной выдаче Гугла. Подать жалобу на кражу материалов вы можете на сайте.

Также в 2020 году был введен Антипиратский закон, согласно которому страницы с пиратским контентом будут заблокированы.

Все очень просто – не добавляйте пиратский контент на свой сайт. Если на ваш ресурс будут поступать жалобы, точное количество которых Гугл не озвучивал, то сайт попадет под санкции.

Голубь (Pigeon)

Алгоритм, который учитывает нахождение пользователя и выдает результаты в соответствии с его местонахождением, удаленностью от предполагаемого объекта. К примеру, если вы хотите найти ближайший медпункт от вас, Google учтет вашу локацию и выдаст в результатах те учреждения, которые ближе всего находятся к вам.

Для улучшения локального ранжирования стали привлекаться асессоры – именно люди принимают участие в оценке ресурсов, анализируя популярную локальную выдачу. Асессоры изучают сайты на соответствие местонахождения по региону, их задача – избавить выдачу от ресурсов, которые на самом деле не соответствуют требованиям.

Чтобы улучшить ранжирование вашего сайта по определенному региону, рекомендуем вам зарегистрировать сайт в Google Мой бизнес, а также в справочнике Яндекса, каталогах и справочниках сайтов. Указывайте местонахождение в тегах и текстах, это позволит увеличить релевантность сайта по региону.

Mobile Friendly Update

Не секрет, что Google отдает предпочтение сайтам, оптимизированным под мобильные устройства. Поисковик изменил подход к индексации и начал обрабатывать сайты, исходя из интересов мобильных пользователей. Согласно показаниям статистики, мобильные запросы в разы превысили десктопные. На данный момент mobile-index стал основным, а значит, в первую очередь будут индексироваться и ранжироваться mobile-friendly сайты.

Как сообщил сотрудник поисковика Джон Мюллер, Google будет оповещать владельцев о переводе их сайта на mobile-first индексацию через сервис Search Console.

Вы можете проверить, соответствует ли ваша страница требованиям Google, с помощью инструмента проверки мобильных страниц, и внести изменения по его рекомендациям. Помните, чтобы угодить Google, ваш сайт обязательно должен иметь адаптивный дизайн или мобильную версию.

Фред (Fred)

Под «прицел» данного алгоритма попали малополезные для пользователя сайты. В основном это ресурсы, содержащие контент для привлечения трафика и большое количество рекламного материала.

Не злоупотребляйте медийной, баннерной и другой рекламой; избегайте большого количества исходящих ссылок.

RankBrain

Система искусственного интеллекта, созданная на базе машинного обучения, которая позволяет правильно понимать и обрабатывать запросы пользователей. Более подробно о работе RankBrain мы уже писали в одной из наших статей.

Теперь вы знаете все об алгоритмах Google и наверняка поняли, что следует изменить на вашем сайте, чтобы улучшить свои позиции в поисковой системе и не попасть под санкции. Если времени на доработку не хватает, вы всегда можете обратиться к нашим специалистам за услугами поискового продвижения – учтем все тонкости ранжирования как Яндекса, так и Гугла.

Краулеры (поисковые роботы): зачем нужны, виды, как управлять и анализировать?

Краулер (поисковый бот, робот, паук) – это неотъемлемая для поисковой системы программа, отвечающая за поиск сайтов и сканирование их содержимого путем перехода по страницам и ссылкам для занесения собранной информации в базу данных поисковика.

Зачем нужны поисковые пауки?

Допустим, есть пользователь Иван Иванов, ежедневно посещающий какой-нибудь популярный книжный онлайн-ресурс, и этот ресурс регулярно пополняется новыми произведениями. Переходя на сайт, Иван осуществляет следующую последовательность действий:

  1. Заходит на главную страницу.
  2. Переходит в раздел «Новые книги».
  3. Просматривает список с недавно добавленными материалами.
  4. Открывает ссылки с заинтересовавшими его заголовками.
  5. Ознакомляется с аннотациями и скачивает интересующие его файлы.

Чтобы найти подходящий материал, Иванову пришлось потратить около 10 минут. Если каждый день уделять 10 минут на поиск нужной книги, в месяц на этой уйдет в общем 5 часов. И это касается только одного сайта.

Во избежание таких временных затрат нужно использовать программу, в автоматическом режиме занимающуюся поиском новинок.

Без роботов ни один поисковик не будет эффективным, вне зависимости от того, Google это или новая поисковая система. И чтобы не делать, как Иван, они используют роботов для «обхода» сайтов, отыскивающих для поисковых систем новую информацию, которую они смогут предложить пользователям. И чем лучше сканирует краулер, тем актуальнее материалы в выдаче.

Основные боты выполняют следующие функции:

  1. Собирают новый или обновленный контент с веб-ресурсов. Сканированием свежих публикаций и ранее размещенных статей занимаются пауки первого порядка.
  2. Идентификация зеркал. Краулер отыскивает сайты, содержащие идентичный контент, но с разными доменами. Подобные боты имеет Яндекс.
  3. Сканирование графических файлов. Для поиска графики может быть привлечен отдельный робот.

И много других различных краулеров, которые имеют свое предназначение, о которых мы поговорим ниже.

Виды краулеров

У каждого поисковика есть набор собственных веб-пауков, выполняющих различные функции. Поговорим о ботах двух популярнейших поисковых машин.

Роботы Яндекса

  • YandexBot – основной краулер, занимающийся индексацией.
  • YandexImages – вносит в индекс изображения ресурсов.
  • YandexMobileBot – собирает страницы для их анализа и определения адаптации для смартфонов.
  • YandexDirect – сканирует данные о материалах ресурсов-партнером РСЯ.
  • YandexMetrika – поисковый паук сервиса Яндекс.Метрика.
  • YandexMarket – бот Яндекс.Маркета.
  • YandexCalenda – краулер Яндекс.Календаря.
  • YandexNews – индексирует Яндекс.Новости.
  • YandexScreenshotBot – делает скриншоты документов.
  • YandexMedia – индексатор мультимедийных данных.
  • YandexV >Боты Google
  • Googlebot – главный индексатор контента страниц не только для ПК, но и адаптированных под мобильные устройства.
  • AdsBot-Google – анализирует рекламу и оценивает ее качество на страницах, оптимизированных под ПК.
  • AdsBot-Google-Mobile – выполняет аналогичные функции, что и предыдущий, только предназначен для мобильных страниц.
  • AdsBot-Google-Mobile-Apps – работает также, как и стандартный AdsBot, но оценивает рекламу в приложениях, предназначенных для устройств на базе операционной системы Andro >Другие поисковые роботы

Краулеры есть не только у поисковых систем. Так, у популярной соцсети Facebook роботы собирают коды страниц, которые
репостят пользователи, чтобы показывать ссылки с заголовками, описанием и картинкой. Рассмотрим более детально веб-пауков, не относящихся к Google и Яндексу.

Ahrefs

Самый популярный инструмент для SEO-продвижения, который помогает анализировать ссылочную массу. Что делает:

  • изучает обратные ссылки;
  • проводит мониторинг конкурентов;
  • анализирует ранжирование;
  • проверяет сайты, недействительные ссылки;
  • изучает ключевые слова, фразы и многое другое.

Благодаря нему специалисты в области цифрового маркетинга могут проанализировать своих конкурентов и подобрать наиболее эффективную тактику продвижения сайта.

SEMrush

Еще один отличный сервис для оптимизации сайтов, который больше заточен на зарубежный интернет и Google. Он решает такие задачи:

  • создание качественного списка ключевиков;
  • идентификацию и исправление ошибок;
  • мониторинг и анализ отчетов;
  • поиск факторов, негативно влияющих на SEO;
  • увеличение целевой аудитории.

SEO Spider

Программа для сканирования данных на маленьких и крупных ресурсах. Способна:

  • находить повторяющиеся материалы;
  • объединяться с аналитикой от Google;
  • отыскивать битые ссылки;
  • обрабатывать большой список ссылок;
  • осматривать элементы страниц отдельно для каждого URL;
  • регулярно обновляться;
  • изучать краулеры и другие директивы.

Spider работает на оперативных системах Windows, MacOS и Ubuntu. В бесплатной версии можно анализировать до 500 страниц.

Serpstat

Комплексный краулер для развития SEO, рекламного контента и улучшения показателей PPC. Он изучает:

  • непосредственно сайт;
  • SERP в поисковой выдаче;
  • ранжирование;
  • обратные ссылки, конкурентов, ключевики и тексты.

Еще здесь есть функция определения ключевых слов, сравнения доменов, анализ контента и так далее.

Часто используемый SEO инструмент за рубежом для проверки и оптимизации веб-ресурса.

И это далеко не полный список. Приведены только самые популярные краулеры.

Как управлять поисковым роботом?

Очень часто приходится ограничивать доступ некоторым краулерам к определенным страницам сайта. Для этого существуют специальные правила, которые вебмастера прописывают для пауков, чтобы они их придерживались. Указываются они в файле robots.txt.

Попадая на сайт, роботы сначала сканируют информацию в файле со списком документов, запрещенных для индексации, например, личные данные зарегистрированных пользователей. Ознакомившись с правилами, краулер или уходит с сайта, или начинает индексировать ресурс.

Что прописывать в файле robots:

  • разделы сайта или фрагменты контента, закрытых/открытых для пауков;
  • интервалы между запросами роботов.

Команды можно адресовать как всем ботам сразу, так и каждому по-отдельности.

Если мы откроем файл robots поисковой системы Яндекс, то увидим:

Определим, что все это значит:

  1. Страница about.html закрыта от всех краулеров.
  2. Роботам твиттера разрешено смотреть сайты, в адресе которых содержится /images.
  3. Остальным поисковым паукам разрешено посещать страницы, которые заканчиваются на /images, но глубже переходить нельзя (Dissallow: /images/*).

Как узнать что робот заходил на сайт?

Есть несколько способов вычислить, что краулер посещал сайт и какие именно страницы. Все зависит от того, чей это бот.

Поисковый робот Яндекса

Основной паук поисковика, индексирующий контент, посещает страницы веб-ресурсов и отсылает их в базу данных с завидной регулярностью. Но он может найти не все необходимые страницы сайта, если они например недоступны.

В Яндекс.Вебмастере вы можете с легкостью узнать, какие именно страницы обошел бот, чтобы отыскать URL недоступных для него документов по причине перебоев на сервере или неправильного содержимого непосредственно страниц.

Зайдите в панели управления Вебмастера на страницу Индексирование, а затем – Статистика обхода. Обновление данных проводится ежедневно, максимум через 6 часов с той поры, когда робот зашел на страницу.

Изначально на сервисе вы увидите информацию по всему ресурсу. Если же вам нужна информация по определенному разделу, кликните на него в списке, расположенного в поле с указанным адресом сайта. Разделы выстроены в соответствии со структурой ресурса. Если вы не нашли в списке нужную страницу, сообщите о них поисковику через Переобход страниц.

Другие роботы

Еще один отличный способ вычислить, что поисковый паук посещал сайт – заглянуть в логи сервера.

В них хранится вся информация касательно того, кто посещал ресурс, когда и по каким страницам переходил, какой у него IP-адрес, какой ответ получил на сайте и прочее. Читать логи вручную довольно трудно, поэтому есть специальные программы, помогающие анализировать и читать логи в удобном формате, что очень важно, потому что с их помощью вы видите любое посещение роботом и человеком.

Одним из самых популярных инструментов, используемых с данной целью, является Screaming Frog SEO Log File Analyser. Отметим, что программа платная. Лицензия стоит 100$ в год. Есть и бесплатная версия с ограниченным функционалом:

  1. Можно добавить лишь один сайт.
  2. Журнал событий содержит не более 1000 строк.
  3. Нет бесплатной техподдержки.

Пользоваться программой просто. Для начала потребуется найти файлы access.log на сервере и загрузить их на компьютер с помощью FTP. В большинстве случаев они располагаются в папке /access_logs/ или просто /logs/. Если вы хотите детально проанализировать историю посещений, скачайте логи за период не менее месяца. Скачав файлы, кликните по Import и выберите пункт Log file.

Затем, как данные загрузятся, укажите любое название проекта и укажите часовой пояс. Далее отобразится главное окно админки, где показывается подробная информация: какие краулеры посещали ресурс, с какой частотой, сколько страниц просматривали и так далее.

Но можно «копнуть» еще глубже. К примеру, узнать, какие УРЛы загружаются медленно, а с каких часто приходят на сайт. Помимо этого показывается информация о кодах ответов, отдаваемых ссылками. В меню Response Codes есть фильтр для группирования адресов по типу кода. Так вы очень быстро отыщите ошибки.

Кстати, если нажать правой кнопкой на ссылку, то можно:

  • проверить ее на наличие в индексе поисковиков Google, Bing и Yahoo;
  • узнать внешние ссылки, ведущие на нее;
  • открыть ссылку в robots.txt;
  • открыть в браузере или скопировать ее.

Особенно удобные функции перехода в файл robots и проверки индексирования.

Заключение

Без краулеров не существовало бы и поисковиков, ведь именно они сканируют сайты, собирают в них информацию и отправляют ее в базу данных, чтобы затем система включила ее в свой поиск и предоставила пользователям.

Поисковые боты нужны не только поисковикам, но и самим вебмастерам, чтобы успешно анализировать ресурсы, исправлять слабые места и успешно их раскручивать для поднятия на верхние позиции результатов выдачи.

Пожалуйста, оцените эту статью. Чтобы мы могли делать лучший контент! Напишите в комментариях, что вам понравилось и не понравилось!

Что такое краулинг и как управлять роботами

Выдача ответов на поисковый запрос на странице поиска за долю секунды только верхушка айсберга. В «черном ящике» поисковых систем — просканированные и занесенные в специальную базу данных миллиарды страниц, которые отбираются для представления с учетом множества факторов.

Страница с результатами поиска формируется в результате трех процессов:

  • сканирования;
  • индексирования;
  • предоставления результатов (состоит из поиска по индексу и ранжирования страниц).


В этом выпуске «Азбуки SEO» речь пойдет о сканировании или краулинге страниц сайта.

Как работает сканирование (краулинг) сайта?

Если кратко, краулинг (сканирование, crawling) — процесс обнаружения и сбора поисковым роботом (краулером) новых и обновленные страницы для добавления в индекс поисковых систем. Сканирование — начальный этап, данные собираются только для дальнейшей внутренней обработки (построения индекса) и не отображаются в результатах поиска. Просканированная страница не всегда оказывается проиндексированной.

Поисковый робот (он же crawler, краулер, паук, бот) — программа для сбора контента в интернете. Краулер состоит из множества компьютеров, запрашивающих и выбирающих страницы намного быстрее, чем пользователь с помощью своего веб-браузера. Фактически он может запрашивать тысячи разных страниц одновременно.

Что еще делает робот-краулер:

  1. Постоянно проверяет и сравнивает список URL-адресов для сканирования с URL-адресами, которые уже находятся в индексе Google.
  2. Убирает дубликаты в очереди, чтобы предотвратить повторное скачивание одной и той же страницы.
  3. Добавляет на переиндексацию измененные страницы для предоставления обновленных результатов.

При сканировании пауки просматривают страницы и выполняют переход по содержащимся на них ссылкам так же, как и обычные пользователи. При этом разный контент исследуется ботами в разной последовательности. Это позволяет одновременно обрабатывать огромные массивы данных.

Например, в Google существуют роботы для обработки разного типа контента:

  • Googlebot — основной поисковый робот;
  • Googlebot News — робот для сканирования новостей;
  • Googlebot Images — робот для сканирования изображений;
  • Googlebot Video — робот для сканирования видео.

В статье о robots.txt мы собрали полный перечень роботов-пауков. Знакомьтесь 🙂

Кстати, именно с robots.txt и начинается процесс сканирования сайта — краулер пытается обнаружить ограничения доступа к контенту и ссылку на карту сайта (Sitemap). В карте сайта должны находиться ссылки на важные страницы сайта. В некоторых случаях поисковый робот может проигнорировать этот документ и страницы попадут в индекс, поэтому конфиденциальную информацию нужно закрывать паролем непосредственно на сервере.

Просматривая сайты, бот находит на каждой странице ссылки и добавляет их в свою базу. Робот может обнаружить ваш сайт даже без размещения ссылок на него на сторонних ресурсах. Для этого нужно осуществить переход по ссылке с вашего сервера на другой. Заголовок HTTP-запроса клиента «referer» будет содержать URL источника запроса и, скорее всего, сохранится в журнале источников ссылок на целевом сервере. Следовательно, станет доступным для робота.

Как краулер видит сайт

Если хотите проверить, как робот-краулер видит страницу сайта, отключите обработку JavaScript при включенном отладчике в браузере. Рассмотрим на примере Google Chrome:

1. Нажимаем F12 — вызываем окно отладчика, переходим в настройки.

2. Отключаем JavaScript и перезагружаем страницу.

Если в целом на странице сохранилась основная информация, ссылки на другие страницы сайта и выглядит она примерно так же, как и с включенным JavaScript, проблем со сканированием не должно возникнуть.

Второй способ — использовать инструмент Google «Просмотреть как Googlebot» в Search Console.

Если краулер видит вашу страницу так же, как и вы, проблем со сканированием не возникнет.

Третий метод — специальное программное обеспечение. Например http://pr-cy.ru/simulator/ отображает программный код, который робот видит на странице, а Netpeak Spider показывает более 50 разных видов ошибок, найденных при сканировании, и разделяет их по степени важности.

Если страница не отображается так, как вы ожидали, стоит проверить, доступна ли она для сканирования: не заблокирована ли она в robots.txt, в файле .htaccess.

Проблемы со сканированием могут возникать, если сайт создан с помощью технологий Javascript и Ajax , так как поисковые системы пока с трудом сканируют подобный контент.

Как управлять сканированием страниц

Запуск и оптимизация сканирования сайта

Существует несколько методов пригласить робота-паука к себе на сайт:

  1. Разрешить сканирование сайта, если он был запаролен на сервере, и передать информацию об URL c помощью HTTP-заголовка «referer» при переходе на другой ресурс.
  2. Разместить ссылку на ваш сайт на другом ресурсе, например, в соцсетях.
  3. Зарегистрироваться в панелях вебмастеров Google и Яндекс.
  4. Сообщить о сайте поисковой системе напрямую через кабинеты вебмастеров поисковых систем:
  • Google;
  • Yandex.
  1. Использовать внутреннюю перелинковку страниц для улучшения навигации и сканирования ресурса, например, хлебные крошки.
  2. Создать карту сайта с нужным списком страниц и разместить ссылку на карту в robots.txt.

Запрет сканирования сайта

  1. Для ограничения сканирования контента следует защитить каталогов сервера паролем. Это простой и эффективный способ защиты конфиденциальной информации от ботов.
  2. Ставить ограничения в robots.txt.
  3. Использовать метатег . С помощью директивы “nofollow” стоит запретить переход по ссылкам на другие страницы.
  4. Использовать HTTP-заголовок X-Robots tag. Запрет на сканирование со стороны сервера осуществляется с помощью HTTP заголовка X-Robots-tag: nofollow. Директивы, которые применяются для robots.txt, подходят и для X-Robots tag.

Больше информации о использовании http-заголовка в справке для разработчиков.

Управление частотой сканирования сайта

Googlebot использует алгоритмический процесс для определения, какие сайты сканировать, как часто и сколько страниц извлекать. Вебмастер может предоставить вспомогательную информацию краулеру с помощью файла sitemap, то есть с помощью атрибутов:

  • — дата последнего изменения файла;
  • — вероятная частота изменений страницы;

К сожалению, значения этих атрибутов рассматриваются роботами как подсказка, а не как команда, поэтому в Google Search Console и существует инструмент для ручной отправки запроса на сканирование.

Выводы

  1. Разный контент обрабатывается ботами в разной последовательности. Это позволяет одновременно обрабатывать огромные массивы данных.
  2. Для улучшения процесса сканирования нужно создавать карты сайтов и делать внутреннюю перелинковку — чтобы бот смог найти все важные страницы.
  3. Закрывать информацию от индексирования лучше с помощью метатега или http-заголовка X-Robot tag, так как файл robots.txt содержит лишь рекомендации по сканированию, а не прямые команды к действию.

Читайте больше об инструментах для парсинга сайта , необходимых SEO-специалисту в рутинной работе.

Работа поисковых систем: общие принципы работы поисковиков

Вступление

Каждая поисковая система имеет свой алгоритм поиска запрашиваемой пользователем информации. Алгоритмы эти сложные и чаще держатся в секрете. Однако общий принцип работы поисковых систем можно считать одинаковым. Любой поисковик:

  • Сначала собирает информацию, черпая её со страниц сайтов и вводя её в свою базы данных;
  • Индексирует сайты и их страницы, и переводит их из базы данных в базу поисковой выдачи;
  • Выдает результаты по поисковому запросу, беря их из базы проиндексированных страниц;
  • Ранжирует результаты (выстраивает результаты по значимости).

Работа поисковых систем — общие принципы

Вся работа поисковых систем выполняют специальные программы и комбинации этих программ.

Перечислим основные составляющие алгоритмов поисковых систем:

  • Spider (паук) – это браузероподобная программа, скачивающая веб-страницы. Заполняет базу данных поисковика.
  • Crawler (краулер, «путешествующий» паук) – это программа, проходящая автоматически по всем ссылкам, которые найдены на странице.
  • Indexer (индексатор) – это программа, анализирующая веб-страницы, скачанные пауками. Анализ страниц сайта для их индексации.
  • Database (база данных) – это хранилище страниц. Одна база данных это все страницы загруженные роботом. Вторая база данных это проиндексированные страницы.
  • Search engine results engine (система выдачи результатов) – это программа, которая занимается извлечением из базы данных проиндексированных страниц, согласно поисковому запросу.
  • Web server (веб-сервер) – веб-сервер, осуществляющий взаимодействие пользователя со всеми остальными компонентами системы поиска.

Реализация механизмов поиска у поисковиков может быть самая различная. Например, комбинация программ Spider+ Crawler+ Indexer может быть создана, как единая программа, скачивающая и анализирующая веб-страницы и находящая новые ресурсы по найденным ссылкам. Тем не менее, нижеупомянутые общие черты программ присущи всем поисковым системам.

Программы поисковых систем

Spider

«Паук» скачивает веб-страницы так же как пользовательский браузер. Отличие в том, что браузер отображает содержащуюся на странице текстовую, графическую или иную информацию, а паук работает с html-текстом страницы напрямую, у него нет визуальных компонент. Именно, поэтому нужно обращать внимание на ошибки в html кодах страниц сайта.

Crawler

Программа Crawler, выделяет все находящиеся на странице ссылки. Задача программы вычислить, куда должен дальше направиться паук, исходя из заданного заранее, адресного списка или идти по ссылках на странице. Краулер «видит» и следует по всем ссылкам, найденным на странице и ищет новые документы, которые поисковая система, пока еще не знает. Именно, поэтому, нужно удалять или исправлять битые ссылки на страниц сайта и следить за качеством ссылок сайта.

Indexer

Программа Indexer (индексатор) делит страницу на составные части, далее анализирует каждую часть в отдельности. Выделению и анализу подвергаются заголовки, абзацы, текст, специальные служебные html-теги, стилевые и структурные особенности текстов, и другие элементы страницы. Именно, поэтому, нужно выделять заголовки страниц и разделов мета тегами (h1-h4,h5,h6), а абзацы заключать в теги

Database

База данных поисковых систем хранит все скачанные и анализируемые поисковой системой данные. В базе данных поисковиков хранятся все скачанные страницы и страницы, перенесенные в поисковой индекс. В любом инструменте веб мастеров каждого поисковика, вы можете видеть и найденные страницы и страницы в поиске.

Search Engine Results Engine

Search Engine Results Engine это инструмент (программа) выстраивающая страницы соответствующие поисковому запросу по их значимости (ранжирование страниц). Именно эта программа выбирает страницы, удовлетворяющие запросу пользователя, и определяет порядок их сортировки. Инструментом выстраивания страниц называется алгоритм ранжирования системы поиска.

Важно! Оптимизатор сайта, желая улучшить позиции ресурса в выдаче, взаимодействует как раз с этим компонентом поисковой системы. В дальнейшем все факторы, которые влияют на ранжирование результатов, мы обязательно рассмотрим подробно.

Web server

Web server поисковика это html страница с формой поиска и визуальной выдачей результатов поиска.

Повторимся. Работа поисковых систем основана на работе специальных программ. Программы могут объединяться, компоноваться, но общий принцип работы всех поисковых систем остается одинаковым: сбор страниц сайтов, их индексирование, выдача страниц по результатам запроса и ранжирование выданных страниц по их значимости. Алгоритм значимости у каждого поисковика свой.

Эволюция поисковых алгоритмов Яндекс и Google в одной статье

Время чтения: 8 минут

Эволюция поисковых алгоритмов Яндекс и Google в одной статье

Время чтения: 8 минут

Нет времени читать статью?
Но вам требуется продвижение сайта или создание сайта-лидера, идеального для SEO? Тогда вы можете оставить
заявку на продвижение или заявку на создание сайта. Если вы собираетесь продвигать сайт самостоятельно — продолжайте чтение!

Лучшие статьи

Видео

руководство по созданию
SEO текстов

Создание SEO магазинов

Все мы не понаслышке знаем о существующих алгоритмах поисковых систем Яндекс и Google. Именно для соблюдения их «постоянно обновляемых» правил все оптимизаторы ломают свой мозг все новыми и новыми способами попасть в ТОП выдачи поиска. Из последних новшеств, которые ощутили на себе владельцы сайтов со стороны ПС — это требования к мобильности интернет-ресурсов и понижение в поиске тех площадок, которые не умеют покупать ссылки. Какие алгоритмы до этого времени, внедренные в поиск, существенно повлияли на ранжирование сайтов? На самом деле, не все оптимизаторы знают, какие технологии, когда и зачем были созданы, чтобы максимально справедливо дать позицию каждому сайту в поиске и очистить выдачу от «хлама». Историю создания и развития поисковых алгоритмов мы и рассмотрим в этой статье.

Яндекс: виды алгоритмов с зачатия до сегодня

Алгоритмы не создавались все в один день, и каждый из них проходил много этапов доработки и преобразования. Основная масса названий алгоритмов Яндекса состоит из названий городов. Каждый из них имеет свои принципы работы, точки взаимодействия и уникальные функциональные особенности, гармонично дополняющие друг друга. Какие алгоритмы есть у Яндекса и как они влияют на сайты, рассмотрим далее.

Помимо информации о поисковых алгоритмах полезной будет и статья про новые фишки в Яндекс Директ. Советы по созданию качественного SEO-контента подходящего для поисковиков Гугл и Яндекс я предлагаю вам прочесть по этой ссылке.

Магадан

Алгоритм «Магадан» распознает аббревиатуры и отожествляет существительные с глаголами. Был впервые запущен в тестовом режиме в апреле 2008, а вторая постоянная версия вышла в свет в мае того же года.

Особенности

«Магадан» выдает пользователю, который написал аббревиатуру, сайты и с расшифровками. Например, если в поисковой строке вбили запрос МВД, то кроме площадок с таким ключевым словом в списке будут присутствовать и те, у кого аббревиатуры нет, но есть расшифровка «Министерство внутренних дел». Распознавание транслитерации дало пользователям возможность не думать на каком языке правильно писать названия, к примеру, Mercedes или Мерседес. Ко всему этому Яндекс включил в список индексирования почти миллиард зарубежных сайтов. Распознавание частей речи и признание их равноценными поисковыми запросами выпустили в один поиск сайты с разными ключевыми фразами. То есть теперь по ключевику «оптимизация сайтов» в выдаче выводятся и площадки с вхождением словосочетания «оптимизировать сайт».

Результаты

После запуска алгоритма «Магадан» стало труднее, в основном, малоавторитетным сайтам. В ранжировании понизились позиции по релевантным запросам малопосещаемые и молодые ресурсы, а на первые места выдвинулись авторитетные, даже с некачественным контентом, учитывая при этом морфологию и разбавленность ключевиков. Из-за учета транслитерации в ТОП Рунета вышли и зарубежные ресурсы. То есть оптимизированный текст по теме мог оказать на второй странице, только потому, что, якобы, по этой же тематике есть более посещаемый сайт или аналогичный зарубежный. Из-за этого резко возросла конкуренция по низкочастотным ключевикам и иностранным фразам. Подорожала и реклама — ставки возросли, потому что ранее сайты конкурировали только по одному конкретному запросу, а теперь и с «коллегами» с морфологическими фразами, транслитерацией, переходящими в другую часть речи словами.

Находка

Алгоритм «Находка » — расширенный тезаурус и внимательное отношение к стоп-словам. Выпущен «на ринг» сразу после «Магадана». Ранжирует основную выдачу с сентября 2008.

Особенности

Это инновационный подход к машинному обучению — ранжирование стало четче и корректней. Расширенный словарь связей и внимательность к стоп-словам в алгоритме «Находка» очень сильно повлияли на поисковую выдачу. К примеру, запрос «СЕО оптимизация» теперь ассоциировался и с ключем «сеооптимизация», а коммерческие сайты разбавлялись информационными порталами, в том числе в списке появились развернутые сниппеты с ответами, по особенному отображалась Википедия.

Результаты

Коммерческие сайты сделали больший акцент на продажные запросы, так как конкуренция увеличилась по информационным не конкретным фразам в несколько раз. В свою очередь, информационные площадки смогли расширить свою монетизацию с помощью страниц рекомендаций, участвуя в партнерских программах. Топовые инфосайты, продвинутые по коммерческим запросам стали продавать ссылки на заказ. Конкуренция ужесточилась.

Арзамас

Алгоритм «Арзамас» — внедрена лексическая статистика поисковых запросов и создана географическая привязка сайта. Первая версия «Арзамаса» (апрель 2009) без геозависимости выпущена сразу в основную выдачу, а «Арзамас 2» с классификатором по привязке сайта к региону анонсирован в августе 2009.

Особенности

Снятие привязки к омонимам облегчила пользователю жизнь, ведь теперь по фразе «американский пирог» выдавались только сайты на тему фильмов, без всяких там рецептов десертов, как могло быть раньше. Привязка к региону совершила прорыв, сместив ключевые фразы с добавкой города на несколько пунктов вниз. Теперь пользователь мог просто ввести слово «рестораны» и увидеть в лидерах только сайты из города его местонахождения. Если помните, раньше нужно было бы ввести более конкретную фразу, например «Рестораны в Санкт-Петербурге», иначе Яндекс мог выдать ответ «уточните запрос — найдено слишком много вариантов». Геонезависимые ключевые слова выдавали только релевантные запросу сайты из любых регионов, без привязки.

Результаты

Ура! Наконец-то сайты из небольших регионов перестали конкурировать с крупными мегаполисами. Выйти в ТОП по своему региону теперь намного проще. Именно в этот период времени была предложена услуга «региональное продвижение». Алгоритм «Армазас» дал возможность мелким компаниям быстрее развиваться в своей местности, но подвох все равно остался. Яндекс не мог определить геолокацию у всех площадок. И как вы сами понимаете — без привязки ресурсы оставались, мягко говоря, в одном не очень приятном месте. Рассмотрение заявки на геозависимость могло длиться несколько месяцев, а молодые сайты без трафика и ссылочной массы (было ограничение по ТИЦ), вообще, не могли подать запрос на присвоение им региональности. Палка о двух концах.

Снежинск

Алгоритм «Снежинск» — усиление геозависимости и уточнение релевантности запросов к выдаче с помощью технологии машинного обучения «Матрикснет». Анонс состоялся в ноябре 2009, а улучшенная модель под именем «Конаково» заработала в декабре того же года.

Особенности

Поисковая выдача стала более точной к вводимым вопросам. Особую роль теперь играет привязка по геолокации — коммерческие сайты не ассоциировались у алгоритма «Снежинск» с регионами, поэтому выпадали из выдачи. Ключевые слова, не привязанные к местности, отожествляются с информационными ресурсами. Сложная архитектура подсчета релевантности сильно усложнила жизнь оптимизаторов, которые заметили, что при малейшем изменении одного из показателей, позиция сайта в выдаче моментально изменялась.


Результаты

На тот момент было отмечено, что закупка внешних ссылок на молодые сайты влияла на показатели новых ресурсов слишком вяло, если сравнить аналогичную закупку на площадку, давненько находящуюся на интернет-рынке. Новые методы определения релевантности контента к поисковым запросам выбрасывали из выдачи сайты, тексты которых были перенасыщены ключевыми фразами. Началась новая эра качественного текста, где во всем должна была быть мера, без нее площадка могла просто попасть под санкции за спам. Коммерческие ресурсы забили панику, потому что выйти по геонезависимым ключевым словам в ТОП (а они были самые высокочастотные) было практически нереально. В связи с этим на блоге Яндекса была опубликована запись, что в идеале хотелось бы видеть на первых страницах коммерческие организации, которые не пишут красиво, а выполняют свою работу хорошо, но для этого придется научить алгоритмы оценивать качество предлагаемых услуг. Так как на данный момент это оказалось непосильной задачей, репутация коммерческих интернет-ресурсов играла ключевую роль в выдаче, как в онлайне так и в оффлайне.

Обнинск

Алгоритм «Обнинск» — улучшение ранжирования и расширения базы географической принадлежности интернет-площадок и снижение влияния на показатели сайта искусственных СЕО-ссылок. Запущен в сентябре 2010.

Особенности

Падает популярность закупки ссылочных масс, появляется понятие «ссылочного взрыва», которого теперь боялись все. Конкуренты могли навредить друг другу возможностью введения алгоритма в заблуждение, закупив на «коллегу» огромное количество ссылок с «плохих источников». После этого конкурент выпадал из поисковой выдачи и долго не мог туда попасть. Геозависимые слова чаще добавляются на разные страницы коммерческих сайтов, чтобы обратить внимание робота на работу с этим регионом.

Результаты

Коммерческие сайты теперь тщательней относятся к своей репутации, что не может не радовать, но многие все равно прибегали к грязным методам (искусственно завышали посещаемость и покупали отзывы). После выпуска алгоритма «Обнинск» более популярной стала закупка вечных ссылок и статей, обычная покупка ссылок уже так не влияла на ранжирование, как раньше, а в случае попадания источника бэклинка под санкции могла потянуть за собой цепную реакцию. Качественные СЕО-тексты — обязательный атрибут любого ресурса. Молодой сайт с уникальным и правильно оптимизированным контентом мог попасть в ТОП.

Краснодар

Алгоритм «Краснодар» — внедрение технологии «Спектр» для разбавления поисковой выдачи, расширения сниппетов и индексация социальных сетей. Запуск состоялся в декабре 2010 года.

Особенности

Технология «Спектр» была создана для классификации запросов по категориям и использовалась в случаях ввода не конкретизированных ключевых фраз. «Краснодар» разбавлял поисковую выдачу, предлагая такому пользователю больше разнообразных вариантов. Например, при фразе «фото Москвы» в поиске можно было увидеть не только общие пейзажи, но и фотографии по категориям типа «достопримечательности», «карты», «рестораны». Был сделан акцент на уникальные названия чего-либо (сайтов, моделей, товаров) — конкретика стала выделяться. Расширенные сниппеты дали возможность сразу в поисковой выдаче показывать пользователям контакты и другие данные организаций.

Результаты

Сильно изменилось ранжирование коммерческих сайтов, особое внимание уделяется деталям (карточкам товаров, разделением короткого описания от общего). Социальная сеть в ВК начала индексироваться и профили участников равноценно теперь видны прямо в поисковой выдаче. Сообщения в форумах могли занимать первые позиции, если имели более расширенный ответ на вопрос пользователя, чем другие сайты.

Рейкьявик

Алгоритм «Рейкьявик» — создана персонализация поисковой выдачи и добавлена технологи «Колдунщики» для отображения предварительных итогов запроса. Улучшена формула подсказок при вводе. Алгоритм запущен в августе 2011 года.

Особенности

Девизом персонализированного поискового результата — «Каждому пользователю — своя выдача». Система запоминания интересов ищущих работала через куки, поэтому если запросы пользователя чаще были связаны, например, с зарубежными ресурсами, в следующий раз в лидерах поисковой выдачи отображались именно они. Подсказки в поисковой строке обновляются каждый час, тем самым расширяя возможности конкретизированного поиска. Конкуренция по высокочастотным запросам возрастает с неимоверной силой.

Результаты

Авторитетные новостные сайты чаще попадают в ТОП из-за расширенного семантического ядра (наличие огромного количества разных низкочастотных ключевых запросов). Увеличение количества страниц под конкретные поисковые запросы на информационных сайтах стала играть одну из главных ролей после выпуска алгоритма «Рейкьвик». Каждая площадка пыталась попасть в закладки пользователя, чтобы стать частью системы персонализации, для этого использовались методы подписки на RSS ленту, всплывающие баннеры-подсказки для занесения сайта в закладки. Интернет-ресурсы начали больше уделять внимания индивидуальному подходу, а не давить на массы.

Калининград

Алгоритм «Калининград» — глобальная персонализация поиска и поисковой строки, упор на поведенческие факторы. Запуск «Калининграда» в декабре 2012 существенно повысил стоимость seo услуг.

Особенности

Интересы пользователя перевернули с ног на голову всю поисковую выдачу — владельцы сайтов, ранее не заботившиеся о комфорте пребывания посетителя на сайте, стали терять трафик с молниеносной скоростью. Теперь Яндекс делил интересы на краткосрочные и долговременные, обновляя свои шпионские базы раз в сутки. Это означало, что сегодня и завтра по одному и тому же запросу одному и тому же пользователю могла показываться совершенно иная выдача. Интересы теперь играют особую роль и пользователю, который ранее интересовался поездками, вбивая фразу такси — показываются услуги такси, а тому, кто постоянно смотрит фильмы — получит в результатах поиска все о кинокомедии «Такси». В поисковой строке каждого «страждущего найти информацию» теперь на первых позициях отображаются подсказки по предыдущим интересам.

Результаты

Оптимизаторы стали охватывать все больше способов задержать пользователя: улучшалось юзабилити, дизайн, контент создается более разнообразный и качественный. При выходе могли всплывать окна типа «вы уверены, что хотите покинуть страницу» и в пользователя впивалась грустная рожица какого-то существа. Хорошо продуманная перелинковка страниц и всегда доступное меню улучшали показатели активности пользователей, чем повышали позиции сайтов в поисковой выдаче. Малопонятные широкому кругу интернет-пользователей сайты сначала просто понижались в позициях, а после и вообще болтались в конце списка предложенных результатов.

Дублин

Алгоритм «Дублин» — улучшена персонализация с помощью определения текущих целей. Это модернизированная версия «Калининграда» вышла в мир в мае 2013.

Особенности

В технологию внедрена функция слежения за изменчивыми интересами пользователей. То есть при наличии двух совершенно разных поисковых взглядов за определенный период времени, алгоритм предпочтет последний и включит его в поисковую выдачу.

Результаты

Для сайтов практически ничего не изменилось. Продолжается борьба не просто за трафик, а за улучшение поведенческих показателей. Старые макеты сайтов начинают забрасываться, потому что проще делать новый, чем пытаться исправить что-то на старом. Предложение услуг шаблонов сайтов увеличивается, начинается конкуренция за удобные и красивые макеты вебресурсов.

Острова

Алгоритм «Острова» — внедрена технология показа интерактивных блоков в поисковой выдаче, позволяя взаимодействовать пользователю с сайтом прямо на странице Яндекс поиска. Алгоритм был запущен в июле 2013 года, с предложением к вебмастерам активно поддержать бета-версию и использовать шаблоны создания интерактивных «островов». Сейчас технология тестируется в закрытом режиме.

Особенности

Теперь пользователю при поиске информации, которую можно узнать сразу из поиска предлагались «острова» — формы и другие элементы, с которыми можно работать, не посещая сайт. Например, вы ищете конкретный фильм или ресторан. По фильму в поиске и справа от него отобразятся блоки с обложкой фильма, его названием, составом актеров, часами прохождения сеансов в кинотеатрах в вашем городе и формой покупки билетов. По ресторану будет показано его фото, адрес, телефоны, форма бронирования столика.

Результаты

Ничего существенного в ранжировании сайтов сначала не изменилось. Единственное, что стало заметным — это появление вебресурсов с интерактивными блоками на первом месте и справа от поисковой выдачи. Если бы количество площадок, принимавших участие в бета-тестировании было значительным, они могли бы вытеснить обычные сайты за счет своей привлекательности и броскости для пользователей. Оптимизаторы задумались об улучшении видимости своего контента в поисковых результатах, добавляя больше фото, видео, рейтинги и отзывы. Лучше живется интернет-магазинам — корректно настроенные карточки товара могут быть отличным интерактивным «островком».

Минусинск

Алгоритм «Минусинск» — при определении SEO-ссылок как таковых, которые были куплены для искажения результатов ранжирования поиска, на сайт ложился фильтр, который существенно портил позиции сайта. Анонсирован «Минусинск» в апреле 2015, полностью вступил в свои права в мае этого же года. Именно с этим алгоритмом и связана знаменитая Санта Барбара Яндекс.

Особенности

Перед выходом «Минусинска» Яндекс в 2014 для тестирования отключил влияние SEO-ссылок по множеству коммерческих ключей в Москве и проанализировал результаты. Итог оказался предсказуемым — покупная ссылочная масса все еще используется, а для поисковой системы — это спам. Выпуск «Минусинска» знаменовался днем, когда владельцы сайтов должны были почистить свои ссылочные профили, а бюджет, который тратится на ссылочное продвижение, использовать для улучшения качества своего интернет-ресурса.

Результаты

«Авторитетные» сайты, которые добились ТОПа благодаря массовой закупке ссылок, вылетели из первых страниц, а некоторые получили санкции за нарушения правил. Качественные и молодые площадки, не наглеющие по бэклинкам, внезапно оказались в ТОП 10. «Попавшие под раздачу» вебсайты, нежелающие долго ждать, создавали новые площадки, перенося контент и ставя заглушку на старые, либо хитро шаманили с редиректом. Примерно через 3 месяца нашли дыру в алгоритме, позволяющую почти моментально снимать данный фильтр.

Массово начинает дорабатываться юзабилити и улучшаться контент. Ссылки закупаются с еще большей осторожностью, а контроль за бэклинками становится одной из функциональных обязанностей оптимизатора.

По данным на сегодня — при неумелой закупке ссылок — даже за 100 ссылок можно получить фильтр. Но если ссылочную массу правильно разбавлять, то смело можно покупать тысячи ссылок как и в старые добрые. То-есть, по сути — сильно выросли ссылочные бюджеты на это самое разбавление, в роли которого выступил крауд и упоминания.

Владивосток

Алгоритм «Владивосток» — внедрение в поиск технологии проверки сайта на полную совместимость с мобильными устройствами. Полный старт проекта произошел в феврале 2020 года.

Особенности

Яндекс сделал очередной шаг навстречу к мобильным пользователям. Специально для них был разработан алгоритм «Владивосток». Теперь для лучшего ранжирования в мобильном поиске сайт обязан соответствовать требованиям мобилопригодности. Чтобы опередить своих конкурентов в поисковой выдаче интернет-ресурс должен корректно отображаться на любом web-устройстве, включая планшеты и смартфоны. «Владивосток» проверяет отсутствие java и flash плагинов, адаптивность контента к расширению экрана (вместимость текста по ширине дисплея), удобство чтения текста и возможность комфортно нажимать на ссылки и кнопки.

Результаты

К запуску алгоритма «Владивосток» мобилопригодными оказались всего 18% сайтов — остальным пришлось быстренько избавляться от «тяжести» на страницах, которая не отображается или мешает корректно отображаться контенту на смартфонах и планшетах. Основным фактором, который влияет на понижение вебсайта в мобильной выдаче — это поведение мобильного пользователя. Во всяком случае, пока. Ведь идеально мобилопригодных сайтов не так уж много, поэтому свободные места в поиске занимают те, кто способен предоставить пользователю максимально комфортные условия, пусть даже не полностью. Из мобильного поиска неадаптированные к мобильным устройствам сайты не выбрасываются, а просто ранжируются ниже тех, кто достиг в улучшении качества предоставления услуг для смартпользователей лучших результатов. На данный момент самый популярный вид заказов макетов сайтов — адаптивные, а не мобильные, как можно было подумать. Прошедшие все требования алгоритма сайты получают максимальное количество мобильного трафика в своей нише.

Google: история создания и развития алгоритмов

Алгоритмы и фильтры Гугла и до сей поры не совсем поняты русскоязычным оптимизаторам. Для компании Google всегда важным моментом являлось скрытие подробностей по методам ранжирования, объясняя это тем, что «порядочным» сайтам боятся нечего, а «непорядочным» лучше не знать, что их ожидает. Поэтому про алгоритмы Гугла до сих слагают легенды и множество информации было получено только после того, как задавались вопросы поддержке, когда сайт проседал в поисковой выдаче. Мелких доработок у Google было столько, что и не перечесть, а на вопросы, что именно изменилось, зарубежная ПС просто отмалчивалась. Рассмотрим основные алгоритмы, которые влияли на позиции сайтов существенно.

Кофеин

Алгоритм «Кофеин» — на первой странице поиска может находиться сразу несколько страниц одного и того же сайта по бренду, появляется возможность пред просмотра. Запуск произошел в июне 2010 года.

Особенности

Выделение сайтов компаний, в случае поиска по бренду. Возле строки с выдачей появляется «лупа» для предосмотра. Ключевые слова по бренду дают положительную тенденцию роста на позициях интернет-ресурса в целом. Обновился индекс Page Rank, при этом PR повысился на известных и посещаемых площадках.

Результаты

Оптимизаторы стали больше уделять внимания брендированию вебсайтов, включая цветовые схемы, логотипы, названия. Ключевые слова на бренд по-особенному выделяли страницы сайта в поиске, а при переходе с такой фразы посетителя на главный page, его позиции в выдаче росли (если до этого ресурс был не лидером). СЕО-оптимизаторы стали закупать больше ссылок для повышения «цитированности». молодым и малоузнаваемым брендам практически невозможно было пробиться в ТОП выдачи.

Panda (Панда)

Алгоритм «Панда» — технология проверки сайта на качество и полезность контента, включая множество СЕО факторов. Сайты с «черным» SEO исключаются из поиска. Анонсирована «Panda» в январе 2012 года.

Особенности

«Панда» вышла в поиск и почистила его от мусора. Именно так можно сказать после того, как множество не релевантных ключевым запросам web-сайты исчезли из выдачи Google. Алгоритм обращает внимание на: переспам ключевыми словами и неравномерное их использование, уникальность контента, постоянство публикаций и обновления, активность пользователя и взаимодействие его с сайтом. Пролистывание посетителя страницы до конца со скоростью чтения считалось положительным фактором.

Результаты

После включения «Панды» огромное количество сайтов поддались санкциям с боку поисковой системы Google и поначалу все думали, что это связано с участием в ссылочных пирамидах и закупкой ссылочных масс. В итоге, СЕОоптимизаторы провели процесс тестирования алгоритма и проанализировали влияние. Вывод экспериментов заключался в том, что «Панда» все-таки проверяет качество сайта на ценность для посетителей. Интернет-ресурсы перестали копипастить и активно принялись за копирайтинг. Поведенческие факторы улучшались за счет преобразования структуры сайта в более удобные варианты, а перелинковка внутри статей с помощью особых выделений стала важной частью оптимизации. Популярность SEO как услуги стремительно возросла. Замечено, что сайты, не соответствующие правилам «Панды», исчезали из поиска очень быстро.

Page Layout (Пейдж Лайот)

Алгоритм «Пейдж Лайот» — технология по борьбе с поисковым спамом, подсчитывающая на страницах web-сайтов соотношение полезного контента к спамному. Запущен в январе 2012 и обновлялся до 2014 включительно.

Особенности

«Page Layout» был создан после многочисленных жалоб пользователей на недобросовестных владельцев сайтов, у которых на страницах подходящего контента было совсем мало или искомые данные оказывались труднодоступными, а иногда вообще отсутствовали. Алгоритм рассчитывал в процентном соотношении нахождение на странице по входящему запросу релевантного контента и спама. На несоответствующие требованиям площадки накладывались санкции и сайт выбрасывался из поиска. К несоблюдению правил размещения документов также относилось забитая рекламой шапка сайта, когда для просмотра текста требовалось перейти на второй экран.

Результаты

Слишком заспамленные рекламой сайты слетели со своих позиций, даже при том, что контент на страницах был оптимизирован под ключевые слова в меру. Нерелевантные запросам страницы были понижены в поисковой выдаче. Но площадок нагло не соблюдая правила и не беспокоясь о комфортности посетителей оказалось не так уже и много. За три обновления алгоритма приблизительное количество ресурсов, попавших под фильтр, оказалось не более 3%.

(Венеция)

Алгоритм «Венеция» — геопривязка сайта к определенному региону, учитывая при этом наличие названий городов на страницах сайта. Запущен в феврале 2012 года.

Особенности

«Венеция» требовала от вебмастеров наличие на их сайтах страницы «О нас», с указанием адреса местоположения, не обращая при этом внимания, что фактического расположения у компании могло и не быть. В контексте алгоритм искал названия городов, чтобы вывести отдельную страницу по указанному в нем региону. Начала использоваться разметка schema-creator.org, чтобы пояснить поисковому роботу свою географическую привязанность.

Результаты

Сайты выпали в поисковой выдаче по тем регионам, о которых они не упоминают на своих страницах, не учитывая геонезависимые запросы. Оптимизаторы активно включают геозависимые ключевые слова и пытаются создавать микроразметку. Контент на каждой странице персонализируется под каждый конкретный город или регион в целом. Активно стал использоваться локализированный линкбилдинг, чтобы повышать позиции по выбранному региону.

(Пингвин)

Алгоритм «Пингвин» — умная технология определения веса сайтов и качества обратных ссылок. Система редактирования накрученных показателей авторитетности интернет-ресурсов. Запущена в поиск в апреле 2012.

Особенности

«Пингвин» нацелен на войну с закупкой обратных ссылок, неестественным, то есть искусственным, набором авторитетности сайта. Алгоритм формирует свою базу значимых ресурсов, исходя от качества бэклинков. Побуждением на запуск «Пингвина» являлось появление ссылочных оптимизаторов, когда любая ссылка на вебресурс имела одинаковый вес и подымала такой сайт в поисковой выдаче. Кроме этого, в поиске начали ранжироваться наравне со стандартными интернет-ресурсами обычные профили пользователей социальных сетей, что еще больше популяризовало раскрутку обычных сайтов с помощью социальных сигналов. Одновременно с этими возможностями алгоритма система стала бороться с нерелевантными вставками поисковых запросов в keywords и в названия доменов.

Результаты

Пингвин «попустил» множество сайтов в поисковой выдаче за неестественный рост обратных ссылок и нерелевантность контента к запросам пользователей. Значимость каталогов и площадок по продаже ссылок быстро снижалось к минимуму, а авторитетных ресурсов (новостных сайтов, тематических и околотематических площадок) росло на глазах. Из-за введения алгоритма «Пингвин» у, практически, всех публичных сайтов был пересчитан PR. Популярность массовой закупки бэклинков резко упала. Сайты максимально начали подгонять ключевые фразы к контенту на страницах площадок. Началась «мания релевантности». Установка социальных кнопок на страницах в виде модулей имела массовый характер за счет быстрой индексации аккаунтов социальных сетей в поиске.

Pirate (Пират)

Алгоритм «Пират» — технология реагирования на жалобы пользователей и выявления фактов нарушения авторских прав. Старт системы произошел в августе 2012 года.

Особенности

«Пират» принимал жалобы авторов на нарушение их авторских прав владельцами сайтов. Кроме текстов и картинок, основной удар на себя приняли площадки с видео-контентом, которые размещали пиратские съемки фильмов из кинотеатров. Описания и рецензии к видео тоже подверглись фильттрованию — теперь не разрешалось копипастить под страхом наложения санкций. За большое количество жалоб на сайт за нарушения, такая площадка выкидывалась из поисковой выдачи.

Результаты

По результатам первого месяца работы «Пирата» от Google на практически всех сайтах, включая видехостинги и онлайн-кинотеатры, были заблокированы к просмотру миллионы видео-файлов, нарушающих права правообладателей. Вебсайты, имеющие только пиратский контент, оказались под санкцией и выпали из поиска. Массовая зачистка от «ворованного» контента продолжается до сих пор.

HummingBird (Колибри)

Алгоритм «Колибри» — внедрение технологии понимания пользователя, когда запросы не соответствуют точным вхождениям. Запущена система «определения точных желаний» в сентябре 2013 года.

Особенности

Теперь пользователь не изменял фразу, чтобы конкретней найти нужную информацию. Алгоритм «Колибри» давал возможность не искать по прямым точным вхождениям, а выдавал результаты из базы «расшифровки пожеланий». Например, пользователь вбивал в поисковую строку фразу «места для отдыха», а «Колибри» ранжировала в поиске сайты с данными о санаториях, отелях, СПА-центрах, бассейнах, клубах. То есть в алгоритме были сгруппирована стандартная база с человеческими фразами об их описании. Понимающая система изменила поисковую выдачу существенно.

Результаты

С помощью технологии «Колибри» сеооптимизаторы смогли расширить свое семантическое ядро и получить больше пользователей на сайт за счет морфологических ключей. Ранжирование площадок уточнилось, потому что теперь учитывались не только вхождения прямых ключевых фраз и релевантных тексту запросов, но и околотематические пожелания пользователей. Появилось понятие LSI-копирайтинг — написание текста, учитывающего латентное семантическое индексирование. То есть теперь статьи писались не только со вставкой ключевых слов, но и максимально включая синонимы и околотематические фразы.

(Голубь)

Алгоритм «Голубь» — система локализации пользователей и привязки поисковой выдачи к месту нахождения. Технология запущена в июле 2014 года.

Особенности

Месторасположение пользователя теперь играло ключевую роль для выдачи результатов. Органический поиск превратился в сплошную геолокацию. Привязка сайтов к Гугл-картам сыграла особую роль. Теперь при запросе пользователя, алгоритм сначала искал ближайшие по местоположению сайты или таргетированный контент, далее шел на удаление от посетителя. Органическая выдача видоизменилась существенно.

Результаты

Локальные сайты быстро возвысились в поиске и получили местный трафик. Интернет-площадки без геозависимости упали в позициях. Снова началась борьба за каждый город и количественно возросли ситуации, когда начали плодить одинаковые сайты с отрерайченным контентом и привязкой к разной местности. До получения точной информации о внедрении алгоритма «Голубь» в русскоязычном интернет-поиске, многие вебмастера думали, что попали под санкции «Пингвина».

(Дружелюбный к мобильным устройствам)

Алгоритм Mobile-Friendly — внедрение технологии проверки сайтов на адаптивность к мобильным устройствам. Система запущена в апреле 2015 года и успела «обозваться» в интернете как: «Мобильный Армагеддон» (mobilegeddon), «Мобильный Апокалипсис» (mobilepocalyse, mobocalypse, mopocalypse).

Особенности

Mobile-Friendly запустил новую эру для мобильных пользователей, рекомендуя оптимизаторам в срочном порядке обеспечить комфортное пребывание мобильных посетителей на их сайтах. Адаптивность площадок к мобильным устройствам стала одним из важнейших показателей заботы владельцев сайтов о своих посетителях. Неадаптивным веб-площадкам пришлось в кратчайшие сроки исправлять недоработки: избавляться от плагинов, не поддерживающихся на планшетах и смартфонах, корректировать размер текста под расширение разных экранов, убирать модули, мешающие пребыванию посетителей с маленьким экранчиком перемещаться по сайту. Кто-то просто верстал отдельную мобильную версию своего интернет-ресурса.

Результаты

Заранее готовые к такому повороту ресурсы получили особое выделение среди других интернет-площадок в поисковой выдаче, а трафик из разнообразных не декстопных устройств на такие вебсайты повысился более чем на 25%. Совсем неадаптивные сайты были понижены в мобильном поиске. Направленность на мобильность сыграла свою роль — на ресурсах свели к минимуму наличие тяжелых скриптов, рекламы и страницы, естественно, начали грузиться быстрее, учитывая, что большинство пользователей с планшетами/смартфонами используют мобильный интернет, который в разы медленнее, чем стандартный.

Резюме

Теперь вам известно, как по годам развивался поиск как для обычных пользователей, так и для «попавших по раздачу» сайтов. Каждый из вышеперечисленных алгоритмов поиска периодически модернизируется. Но это не значит, что оптимизаторам и вебмастерам стоит чего-то бояться (если конечно вы не используете черное СЕО), но держать ухо востро все же стоит, чтобы неожиданно не просесть в поиске из-за очередного нового фильтра.

Ускорения индексации — как правильно приманить поисковых роботов на сайт

Часто происходят ситуации, в которых необходимо, чтобы краулер Google в кратчайшие сроки проиндексировал недавно появившиеся страницы на сайте. Вот список наиболее частых причин, которые могут привести к этой ситуации:

  • Добавление большого количества материала на сайт;
  • Реорганизация структуры сайта, ведущая к смене URL разделов;
  • Перенос сайта на новый домен.

Самый затратный процесс из вышеперечисленных — перенос сайта на новый домен. Для безболезненного переезда необходимо совершить множество действий, и важно о многом не забыть. Подробно об алгоритме переноса сайта на новый домен почитайте в нашей статье.

Для большинства задач, касающихся взаимодействия поисковых роботов Google и вашего сайта, необходимо подключить сайт к системе Google Search Console. Разберемся, как это сделать и какие возможности по привлечению поисковых роботов этот шаг предоставит.

Добавление сайта в Google Search Console

Google Search Console — инструмент, служащий для отслеживания уровня оптимизации сайта в поисковой системе. С его помощью удобно следить за такими параметрами:

  • Запросы, приводящие к появлению сайта в поисковой выдаче, и количество пользователей, переходящих по ним;
  • Сайты, на которых содержатся ссылки на ваш сайт;
  • Какая информация отображается о сайте при расширенном поиске.

Если ваш сайт еще не подключен к Search Console, вы можете проделать это в несколько шагов.

  1. Перейдите по ссылке и залогиньтесь под своим Google-аккаунтом;
  2. Добавьте ссылку на сайт и нажмите «добавить ресурс»;
  3. Выберите способ подтверждения права собственности на сайт. Способов осуществить это много, и они несложные:
    1. Добавление определенного метатега на главную страницу сайта;
    2. Вход через Google Analytics или Диспетчер тегов Google;
    3. Добавление указанного html-файла на сервер.

После подтверждения сайт отобразится на главной странице Search Console.

Добавление в индекс отдельной страницы

Если вы хотите добавить в индекс одну или небольшое количество страниц, можно воспользоваться формой на этой странице Search Console:

Это самый простой способ, однако, как предупреждает сам Google, довольно медленный и ненадежный. К тому же гораздо удобнее при помощи Search Console следить за индексированием всех разделов сайта сразу.

Запрос на пересканирование сайта

С помощью Search Console можно запустить пересканирование главной страницы сайта и всех ссылок, которые на ней находятся.

Для этого в панели инструментов выберите в боковом меню «Сканирование — Просмотреть как Googlebot». Эта функция меню позволит узнать, как сайт выглядит для поискового робота. Нажмите кнопку «Сканировать», а затем на появившейся строке в таблице — «Добавить в индекс». В появившемся окне подтверждения выберите «Сканировать этот URL и прямые ссылки».

Эта опция укажет поисковику отсканировать все страницы, на которые можно перейти с указанного URL по внутренним ссылкам.

Создание и добавление карты сайта Sitemap.xml

Карта сайта — это документ в формате XML, служащий для предоставления поисковику подробной информации о структуре сайта, его разделах, а также различной дополнительной информации. Модифицируя файл Sitemap, можно точно указать поисковику на те страницы, которые стоит индексировать в первую очередь, и как часто это делать.

Формат карты сайта

Главная часть файла sitemap.xml состоит из таких блоков:

Рассмотрим, для чего служит каждый из тегов блока .

  • loc — единственный обязательный параметр. В нем заключена абсолютная ссылка на адрес страницы, которую следует проиндексировать.
  • lastmod — содержит дату последнего изменения страницы в формате W3C Datetime (точное время можно опустить и ограничиться датой: 2020-05-12. Поисковой робот не будет переиндексировать страницу, содержимое которой не изменилось.
  • changefreq — указывает на примерную частоту обновления страницы. Можно указывать такие значения:
    • always — постоянная проверка;
    • hourly — информация обновляется ежечасно;
    • daily — информация обновляется ежедневно;
    • weekly — еженедельное обновление информации на сайте;
    • monthly — ежемесячное обновление;
    • yearly — страница должна сканироваться в среднем раз в год;
    • never — указывается для страниц, содержащих архивную информацию.
  • priority — относительный приоритет относительно других страниц в рамках сайта. Варьируется в рамках от 0 до 1. Здесь можно выделить более высоким приоритетом те страницы, которые наиболее важны для индексации по сравнению с другими.

Генерация карты сайта

Если структура сайта сложная и громоздкая, ручное составление карты сайта становится затруднительным. Благо, в сети существуют онлайн-сервисы для генерации Sitemap (например, этот), а наиболее популярные CMS имеют свои инструменты для решения этой задачи: например, Google Sitemap Generator для WordPress, XMAP для Joomla.

Добавление карты сайта в Search Console

На панели управления в боковом меню выберите «Сканирование — файлы Sitemap», затем кнопку «Добавление/проверка файла Sitemap». В появившемся окне укажите ссылку, по которой доступен сгенерированный файл карты сайта на сервере.

Заключение

Google Search Console предоставляет широкий арсенал возможностей по контролю и оптимизации сайта для поисковых систем. В этой статье были рассмотрены его возможности при необходимости быстрой индексации новых либо переиндексации старых страниц.

Если вы нашли ошибку, выделите участок текста и нажмите Ctrl + Enter или воспользуйтесь ссылкой , чтобы сообщить нам.

Топ-пост этого месяца:  Что такое крауд-маркетинг или добываем ссылки своими руками
Добавить комментарий