Как работают поисковые системы — сниппеты, алгоритм обратного поиска, индексация страниц и

Содержание материала:

Отчеты | Как работают поисковые системы и что такое сниппеты

Мария Бори­сё­нок

Всего материалов: 395

Как работают поисковые системы и что такое сниппеты

26 сен­тяб­ря при под­держ­ке Mail.Ru Group состо­ял­ся митап Теп­ли­цы соци­аль­ных тех­но­ло­гий «Самые оба­я­тель­ные и при­вле­ка­тель­ные, или Как уве­ли­чить при­ток поль­зо­ва­те­лей с поис­ко­вых систем на сайт». Участ­ни­ки узна­ли прин­ци­пы рабо­ты поис­ко­вых систем, пра­ви­ла индек­са­ции и позна­ко­ми­лись с инстру­мен­та­ми созда­ния снип­пе­тов.

На встре­че высту­пил Павел Кар­пов, про­фес­си­о­наль­ный интер­нет-мар­ке­то­лог, кон­суль­тант рос­сий­ских и транс­на­ци­о­наль­ных ком­па­ний, спи­кер кон­фе­рен­ции WordCamp.

Основы алгоритмов поисковых систем

Несмот­ря на раз­но­об­ра­зие поис­ко­вых систем (Яндекс, Google, Mail.Ru, Bing), их рабо­та сво­дит­ся к трем дей­стви­ям:

  1. най­ти инфор­ма­цию на сай­те с помо­щью робо­тов;
  2. обра­бо­тать полу­чен­ную инфор­ма­цию (индек­са­ция стра­ниц);
  3. дове­сти инфор­ма­цию до поль­зо­ва­те­ля.

Вла­де­лец сай­та может вли­ять на все эта­пы выда­чи инфор­ма­ции. Раз­бе­рем, как имен­но.

Этап 1. Поиск информации поисковыми роботами

Поис­ко­вые робо­ты ска­ни­ру­ют сай­ты и соби­ра­ют нуж­ную инфор­ма­цию для поис­ко­ви­ков. Для нача­ла про­верь­те, досту­пен ли ваш сайт для ска­ни­ро­ва­ния.

Далее убе­ди­тесь, есть ли у вас кар­та сай­та в виде фай­ла Sitemap. Файл Sitemap – это файл с инфор­ма­ци­ей о стра­ни­цах сай­та, кото­рые под­ле­жат индек­си­ро­ва­нию. Раз­ме­стив этот файл на сай­те, вы може­те:

  • сооб­щить поис­ко­вой систе­ме, какие стра­ни­цы ваше­го сай­та нуж­но индек­си­ро­вать;
  • узнать, как часто обнов­ля­ет­ся инфор­ма­ция на стра­ни­цах;
  • обо­зна­чить, индек­си­ро­ва­ние каких стра­ниц наи­бо­лее важ­но.

Совет Пав­ла Кар­по­ва: Так­же реко­мен­дую про­ве­рить сайт на нали­чие битых ссы­лок и посмот­реть содер­жи­мое фай­ла robots.txt, кото­рый лежит в корне сай­та.

Если у вас появи­лась новая стра­ни­ца на сай­те, убе­ди­тесь, что у поис­ко­вых систем не воз­ник­нет про­блем с досту­пом к ней для индек­са­ции.

Алек­сей Куль­пин, раз­ра­бот­чик WordPress-пла­ги­нов. Фото: Бек Юсу­пов.

Этап 2. Индексация сайта

После того как робо­ты собра­ли инфор­ма­цию, начи­на­ет­ся каче­ствен­ный ана­лиз содер­жи­мо­го сай­та. Есть про­ве­рен­ные при­е­мы, кото­рые могут повли­ять на ско­рость попа­да­ния в поис­ко­вые систе­мы:

  • повы­шай­те уро­вень цити­ру­е­мо­сти: чем чаще на вас ссы­ла­ют­ся, тем реле­вант­нее для поис­ко­вой выда­чи ваш сайт;
  • пиши­те боль­шие тек­сты. Чем объ­ем­нее текст на стра­ни­це, тем боль­ше шанс, что в нем содер­жит­ся боль­ше отве­тов на запро­сы людей;
  • дели­тесь сво­и­ми тек­ста­ми в соци­аль­ных сетях и соби­рай­те рет­ви­ты.

Участ­ни­ки мита­па. Фото: Бек Юсу­пов.

Этап 3. Выдача данных пользователю

Алго­ритм выда­чи дан­ных у систем Яндекс и Google раз­ли­чен. В 2009 году Яндекс внед­рил новый метод машин­но­го обу­че­ния – Мат­рикс­нет. В нем важ­ная роль отво­дит­ся асес­со­рам, сотруд­ни­кам поис­ко­вых ком­па­ний, кото­рые зани­ма­ют­ся оцен­кой реле­вант­но­сти стра­ниц в поис­ко­вой выда­че запро­сам поль­зо­ва­те­лей.

Асес­со­ры про­смат­ри­ва­ют спи­сок запро­сов и созда­ют выбор­ку реле­вант­ных сай­тов. Роль чело­ве­че­ско­го фак­то­ра здесь зна­чи­тель­на, в отли­чие от прин­ци­па рабо­ты систе­мы Google.

Поиск в систе­ме Google осно­ван на искус­ствен­ном интел­лек­те Rank Brain. При каж­дом запро­се Rank Brain ана­ли­зи­ру­ет инфор­ма­цию на осно­ве дан­ных, полу­чен­ных ранее. После ана­ли­за мно­же­ства фак­то­ров, в том чис­ле и пове­ден­че­ских, он пред­ла­га­ет реле­вант­ный вари­ант выда­чи на обсуж­де­ние асес­со­рам Google. В слу­чае если вари­ант откло­нен, то Rank Brain про­дол­жа­ет искать нуж­ный ответ.

Вы не може­те рабо­тать толь­ко с клю­че­вы­ми сло­ва­ми, так как чело­век может фор­му­ли­ро­вать запрос совер­шен­но непред­ска­зу­е­мым обра­зом. Не дове­ряй­те пози­ци­ям соб­ствен­но­го сай­та в поис­ко­ви­ке. Павел Кар­пов

Спе­ци­фи­ка­ции Яндекс и Google о фак­то­рах ран­жи­ро­ва­ния посто­ян­но меня­ют­ся, и за их обнов­ле­ни­я­ми сле­дят про­фес­си­о­наль­ные SEO-спе­ци­а­ли­сты. Для тех, кто не хочет углуб­лять­ся в SEO, пред­ла­га­ем разо­брать­ся со снип­пе­та­ми.

Снип­пе­ты – это инфор­ма­тив­ные бло­ки, кото­рые выда­ют поис­ко­ви­ки при запро­се. Дан­ные бло­ки содер­жат назва­ние стра­ни­цы и неболь­шое опи­са­ние сай­та (инфор­ма­ция из мета-тега «description»).

Инструменты создания сниппетов

Снип­пе­ты по-раз­но­му отоб­ра­жа­ют­ся в каж­дой поис­ко­вой систе­ме, поэто­му сто­ит узнать подроб­нее о снип­пет-раз­мет­ке для Яндекс и Google. Так­же реко­мен­ду­ем най­ти отдель­ные инстру­мен­ты по созда­нию и про­дви­же­нию снип­пе­тов для каж­дой CMS-плат­фор­мы.

Алгоритмы и технологии Яндекса. Как работает поиск?

В прошлой статье мы рассмотрели наиболее интересные технологии Яндекса, применяемые для обеспечения качественного поиска в интернете. Теперь разберем более подробно, как устроена поисковая машина Яндекса. Что же происходит после того, как пользователь вводит запрос в строку поиска?

MatrixNet

Технология поиска Яндекс устроена сложно. Поисковая выдача формируется на основе формулы ранжирования, построенной на нескольких сотнях факторов, каждый из которых может включаться с индивидуальным коэффициентом, а также в различных комбинациях с прочими факторами.

Формула ранжирования — это функция, построенная на множестве факторов, при помощи которых определяется релевантность сайта поисковому запросу и его очередность в выдаче

Для обеспечения качественного поиска факторы и коэффициенты в формуле ранжирования должны регулярно обновляться. Построением такой формулы в Яндексе занимается MatrixNet (Матрикснет) — метод машинного обучения, введенный Яндексом в 2009 году с целью сделать поиск более точным.

«Матрикснет» — метод машинного обучения, с помощью которого подбирается формула ранжирования Яндекса. Входными данными являются факторы и обучающие данные, подготовленные асессорами (экспертными сотрудниками Яндекса).

Основная его особенность заключается в том, что он устойчив к переобучению и позволяет построить сложную формулу ранжирования с десятками тысяч коэффициентов, которая учитывает множество различных факторов и их комбинаций без увеличения количества асессорских оценок и опасности найти несуществующие закономерности.

Архитектура поиска

Ежедневно пользователи посылают Яндексу десятки миллионов запросов. Для формирования ответа под какой-нибудь один запрос поисковой машине необходимо проверить миллионы документов, определить их релевантность и упорядочить при помощи формулы ранжирования так, чтобы наиболее подходящие страницы сайтов оказались вверху выдачи. Для ускорения этого процесса Яндекс использует заранее подготовленные данные — индекс.

Индекс — база поисковой системы, содержащая сведения о запросах и их позициях на страницах сайтов в сети. Индекс формируется поисковым роботом, который обходит сайты и собирает информацию с заданной периодичностью.

Размер индекса в поиске огромен, чтобы быстро обработать такой объем данных используются тысячи серверов, объединенные в кластеры.

После того, как пользователь вводит запрос в строку поиска, он анализируется компьютерной системой «Метапоиск» на предмет региональной привязки, класса запроса и т.д. Там же запрос проходит лингвистическую обработку. Далее «Метапоиск» проверяет кэш на наличие поискового ответа по данному запросу. По часто задаваемым запросам результаты поиска хранятся в памяти поисковика в течение какого-то времени, а не формируются каждый раз заново.

«Метапоиск» — это программа, которая принимает и разбирает поисковые запросы, передает их соответствующим «Базовым поискам», обеспечивает агрегацию и ранжирование найденных документов, а также производит кеширование части ответов, которые впоследствии возвращаются пользователям без обращения к «Базовому поиску».

Если же ответ не найден, «Метапоиск» передает запрос другой компьютерной системе – «Базовому поиску». Там же хранится поисковая база Яндекса (индекс). Так как это огромный объем данных, индекс разбивается на части, которые хранятся на разных серверах. Такой подход позволяет производить поиск одновременно по нескольким частям базы данных, что заметно ускоряет процесс. Каждый сервер имеет несколько копий, это дает возможность распределять нагрузку и не терять данные. При передаче запроса «Метапоиск» выбирает наименее загруженные сервера «Базового поиска».

«Базовый поиск» обеспечивает поиск по всей части индекса (базе поисковой системы), содержащей сведения о запросах и их позициях на страницах сайтов в сети.

Каждый сервер базового поиска отдает список документов, содержащих поисковый запрос, обратно в «Метапоиск», где они ранжируются по сформированной «Матрикснетом» формуле. Результаты такой работы мы видим на странице выдачи.

Использование индекса в качестве источника данных, многостадийный подход к формированию ответа и дублирование данных позволяют Яндексу обеспечивать поиск за доли секунды.

Оценка качества поиска

Помимо скорости поиска не менее важно и его качество. Для этого у Яндекса существует система оценки качества поиска, которая также помогает улучшить это качество.

Релевантность – свойство документа, определяющее степень его соответствия поисковому запросу. Вычисляется на основе формулы ранжирования.

Релевантность документа поисковому запросу вычисляется на основе формулы ранжирования – функции от множества факторов. Сейчас в Яндексе более 800 различных факторов, таких как возраст сайта, региональная привязка, взаимодействие пользователей с сайтом (поведенческий фактор), уникальность контента и т.д. В случае с персонализированным поиском релевантность документа зависит непосредственно от предпочтений пользователя, отправившего запрос.

Формула ранжирования постоянно обновляется, так как меняются потребности пользователей и индекс поисковика. Для ее обновления применяется методы машинного обучения. На основе экспертных данных выявляются зависимости между характеристиками документов и порядком их включения в выдачу, которые вносятся в формулу для ее корректировки.

Оценка качества поиска — удовлетворенность пользователей результатами поиска и порядком их следования.

Экспертными данными для машинного обучения являются оценки асессоров, которые также применяются для оценки качества поиска.

Асессоры — специалисты, оценивающие по ряду критериев релевантность представленного в выдаче документа поисковому запросу.

Асессоры оценивают поисковые результаты в выдаче по ряду критериев, которые позволяют определить, присутствует ли на сайте полный ответ на запрос, является ли сайт брендовым, не переспамлен ли текстовый контент и т.д. В основном асессоры работают с наиболее популярными поисковыми запросами (порядка 150 тыс.), при этом оцениваются первые 30 позиций выдачи. Это наиболее авторитетная оценка, так как ее проводит человек, а не машина, т.е. сайт получает оценку с точки зрения пользователя.

Актуализация и улучшение правил ранжирования в комплексе с оценкой качества поиска помогают Яндексу формировать выдачу, соответствующую ожиданиям пользователей.

Алгоритмы поисковых систем

Алгоритм поисковой системы — это сложная формула, благодаря которой определяются позиции сайта в поисковой выдаче.

Алгоритмы позволяют найти наиболее релевантные сайты по тому или иному запросу пользователя и составить ранжирование этих сайтов в выдаче. По сути, поисковый алгоритм — это совокупность определенных признаков, благодаря которым роботы поисковиков определяют место сайта в выдаче.

Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA

Принципы работы поискового алгоритма

У каждой ПС есть свои собственные принципы работы, которые разработчики держат в секрете. Можно лишь составить список общих параметров, по которым они ведут свою работу и оценивают релевантность того или иного сайта и, соответственно, контент на нем:

  • возраст;
  • название;
  • доменный уровень;
  • объем сайта и количество страниц;
  • популярность контента;
  • наличие и соответствие ключевых слов, их количество и распределение по тексту;
  • авторитетность ресурса в целом и каждой его страницы;
  • индекс цитирования;
  • периодичность и системность появления новой информации;
  • использование картинок, мультимедийных ресурсов;
  • размер ключевых слов и их шрифт;
  • расстояние от начала текста до ключевых слов;
  • одинаковый стиль на всех страницах;
  • наличие мета-тегов;
  • количество внутренних переходов на сайте;
  • территориальная принадлежность и язык сайта;
  • качество ссылочной массы, как внешней, так и внутренней;
  • дополнительные параметры.

Таким образом, поисковые машины выбирают ресурсы наиболее соответствующие ключевым словам пользователя и убирают сайты, которые не нужны пользователю или ресурсы с ошибками в оптимизации (некачественный контент, нет уникальности и т. д.). При этом алгоритмы анализируют содержание сайта и принимают решение — соответствует ли ресурс запросу пользователя или нет. В зависимости от этого они присваивают позицию в выдаче. Всем известно, что чем ближе ресурс к топу поисковой выдачи, тем больше у него просмотров.

Алгоритмы систем Я ндекс и Google

Яндекс — это поисковая система, ориентированная на русскоязычную аудиторию. Она появилась в 1990 г., когда ее основатели А. Волж и А. Борковский начали работать над программным обеспечением. Этот поисковик значительно уступает корпорации Google на мировом уровне и позиционирует себя как поисковая система номер один в странах СНГ. Яндекс раскрывает больше информации о своих алгоритмах, чем его заокеанский конкурент, соответственно, картина выдачи здесь более ясная. Эта система использует названия русских городов в своих алгоритмах: Магадан, Снежинск, Находка, Обнинск, Конаково, Арзамас и др.

Google — поисковая система, используемая во всем мире. Пожалуй, наиболее отработанная и продвинутая. Основатели этой системы Ларри Пейдж и Сергей Брин, поначалу всего лишь изучали математические особенности Интернета, но в итоге создали одну из лучших поисковых систем во всем мире. Google работает на всех общедоступных языках.

Основные различия двух систем

  1. Для поискового алгоритма Яндекс крайне важна географическая принадлежность ресурса, соответственно, запросы привязываются по территориальному признаку. Google анализирует IP-адрес пользователя и выдает результаты по соответствующему региону.
  2. Для поискового алгоритма Google играет большую роль внутренняя перелинковка сайта — чем больше ссылок на внутренние страницы, тем лучше. Здесь тоже нужно знать меру, так как содержание страниц оказывает существенное влияние на оценку поисковика. Яндекс определяет сквозные ссылки сайта как одну, а Google учитывает каждую.
  3. Для системы Google важен контент сайта. Если нет смысловой нагрузки, уникальности контента и его читабельности, то сайт никогда не будет в топе. Для Яндекса контент играет второстепенную роль.
  4. Многие SEO-специалисты знают, что продвинуть сайт в системе Google несколько проще, чем в Яндекс, так как индексация сайтов в Яндекс проходит реже и, соответственно, само продвижение занимает намного больше времени.

Как видите, точная формула ранжирования и алгоритм работы поисковика известен только разработчикам. Но, опираясь на базовые принципы работы всех поисковых систем и учитывая общедоступную информацию о тонкостях функционирования отдельных ПС, можно вывести приблизительный алгоритм, который поможет вам при SEO-оптимизации своего сайта.

Специалисты студии SEMANTICA проведут комплексный анализ сайта по следующему плану:

– Технический аудит.
– Оптимизация.
– Коммерческие факторы.
– Внешние факторы.

Мы не просто говорим, в чем проблемы. Мы помогаем их решить

Индексация страниц и разделов сайта поисковыми роботами Яндекс

Введение

Количество ресурсов, проиндексированных поисковыми системами, постоянно растет. Чтобы ресурс мог попасть в базу поисковой системы, поисковику, как минимум, необходимо сообщить о существовании вашего ресурса. Узнать о нем поисковик может двумя способам:

  • если вы зарегистрируетесь в поисковой системе;
  • либо перейдя на ваши страницы по ссылке с ресурсов, уже проиндексированных системой.

После этого поисковый робот будет время от времени возвращаться на ваши страницы, обновляя информацию о них. Постоянная индексация ресурса – один из важнейших элементов в работе поисковых систем. От того, каким образом и в каких поисковых системах проиндексирован ваш сайт, будет зависеть конечный результат продвижения в той или иной поисковой системе.

Успешная индексация сайта роботами поисковых систем – это то, чего вы должны обязательно добиться на начальном этапе продвижения. О том, какими способами добиться корректной индексации сайта, какие сложности могут возникнуть при подготовительной работе, а также о том, как устроены поисковые системы, роботы которых будут обрабатывать ваши страницы, пойдет речь в данном мастер-классе.

Процесс индексации мы будем рассматривать на примере поисковой системы Яндекс. Это вполне логично, поскольку пользователей, владеющих русским языком, используют именно эту поисковую системы для поиска необходимой информации.

Роботы поисковой системы Яндекс

Говоря об индексации, прежде всего, следует рассказать о том, кто ее осуществляет непосредственно, то есть о роботах поисковых систем. На вопрос: “а что такое робот поисковой системы и что он делает?”. Яндекс отвечает следующим образом: «Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса».

Обладая знаниями о них, вы с легкостью сможете подготовить ваш сайт для успешной индексации. Индексация сайта происходит следующим образом: роботы-индексаторы посещают страницы и вносят их содержимое в базу документов, доступных для поиска.

Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.

Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.

Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.

Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

  1. Yandex/1.01.001 (compatible; Win16; I) – основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех SEO-специалистов важно отслеживать появление на своих сайтах в первую очередь этого робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.
  2. Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны в поиске Яндекс. Картинки ( http://images.yandex.ru ). Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на лотосы на странице ( http://en.npftravel.ru/news/issue_117.html ). Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg.
  3. Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс, скорее всего, покажет только один сайт, в этом собственно и заключается процесс зазеркаливания. То есть сайт-зеркало представляет собой ничто иное, как полную копию сайта.
  4. Yandex/1.03.003 (compatible; Win16; D) – робот, определяющий доступность страницы для индексации при добавлении ее через форму «Добавить URL» .
  5. Yandex/1.03.000 (compatible; Win16; M) – робот, посещающий страницу при ее открытии по ссылке «Найденные слова», ниже сниппета.
  6. YaDirectBot/1.0 (compatible; Win16; I) – робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса.
  7. Yandex/1.02.000 (compatible; Win16; F) – робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.

Процесс индексации документа

Процесс индексации документа роботами поисковых систем, как правило, начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница https://webmaster.yandex.ru/ . Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. В Рамблере, например, требуется указывать еще название сайта, дать краткое описание регистрируемого сайта и контактное лицо.

Если сайт добавляется впервые, то Яндекс выдаст сообщение:

«Адрес http://example.com успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска».

Если сайт уже посещался роботом-индексатором, то появится сообщение:

«Документ http://example.com/ уже проиндексирован и доступен для поиска.
Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц)».

После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является «русскоязычность» ресурса. Поэтому, как пример, может возникнуть такая ситуация:

«Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст».

Если же все хорошо, то в логах сайта можно будет обнаружить строку:

213.180.206.223 — [18/Jul/2006:10:22:08 +0400] «GET /robots.txt HTTP/1.1» 404 296 «-» «Yandex/1.03.003 (compatible; Win16; D)»
213.180.206.223 — [18/Jul/2006:10:22:08 +0400] «GET / HTTP/1.1» 200 2674 «-» «Yandex/1.03.003 (compatible; Win16; D)»

Видно, что сначала робот обратился к файлу robots.txt (его в данном случае просто не существует) чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

После добавления сайта на странице https://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

Управление индексацией

То что Ваш сайт проиндексировался – это еще полдела, гораздо важнее научиться грамотно управлять индексацией. Подумайте, какие бы вы хотели видеть страницы вашего сайта в выдаче поисковых систем: какие из них будут полезны пользователю, а какие из них не несут никакой смысловой нагрузки и используются исключительно как техническая информация, к примеру.

Желательно закрыть от индексации административный раздел сайта, директории /images/ (если она названа таким образом), где хранится графическая информация. Владельцам интернет-маагазинов следует закрыть служебные станицы, например, те страницы сайта, через которые осуществляется непосредственная покупка того или иного продукта и т.д. Приняв данные меры, во-первых, вы будете уверены в том, что роботы проиндексируют именно ту информацию, которая на самом деле важна, во-вторых, облегчите роботу роботам, которые не будут посещать все страницы сайта.

1. Управление индексацией при помощи файла robots.txt

Файл robots.txt является самым популярным инструмент, посредством которого вы сможете эффективно управлять индексацией вашего сайта. Крайне прост в эксплуатации, не требует специальных навыков. По большому счету, нужен только для того, чтобы запрещать индексацию страниц или разделов сайта для той или иной поисковой системы.

2.Основная информация по файлу robots.txt

Файл /robots.txt предназначен для указания всем поисковым роботам, как индексировать информационные сервера.
Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов.
К файлу robots.txt предъявляются специальные требования, не выполнение которых может привести к неправильному считыванию информации роботом поисковой системы или вообще к недееспособности данного файла.

  • все буквы в названии файла должны быть прописными, т. е. должны иметь нижний регистр: robots.txt – правильно, Robots.txt или ROBOTS.TXT – не правильно;
  • файл robots.txt должен создаваться в текстовом формате. При копировании данного файла на сайт, ftp-клиент должен быть настроен на текстовый режим обмена файлами;
  • файл robots.txt должен быть размещен в корневом каталоге сайта.

2.1. Содержимое файла robots.txt

Файл robots.txt обязательно включает в себя две директивы: «User-agent» и «Disallow». Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система Яндекс использует директиву «Host» для определения основного зеркала сайта.

Топ-пост этого месяца:  Как вывести ротатор через шорткод

Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.
Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.

Запись «User-agent» должна содержать название поискового робота. Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»:

Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Яндекс:

Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать эти названия:

  1. На сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру» (на Яндексе он тоже есть http://webmaster.yandex.ru/faq.xml ), в котором часто указываются названия поисковых роботов.
  2. При просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt.

Названия основных роботов популярных поисковых систем:

Google – «googlebot»;
Яндекса – «Yandex»;
Рамблера – «StackRambler»;
Yahoo! – «Yahoo! Slurp»;
MSN – «msnbot».

Директива «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено.
Рассмотрим различные примеры записи «Disallow».

Пример1. Сайт полностью открыт для индексирования:

Пример 2. Для индексирования запрещен файл «page.htm», находящийся в корневом каталоге и файл «page2.htm», располагающийся в директории «dir»:

Пример 3. Для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, всё содержимое данной директории:

Возможно закрытие от индексации ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты.

Пример 4. Для индексирования запрещены директория «dir», а так же все файлы и директории, начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1», «directory2» и т. д:

Некоторые поисковые системы разрешают использование регулярных выражений в записи «Disallow». Так, например, поисковая система Google поддерживает в записи «Disallow» символы «*» (означает любую последовательность символов) и «$» (окончание строки). Это позволяет запретить индексирование определенного типа файлов.

Пример 5. Запрет индексации файлов с расширением «htm»:

Директива «Host» необходима для определения основного зеркала сайта, то есть, если сайт имеет зеркало, то с помощью директивы «Host» можно выбрать url того сайта, под которым проиндексируется ваш сайт. В противном случае поисковая система выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.

В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять ее непосредственно после записей Disallow.

Пример 6. www.site.ru – основное зеркало:

Оформление комментариев в файле robots.txt

Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку.

Пример 7. Комментарий находится на одной строке вместе с директивой:

Желательно размещать комментарий на отдельной строке.

2.2 Управление индексацией с помощью мета-тегов

С помощью мета-тегов тоже можно управлять индексацией страниц сайта. Мета-теги должны находиться в заголовке HTML-документа (между тегами и ).

Наиболее полезные МЕТА-теги, которые помогут поисковикам правильно индексировать страницы вашего сайта:

  1. управление индексацией страниц для поисковых роботов. В данном случае, указывает поисковому роботу, чтобы он не индексировал все страницы.
  2. необходим для поисковых систем, чтобы определить релевантна ли страница данному запросу.
  3. повышает вероятность нахождения страницы поисковиком по выбранному запросу (ам).
  4. управление индексацией страницы для поисковых роботов. Определяет частоту индексации. В данном случае указывается, что ваш документ является динамичным и роботу следует индексировать его регулярно.

Есть теги, которые непосредственно к индексации не относятся, но выполняют также важную роль дл удобства работы пользователя с сайтом:

  1. контроль кэширования для HTTP/1.0. Не позволяет кэшировать страницы.
  2. определение задержки в секундах, после которой браузер автоматически обновляет документ или происходит редирект.
  3. указывает, когда информация на документе устареет, и браузер должен будет взять новую копию, а не грузить из кэша.

Есть еще один мета-тег revisit-after, по поводу использования, которого ходило раньше много слухов, что он может заставить роботы поисковых систем посещать сайт с определенной периодичностью, однако специалисты Яндекс официально опровергли это.

Нет гарантии, что поисковые системы учитывают содержимое мета-тегов, индексируя сайт. Тем более нет гарантии, что эта информация будет учитываться при ранжировании сайта в выдаче. Но мета-теги полезны тем, что при индексации страниц позволяют поисковикам получить необходимую информацию о ресурсе.
Для того, чтобы прописать их не нужно много времени, поэтому старайтесь ввести максимально полную мета-информацию о странице.

Проблемы при индексации страниц

Работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров.

Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче поисковых систем. Далее будет рассмотрен список проблем, с которыми Вы можете столкнуться при индексации.

3.1 Динамические страницы, идентификаторы сессий.

Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы. Тоже самое происходит и с динамическими страницами.
Описание. На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php? >

Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати».

Схожая проблема возникает при использовании, по умолчанию, ссылок на директорию и на файл в директории, например /root/ и /root/index.htm. Для пользователей она решается использованием директивы « DirectoryIndex /index.htm » файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.

Один из видов динамических страниц – страницы с идентификаторами сессий. На сайтах, где принято использовать идентификаторы сессий, каждый посетитель при заходе на ресурс получает уникальный параметр &session_ >

Однако, так как роботы поисковых систем не принимают куки, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.

Известно, что поисковые системы имеют алгоритмы «склейки» страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена. В некоторых случаях она может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.

Решение. Что касается динамических страниц, то нужно закрывать страницы «версия для печати» и другие дубликаты в файле robots.txt, либо с помощью атрибута мета-тега noindex. Другое решение — заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.

Что касается идентификаторов сессий, то решение данной проблемы простое — прописать с .htaccess следующие команды:

3.2 Неверная обработка 404 статуса

Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.

Описание. Обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.

Решение. Выход из данной проблемы таков: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

3.3 Плагиат

Проблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.
Описание. Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.
Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, хостеру сайта-плагиатора, предварительно предупредив, конечно, виновного в том, что он поступает незаконно.

3.4 Другие проблемы

Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:

  1. Текст заключен в тег . Это специальный тег, запрещающий индексацию текста роботу Яндекса.
  2. Текст расположен в скрипте, т.е между тегами
  3. Текст расположен в комментариях
  4. Очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб)
  5. Ресурс не содержит русский текст (опять же, это касательно Яндекса)

Заключение

Каждому, кто ведет в Интернете серьезный проект, необходимо понимать, как роботы поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

Знание основ индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

14 способов улучшить сниппет в Яндекс и Google и увеличить CTR

Одним из поведенческих факторов ранжирования (косвенный) в современном SEO является CTR документа в поисковой выдаче (SERP). CTR (от англ. click-through rate) – показатель кликабельности ссылки в результатах поиска, равный отношению числа кликов к количеству показов ссылки на документ. Чем выше CTR документа в выдаче, тем выше шансы у сайта занять в выдаче топовые позиции.

Как же можно повлиять на CTR? Что пользователя заставит кликнуть по вашему сайту из выдачи? Ответ очевиден: привлекательный сниппет! Сниппет – это информация (маленькая аннотация) о документе, который был найден по запросу. В выдаче он выглядит таким образом:

Основная задача сниппета – дать примерное представление пользователю о содержании найденного документа, на основании которого принимается решение о переходе по ссылке. Из этого можно сделать вывод, что чем интереснее, содержательнее и привлекательнее сниппет, тем выше вероятность клика по нему => выше CTR и посещаемость.

Повлиять на сниппет оптимизатор может лишь косвенно, так как формируют его в конечном итоге поисковые машины. Рассмотрим несколько способов влияния на содержание сниппета документа в выдаче таких поисковых систем как Яндекс и Google (как для коммерческих, так и информационных сайтов).

Способ №1. Title

Первый и самый явный способ влияния на сниппет — манипулирование мета-данными документа: Title. Для формирования привлекательного заголовка сниппета документа необходимо соблюдать несколько правил:

  • Составлять Title страницы, используя важные ключевые слова в начале заголовка.
  • Не использовать стоп-слова (вводные слова, междометия и т.д.).
  • Длина Заголовка не должна превышать 70-80 символов.
  • Title должен быть максимально информативным и отражать суть контента страницы.
  • Тег Title должен быть уникальным для каждой страницы.

Физически заголовок страницы указывается между html-тегами <ВАШ ЗАГОЛОВОК>, размещенными в секции .

Способ №2. Description

Краткое описание страницы в сниппете может формироваться на основе мета-тега description. Тег не влияет на внешний вид страницы. Несколько простых правил по заполнению мета-тега description:

  • В Description необходимо писать цепляющий пользователя текст (описывать преимущества товара или услуги), с использованием ключевых запросов в начале описания.
  • Длина мета-тега должна быть не более 240 символов – для Яндекса, а для Google 150-160 символов.
  • Description должен быть уникальным для каждой страницы.
  • Title и Description должны отличаться друг от друга.
  • В теге должно содержаться описание конкретной страницы, в тексте не рекомендуется использовать общие фразы.

Мета-тег description располагается в блоке коде страницы:

Для того чтобы выделить сниппет сайта на фоне других документов, можно воспользоваться специальными символами:

Способ №3. Favicon

Favicon (от английского favorite icon — избранный значок) – небольшое изображение, которое отображается рядом с заголовком сниппета вашего сайта в выдаче Яндекса. Фавикон напрямую влияет на формирование и восприятие вашего бренда – он должен отражать суть ресурса, быть уникальным и запоминающимся.

Визуальное восприятие играет важную роль для пользователя, и он скорее кликнет на документ со значком, чем на конкурента, если у того нет Favicon.

Favicon представляет собой изображение 16 на 16 пикселей в формате .ico. Для того, чтобы настроить корректное отображение фавиконки, необходимо в шаблоне сайта между тегами указать ссылку на Favicon следующим образом:

В последнее время Яндекс использует фавиконку, которая находится в корне сайта (хотя в атрибуте href можно указать иконку во внутренней папке), поэтому она должна быть доступна по ссылке site.ru/favicon.ico, чтобы избежать некорректного отображения в поисковой выдаче.

После установки фавиконки в поиске она появится в сниппете в течение двух недель.

Советы по созданию Favicon:

  • Фавикон должен быть выполнен в стиле сайта: соответствие цветовой гаммы веб-ресурса, логотипу компании.
  • Если не использовать логотип компании, а тематику, то картинка должна вызывать явные ассоциации с сайтом. Например, книжный интернет-магазин может использовать в качестве фавикона изображение книги.
  • Фавиконку необходимо делать понятной для пользователей, чтобы она была легко запоминающейся.

Перед созданием favicon своего сайта изучите конкурентов – и постарайтесь сделать фавиконку выделяющейся из общей массы иконок сайтов в ТОП10 в поисковой выдаче.

Способ №4. Оптимизация фрагмента текста на страницы

Иногда поисковые системы формируют сниппет с помощью фрагмента текста на странице (чаще данное явление можно заметить в Яндексе). В таком случае, можно посмотреть, какой фрагмент страницы ПС считает наиболее релевантным для сниппета по заданному запросу, и отредактировать весь окружающий текст, сделав описание документа в выдаче наиболее привлекательным для пользователя.

Способ №5. Яндекс.Каталог

Если ваш сайт описан в Яндекс.Каталоге, то сниппет главной страницы может формироваться на основе информации, представленной в каталоге.

Для регистрации сайта в Яндекс.Каталоге существуют несколько требований к описанию. Например, в правилах добавления сайта в Яндекс.Каталог в заголовке сайта организации необходимо указывать название, а количество знаков не должно превышать 50 символов. Для отказа от использования описания из Яндекс.Каталога необходимо добавить мета-тег robots:

При использовании описания из авторитетных каталогов – можно сделать Title самой страницы более релевантным, но менее привлекательным для пользователей, так как он не будет показан в поисковой выдаче.

Способ №6. Модуль Яндекса Товары и цены

Следующим способом влияния на сниппет в выдаче Яндекса является подключение модуля «Товары и Цены». Как говорит сам Яндекс, данный инструмент был разработан специально для улучшения сниппетов: для страниц сайтов-участников программы в поиске используются специальные структурированные описания, которые содержат полезную информацию о самом магазине и о товаре, который ищет пользователь.

Пользователь, который ищет виброплиту определенной модели, видит исчерпывающий ответ на свой запрос: цену, информацию о доставке и краткое описание товара.

Модуль «Яндекс.Товары и цены» можно подключить не только для интернет-магазинов, но и для сайтов, предоставляющих различные услуги:

Для того, чтобы сделать такой сниппет, необходимо выполнить несколько несложных шагов:

  • Заполнить данные о компании в Вебмастер.Яндекс
  • При необходимости разместить данные о компании на сайте (ОГРН, юридический адрес и другое)
  • Подготовить yml-файл, в котором будет представлена вся информация о товарах Вашего интернет-магазина.
  • Отправить файл на проверку.
  • Дождаться модерации данных Яндексом.
  • Вы подключили модуль Товары и цены. По сообщению Яндекса, изменения в выдаче должны будут произойти в течение 30 дней. По факту результат можно увидеть уже через пару недель.

Yml стандарт, разработанный Яндексом, основан на стандарте xml. Некоторые особенности YML-файла для модуля «Товары и цены»:

  • Файл должен быть доступен на сайте. Запрос к данному файлу роботом Яндекса происходит 1 раз в день.
  • Он должен быть актуальным, т.е. обновляться в соответствии с вашим каталогом.
  • Передавать цену товара можно только одну.
  • Структура yml-файла должна соответствовать спецификациями Яндекса (проверяется валидатором).

Способ №7. Яндекс.Справочник

Действенный способ повлиять на сниппет в выдаче Яндекса — добавить компанию в Яндекс.Справочник. Справочник содержит в себе данные обо всех организациях, которые когда-либо были добавлены. Вся информация, добавленная в справочник, используется в Яндекс.Картах.

В Яндекс.Сравочнике можно отредактировать такую информацию о компании как: телефон, адрес компании, почта, режим работы и др.

Регистрация организации в Яндекс.Справочнике позволяет добавить в сниппет контактные данные вашей компании: адрес, ближайшую станцию метро, телефон.

Как можно заметить, на картинке представлены только главные страницы сайтов. Но! Есть небольшой лайфхак:

В одной карточке организации в Яндекс.Справочнике можно привязать до пяти страниц одного домена. Таким образом, можно выбрать пять приоритетных разделов сайта, где предпочтительнее и выгоднее всего будет смотреться расширенный сниппет с контактными данными.

Способ №8. Микроразметка хлебных крошек

Хлебные крошки – компонент навигации на сайте, помогающий пользователям ориентироваться, понимать структуру сайта ПС и ускорять процесс индексации.

Микроразметка крошек дает возможность отобразить навигационную цепочку страницы в выдаче. Плюсы микроразметки хлебных крошек:

  • Красивый и привлекательный сниппет
  • Легкость в ориентировании пользователя на сайте
  • Быстрая оценка объема информации на сайте
  • Переход в необходимый раздел сайта за 1 клик

Примеры размеченных и неразмеченных хлебных крошек представлены на картинке ниже. Выгоднее смотрится сниппет с оформленными хлебными крошками.

Существует несколько стандартов для разметки хлебных крошек, которые поддерживаются Яндексом и Гуглом:

  • Микроданные, schema.org
  • Микроформаты
  • RDFa

Ниже приведен пример микроразметки Schema.org для хлебных крошек:

После разметки хлебных крошек сниппет в поисковой выдаче выглядит так:

Для того чтобы проверить корректность размещенной микроразметки, следует воспользоваться сервисами:

Способ №9. Микроразметка для карточек товаров

Исчерпывающее описание карточки товара в поисковой выдаче больше привлекает пользователей к странице и увеличивает вероятность клика. Настройка микроразметки карточки товара позволяет передать ПС дополнительную информацию о товаре, которая будет участвовать в формировании сниппета.

Микроразметка помогает понять роботам поисковых систем, где описание товара, цена, а где его название и модель. На данный момент поддерживаются следующие форматы: OpenGraf, SchemaOrg, LD-json.

На примере http://schema.org/Product микроразметка товара задается следующим образом:

Для того чтобы проверить корректность размещенной микроразметки, следует воспользоваться сервисами:

Способ №10. Микроразметка листинга товаров

С помощью микроданных LD-json можно передать в Google данные о представленных товарах на разводящей странице. В таком случае сниппет будет выглядеть подобным образом:

Для того чтобы сделать такой сниппет, необходимо настроить вывод данных с помощью скрипта на основе микроразметки Schema.org/Product, со свойствами lowPrice и haghPrice:

В Яндекс нет возможности получить такой сниппет, и вот его ответ по поводу микроданных JSON-LD:

Для проверки валидности микроразметки используйте инструмент проверки микроразметки от Google: https://search.google.com/structured-data/testing-tool#/

Способ №11. Микроразметка отзывов

Еще один способ привлечь внимания пользователя к вашему сайта в поисковой выдаче Google: показать отзывы и рейтинг товара непосредственно в сниппете документа. Рейтинг можно указывать, как для товаров, так и для информационных статей. Размеченные отзывы о товарах в выдаче Google выглядят таким образом.

В сниппете также можно увидеть количество людей, по оценкам которых и был составлен рейтинг. Сниппет с рейтингом товара привлекает внимание и помогает увеличить CTR.

Для добавления рейтинга к описанию товара в сниппете необходимо при настройке микроразметки по схеме Schema.org/Product заполнить свойство AggregateRating:

Для того чтобы проверить корректность размещенной микроразметки, следует воспользоваться сервисами:

Способ №12. Страница Контакты – микроразметка

Разметка контактных данных вашей компании помогает Яндексу и Google правильно отображать информацию о Вашей организации в выдаче. Типы организаций, которые предлагает микроразметка Schema.org:

  • Организация
  • Местная фирма
  • Авиалиния
  • Корпорация
  • Спорт-организация
  • Правительственное учреждение
  • Исполнительная группа
  • Не правительственная организация

Если сложно определить тип вашей организации, то можно использовать универсальный -Организация (Organization) – общий тип, который подходит для любых организаций.

Ниже приведена общая схема разметки страницы контактов с помощью http://schema.org/Organization:

Для проверки валидности размещенной микроразметки можно воспользоваться сервисами:

Способ №13. Редактирование быстрых ссылок

Иногда сниппет документа формируется с дополнительными быстрыми ссылками на основные разделы сайта. Полезность таких ссылок для пользователей обусловлена возможностью быстрого перехода в нужный раздел сайта, для компаний – возможность выделить свой документ среди конкурентов. Быстрые ссылки при формировании сниппета использует и Гугл, и Яндекс.

Яндекс формирует два вида ссылок:

    Быстрые ссылки под основным описанием в сниппете

Быстрые ссылки с расширенным форматом (такой формат доступен для витальных ответов)

Самим задавать быстрые ссылки в Яндексе нельзя. Такие сниппеты показываются только в том случае, если алгоритмами ПС определены такие ссылки (например, берутся те страницы сайта, у которых наиболее высокий вес), а сайт по запросу находится в пределах 2 страниц выдачи. Но, Яндекс дает возможность отредактировать быстрые ссылки в Вебмастере Яндекса: скрыть или изменить название.

Google показывает быстрые ссылки тоже в двух форматах: расширенные и в сниппете:

Аналогично Яндексу, Google формирует список быстрых ссылок в соответствии со своими алгоритмами с учетом структуры сайта. Инструмент редактирования быстрых ссылок не предусмотрен. Скорректировать ссылки можно только с помощью качественной переработки структуры сайта и снижения вес страниц, попадание которых в список быстрые ссылки не желательно.

Способ №14. Расширенные сниппеты для Яндекса и Google для информационных сайтов

Поисковые системы Яндекс и Google дают возможность формировать определенный расширенный сниппет с учетом тематики ресурса. Расширенный сниппет в обеих поисковых системах создается на основе микроразметки Schema.org. Что можно выделить на страницах:

  • Отзывы об автомобилях
  • Рецепты различных блюд
  • Данные о рефератах
  • Детали программ, устанавливаемых на компьютер
  • Информацию о фильмах
  • Даты публикации новостей
  • Видео
  • Вопросы и ответы

Вот некоторые результаты при работе со сниппетами информационных ресурсов:

Выводы

Регулярный мониторинг и корректировка сниппетов с целью увеличения CTR позволяет добиться повышения документа в поисковой выдаче. Рассмотрим такой случай: первое место в результатах поиска занимает сайт http://siteA.com/, а второе – сайт http://siteB.com/. Если пользователи чаще кликают на сайт http://siteB.com/, то велика вероятность (при всех прочих равных факторах), что в выдаче в ближайшем времени с пересчетом поведенческих факторов документ с сайта B обойдет документ с сайта A.

Не работать над сниппетами сейчас невозможно, так как без некоторой информации в сниппете на первую страницу поисковой выдачи можно вообще не попасть. Например, без выведенных контактов: все первые позиции в Яндексе сейчас занимают сайты с контактной информацией.

При проведении работ со сниппетами можно достичь следующих результатов:

  • Увеличение количества кликов по документу из поиска
  • Оказание косвенного влияния на позицию страницы в выдаче
  • Лучшее понимание структуры Вашего сайта поисковиками

Повышая кликабельность (CTR) сниппета при одинаковых затратах на продвижение сайта можно получить большую прибыль, которая и является приоритетной целью любого коммерческого сайта.

Работа поисковых систем: общие принципы работы поисковиков

Вступление

Каждая поисковая система имеет свой алгоритм поиска запрашиваемой пользователем информации. Алгоритмы эти сложные и чаще держатся в секрете. Однако общий принцип работы поисковых систем можно считать одинаковым. Любой поисковик:

  • Сначала собирает информацию, черпая её со страниц сайтов и вводя её в свою базы данных;
  • Индексирует сайты и их страницы, и переводит их из базы данных в базу поисковой выдачи;
  • Выдает результаты по поисковому запросу, беря их из базы проиндексированных страниц;
  • Ранжирует результаты (выстраивает результаты по значимости).
Топ-пост этого месяца:  Как в коде (где именно) изменить расположение миниатюры в записи в Wordpress Чтобы получилось как

Работа поисковых систем — общие принципы

Вся работа поисковых систем выполняют специальные программы и комбинации этих программ.

Перечислим основные составляющие алгоритмов поисковых систем:

  • Spider (паук) – это браузероподобная программа, скачивающая веб-страницы. Заполняет базу данных поисковика.
  • Crawler (краулер, «путешествующий» паук) – это программа, проходящая автоматически по всем ссылкам, которые найдены на странице.
  • Indexer (индексатор) – это программа, анализирующая веб-страницы, скачанные пауками. Анализ страниц сайта для их индексации.
  • Database (база данных) – это хранилище страниц. Одна база данных это все страницы загруженные роботом. Вторая база данных это проиндексированные страницы.
  • Search engine results engine (система выдачи результатов) – это программа, которая занимается извлечением из базы данных проиндексированных страниц, согласно поисковому запросу.
  • Web server (веб-сервер) – веб-сервер, осуществляющий взаимодействие пользователя со всеми остальными компонентами системы поиска.

Реализация механизмов поиска у поисковиков может быть самая различная. Например, комбинация программ Spider+ Crawler+ Indexer может быть создана, как единая программа, скачивающая и анализирующая веб-страницы и находящая новые ресурсы по найденным ссылкам. Тем не менее, нижеупомянутые общие черты программ присущи всем поисковым системам.

Программы поисковых систем

Spider

«Паук» скачивает веб-страницы так же как пользовательский браузер. Отличие в том, что браузер отображает содержащуюся на странице текстовую, графическую или иную информацию, а паук работает с html-текстом страницы напрямую, у него нет визуальных компонент. Именно, поэтому нужно обращать внимание на ошибки в html кодах страниц сайта.

Crawler

Программа Crawler, выделяет все находящиеся на странице ссылки. Задача программы вычислить, куда должен дальше направиться паук, исходя из заданного заранее, адресного списка или идти по ссылках на странице. Краулер «видит» и следует по всем ссылкам, найденным на странице и ищет новые документы, которые поисковая система, пока еще не знает. Именно, поэтому, нужно удалять или исправлять битые ссылки на страниц сайта и следить за качеством ссылок сайта.

Indexer

Программа Indexer (индексатор) делит страницу на составные части, далее анализирует каждую часть в отдельности. Выделению и анализу подвергаются заголовки, абзацы, текст, специальные служебные html-теги, стилевые и структурные особенности текстов, и другие элементы страницы. Именно, поэтому, нужно выделять заголовки страниц и разделов мета тегами (h1-h4,h5,h6), а абзацы заключать в теги

Database

База данных поисковых систем хранит все скачанные и анализируемые поисковой системой данные. В базе данных поисковиков хранятся все скачанные страницы и страницы, перенесенные в поисковой индекс. В любом инструменте веб мастеров каждого поисковика, вы можете видеть и найденные страницы и страницы в поиске.

Search Engine Results Engine

Search Engine Results Engine это инструмент (программа) выстраивающая страницы соответствующие поисковому запросу по их значимости (ранжирование страниц). Именно эта программа выбирает страницы, удовлетворяющие запросу пользователя, и определяет порядок их сортировки. Инструментом выстраивания страниц называется алгоритм ранжирования системы поиска.

Важно! Оптимизатор сайта, желая улучшить позиции ресурса в выдаче, взаимодействует как раз с этим компонентом поисковой системы. В дальнейшем все факторы, которые влияют на ранжирование результатов, мы обязательно рассмотрим подробно.

Web server

Web server поисковика это html страница с формой поиска и визуальной выдачей результатов поиска.

Повторимся. Работа поисковых систем основана на работе специальных программ. Программы могут объединяться, компоноваться, но общий принцип работы всех поисковых систем остается одинаковым: сбор страниц сайтов, их индексирование, выдача страниц по результатам запроса и ранжирование выданных страниц по их значимости. Алгоритм значимости у каждого поисковика свой.

Эволюция поисковых алгоритмов Яндекс и Google в одной статье

Время чтения: 8 минут

Эволюция поисковых алгоритмов Яндекс и Google в одной статье

Время чтения: 8 минут

Нет времени читать статью?
Но вам требуется продвижение сайта или создание сайта-лидера, идеального для SEO? Тогда вы можете оставить
заявку на продвижение или заявку на создание сайта. Если вы собираетесь продвигать сайт самостоятельно — продолжайте чтение!

Лучшие статьи

Видео

руководство по созданию
SEO текстов

Создание SEO магазинов

Все мы не понаслышке знаем о существующих алгоритмах поисковых систем Яндекс и Google. Именно для соблюдения их «постоянно обновляемых» правил все оптимизаторы ломают свой мозг все новыми и новыми способами попасть в ТОП выдачи поиска. Из последних новшеств, которые ощутили на себе владельцы сайтов со стороны ПС — это требования к мобильности интернет-ресурсов и понижение в поиске тех площадок, которые не умеют покупать ссылки. Какие алгоритмы до этого времени, внедренные в поиск, существенно повлияли на ранжирование сайтов? На самом деле, не все оптимизаторы знают, какие технологии, когда и зачем были созданы, чтобы максимально справедливо дать позицию каждому сайту в поиске и очистить выдачу от «хлама». Историю создания и развития поисковых алгоритмов мы и рассмотрим в этой статье.

Яндекс: виды алгоритмов с зачатия до сегодня

Алгоритмы не создавались все в один день, и каждый из них проходил много этапов доработки и преобразования. Основная масса названий алгоритмов Яндекса состоит из названий городов. Каждый из них имеет свои принципы работы, точки взаимодействия и уникальные функциональные особенности, гармонично дополняющие друг друга. Какие алгоритмы есть у Яндекса и как они влияют на сайты, рассмотрим далее.

Помимо информации о поисковых алгоритмах полезной будет и статья про новые фишки в Яндекс Директ. Советы по созданию качественного SEO-контента подходящего для поисковиков Гугл и Яндекс я предлагаю вам прочесть по этой ссылке.

Магадан

Алгоритм «Магадан» распознает аббревиатуры и отожествляет существительные с глаголами. Был впервые запущен в тестовом режиме в апреле 2008, а вторая постоянная версия вышла в свет в мае того же года.

Особенности

«Магадан» выдает пользователю, который написал аббревиатуру, сайты и с расшифровками. Например, если в поисковой строке вбили запрос МВД, то кроме площадок с таким ключевым словом в списке будут присутствовать и те, у кого аббревиатуры нет, но есть расшифровка «Министерство внутренних дел». Распознавание транслитерации дало пользователям возможность не думать на каком языке правильно писать названия, к примеру, Mercedes или Мерседес. Ко всему этому Яндекс включил в список индексирования почти миллиард зарубежных сайтов. Распознавание частей речи и признание их равноценными поисковыми запросами выпустили в один поиск сайты с разными ключевыми фразами. То есть теперь по ключевику «оптимизация сайтов» в выдаче выводятся и площадки с вхождением словосочетания «оптимизировать сайт».

Результаты

После запуска алгоритма «Магадан» стало труднее, в основном, малоавторитетным сайтам. В ранжировании понизились позиции по релевантным запросам малопосещаемые и молодые ресурсы, а на первые места выдвинулись авторитетные, даже с некачественным контентом, учитывая при этом морфологию и разбавленность ключевиков. Из-за учета транслитерации в ТОП Рунета вышли и зарубежные ресурсы. То есть оптимизированный текст по теме мог оказать на второй странице, только потому, что, якобы, по этой же тематике есть более посещаемый сайт или аналогичный зарубежный. Из-за этого резко возросла конкуренция по низкочастотным ключевикам и иностранным фразам. Подорожала и реклама — ставки возросли, потому что ранее сайты конкурировали только по одному конкретному запросу, а теперь и с «коллегами» с морфологическими фразами, транслитерацией, переходящими в другую часть речи словами.

Находка

Алгоритм «Находка » — расширенный тезаурус и внимательное отношение к стоп-словам. Выпущен «на ринг» сразу после «Магадана». Ранжирует основную выдачу с сентября 2008.

Особенности

Это инновационный подход к машинному обучению — ранжирование стало четче и корректней. Расширенный словарь связей и внимательность к стоп-словам в алгоритме «Находка» очень сильно повлияли на поисковую выдачу. К примеру, запрос «СЕО оптимизация» теперь ассоциировался и с ключем «сеооптимизация», а коммерческие сайты разбавлялись информационными порталами, в том числе в списке появились развернутые сниппеты с ответами, по особенному отображалась Википедия.

Результаты

Коммерческие сайты сделали больший акцент на продажные запросы, так как конкуренция увеличилась по информационным не конкретным фразам в несколько раз. В свою очередь, информационные площадки смогли расширить свою монетизацию с помощью страниц рекомендаций, участвуя в партнерских программах. Топовые инфосайты, продвинутые по коммерческим запросам стали продавать ссылки на заказ. Конкуренция ужесточилась.

Арзамас

Алгоритм «Арзамас» — внедрена лексическая статистика поисковых запросов и создана географическая привязка сайта. Первая версия «Арзамаса» (апрель 2009) без геозависимости выпущена сразу в основную выдачу, а «Арзамас 2» с классификатором по привязке сайта к региону анонсирован в августе 2009.

Особенности

Снятие привязки к омонимам облегчила пользователю жизнь, ведь теперь по фразе «американский пирог» выдавались только сайты на тему фильмов, без всяких там рецептов десертов, как могло быть раньше. Привязка к региону совершила прорыв, сместив ключевые фразы с добавкой города на несколько пунктов вниз. Теперь пользователь мог просто ввести слово «рестораны» и увидеть в лидерах только сайты из города его местонахождения. Если помните, раньше нужно было бы ввести более конкретную фразу, например «Рестораны в Санкт-Петербурге», иначе Яндекс мог выдать ответ «уточните запрос — найдено слишком много вариантов». Геонезависимые ключевые слова выдавали только релевантные запросу сайты из любых регионов, без привязки.

Результаты

Ура! Наконец-то сайты из небольших регионов перестали конкурировать с крупными мегаполисами. Выйти в ТОП по своему региону теперь намного проще. Именно в этот период времени была предложена услуга «региональное продвижение». Алгоритм «Армазас» дал возможность мелким компаниям быстрее развиваться в своей местности, но подвох все равно остался. Яндекс не мог определить геолокацию у всех площадок. И как вы сами понимаете — без привязки ресурсы оставались, мягко говоря, в одном не очень приятном месте. Рассмотрение заявки на геозависимость могло длиться несколько месяцев, а молодые сайты без трафика и ссылочной массы (было ограничение по ТИЦ), вообще, не могли подать запрос на присвоение им региональности. Палка о двух концах.

Снежинск

Алгоритм «Снежинск» — усиление геозависимости и уточнение релевантности запросов к выдаче с помощью технологии машинного обучения «Матрикснет». Анонс состоялся в ноябре 2009, а улучшенная модель под именем «Конаково» заработала в декабре того же года.

Особенности

Поисковая выдача стала более точной к вводимым вопросам. Особую роль теперь играет привязка по геолокации — коммерческие сайты не ассоциировались у алгоритма «Снежинск» с регионами, поэтому выпадали из выдачи. Ключевые слова, не привязанные к местности, отожествляются с информационными ресурсами. Сложная архитектура подсчета релевантности сильно усложнила жизнь оптимизаторов, которые заметили, что при малейшем изменении одного из показателей, позиция сайта в выдаче моментально изменялась.

Результаты

На тот момент было отмечено, что закупка внешних ссылок на молодые сайты влияла на показатели новых ресурсов слишком вяло, если сравнить аналогичную закупку на площадку, давненько находящуюся на интернет-рынке. Новые методы определения релевантности контента к поисковым запросам выбрасывали из выдачи сайты, тексты которых были перенасыщены ключевыми фразами. Началась новая эра качественного текста, где во всем должна была быть мера, без нее площадка могла просто попасть под санкции за спам. Коммерческие ресурсы забили панику, потому что выйти по геонезависимым ключевым словам в ТОП (а они были самые высокочастотные) было практически нереально. В связи с этим на блоге Яндекса была опубликована запись, что в идеале хотелось бы видеть на первых страницах коммерческие организации, которые не пишут красиво, а выполняют свою работу хорошо, но для этого придется научить алгоритмы оценивать качество предлагаемых услуг. Так как на данный момент это оказалось непосильной задачей, репутация коммерческих интернет-ресурсов играла ключевую роль в выдаче, как в онлайне так и в оффлайне.

Обнинск

Алгоритм «Обнинск» — улучшение ранжирования и расширения базы географической принадлежности интернет-площадок и снижение влияния на показатели сайта искусственных СЕО-ссылок. Запущен в сентябре 2010.

Особенности

Падает популярность закупки ссылочных масс, появляется понятие «ссылочного взрыва», которого теперь боялись все. Конкуренты могли навредить друг другу возможностью введения алгоритма в заблуждение, закупив на «коллегу» огромное количество ссылок с «плохих источников». После этого конкурент выпадал из поисковой выдачи и долго не мог туда попасть. Геозависимые слова чаще добавляются на разные страницы коммерческих сайтов, чтобы обратить внимание робота на работу с этим регионом.

Результаты

Коммерческие сайты теперь тщательней относятся к своей репутации, что не может не радовать, но многие все равно прибегали к грязным методам (искусственно завышали посещаемость и покупали отзывы). После выпуска алгоритма «Обнинск» более популярной стала закупка вечных ссылок и статей, обычная покупка ссылок уже так не влияла на ранжирование, как раньше, а в случае попадания источника бэклинка под санкции могла потянуть за собой цепную реакцию. Качественные СЕО-тексты — обязательный атрибут любого ресурса. Молодой сайт с уникальным и правильно оптимизированным контентом мог попасть в ТОП.

Краснодар

Алгоритм «Краснодар» — внедрение технологии «Спектр» для разбавления поисковой выдачи, расширения сниппетов и индексация социальных сетей. Запуск состоялся в декабре 2010 года.

Особенности

Технология «Спектр» была создана для классификации запросов по категориям и использовалась в случаях ввода не конкретизированных ключевых фраз. «Краснодар» разбавлял поисковую выдачу, предлагая такому пользователю больше разнообразных вариантов. Например, при фразе «фото Москвы» в поиске можно было увидеть не только общие пейзажи, но и фотографии по категориям типа «достопримечательности», «карты», «рестораны». Был сделан акцент на уникальные названия чего-либо (сайтов, моделей, товаров) — конкретика стала выделяться. Расширенные сниппеты дали возможность сразу в поисковой выдаче показывать пользователям контакты и другие данные организаций.

Результаты

Сильно изменилось ранжирование коммерческих сайтов, особое внимание уделяется деталям (карточкам товаров, разделением короткого описания от общего). Социальная сеть в ВК начала индексироваться и профили участников равноценно теперь видны прямо в поисковой выдаче. Сообщения в форумах могли занимать первые позиции, если имели более расширенный ответ на вопрос пользователя, чем другие сайты.

Рейкьявик

Алгоритм «Рейкьявик» — создана персонализация поисковой выдачи и добавлена технологи «Колдунщики» для отображения предварительных итогов запроса. Улучшена формула подсказок при вводе. Алгоритм запущен в августе 2011 года.

Особенности

Девизом персонализированного поискового результата — «Каждому пользователю — своя выдача». Система запоминания интересов ищущих работала через куки, поэтому если запросы пользователя чаще были связаны, например, с зарубежными ресурсами, в следующий раз в лидерах поисковой выдачи отображались именно они. Подсказки в поисковой строке обновляются каждый час, тем самым расширяя возможности конкретизированного поиска. Конкуренция по высокочастотным запросам возрастает с неимоверной силой.

Результаты

Авторитетные новостные сайты чаще попадают в ТОП из-за расширенного семантического ядра (наличие огромного количества разных низкочастотных ключевых запросов). Увеличение количества страниц под конкретные поисковые запросы на информационных сайтах стала играть одну из главных ролей после выпуска алгоритма «Рейкьвик». Каждая площадка пыталась попасть в закладки пользователя, чтобы стать частью системы персонализации, для этого использовались методы подписки на RSS ленту, всплывающие баннеры-подсказки для занесения сайта в закладки. Интернет-ресурсы начали больше уделять внимания индивидуальному подходу, а не давить на массы.

Калининград

Алгоритм «Калининград» — глобальная персонализация поиска и поисковой строки, упор на поведенческие факторы. Запуск «Калининграда» в декабре 2012 существенно повысил стоимость seo услуг.

Особенности

Интересы пользователя перевернули с ног на голову всю поисковую выдачу — владельцы сайтов, ранее не заботившиеся о комфорте пребывания посетителя на сайте, стали терять трафик с молниеносной скоростью. Теперь Яндекс делил интересы на краткосрочные и долговременные, обновляя свои шпионские базы раз в сутки. Это означало, что сегодня и завтра по одному и тому же запросу одному и тому же пользователю могла показываться совершенно иная выдача. Интересы теперь играют особую роль и пользователю, который ранее интересовался поездками, вбивая фразу такси — показываются услуги такси, а тому, кто постоянно смотрит фильмы — получит в результатах поиска все о кинокомедии «Такси». В поисковой строке каждого «страждущего найти информацию» теперь на первых позициях отображаются подсказки по предыдущим интересам.

Результаты

Оптимизаторы стали охватывать все больше способов задержать пользователя: улучшалось юзабилити, дизайн, контент создается более разнообразный и качественный. При выходе могли всплывать окна типа «вы уверены, что хотите покинуть страницу» и в пользователя впивалась грустная рожица какого-то существа. Хорошо продуманная перелинковка страниц и всегда доступное меню улучшали показатели активности пользователей, чем повышали позиции сайтов в поисковой выдаче. Малопонятные широкому кругу интернет-пользователей сайты сначала просто понижались в позициях, а после и вообще болтались в конце списка предложенных результатов.

Дублин

Алгоритм «Дублин» — улучшена персонализация с помощью определения текущих целей. Это модернизированная версия «Калининграда» вышла в мир в мае 2013.

Особенности

В технологию внедрена функция слежения за изменчивыми интересами пользователей. То есть при наличии двух совершенно разных поисковых взглядов за определенный период времени, алгоритм предпочтет последний и включит его в поисковую выдачу.

Результаты

Для сайтов практически ничего не изменилось. Продолжается борьба не просто за трафик, а за улучшение поведенческих показателей. Старые макеты сайтов начинают забрасываться, потому что проще делать новый, чем пытаться исправить что-то на старом. Предложение услуг шаблонов сайтов увеличивается, начинается конкуренция за удобные и красивые макеты вебресурсов.

Острова

Алгоритм «Острова» — внедрена технология показа интерактивных блоков в поисковой выдаче, позволяя взаимодействовать пользователю с сайтом прямо на странице Яндекс поиска. Алгоритм был запущен в июле 2013 года, с предложением к вебмастерам активно поддержать бета-версию и использовать шаблоны создания интерактивных «островов». Сейчас технология тестируется в закрытом режиме.

Особенности

Теперь пользователю при поиске информации, которую можно узнать сразу из поиска предлагались «острова» — формы и другие элементы, с которыми можно работать, не посещая сайт. Например, вы ищете конкретный фильм или ресторан. По фильму в поиске и справа от него отобразятся блоки с обложкой фильма, его названием, составом актеров, часами прохождения сеансов в кинотеатрах в вашем городе и формой покупки билетов. По ресторану будет показано его фото, адрес, телефоны, форма бронирования столика.

Результаты

Ничего существенного в ранжировании сайтов сначала не изменилось. Единственное, что стало заметным — это появление вебресурсов с интерактивными блоками на первом месте и справа от поисковой выдачи. Если бы количество площадок, принимавших участие в бета-тестировании было значительным, они могли бы вытеснить обычные сайты за счет своей привлекательности и броскости для пользователей. Оптимизаторы задумались об улучшении видимости своего контента в поисковых результатах, добавляя больше фото, видео, рейтинги и отзывы. Лучше живется интернет-магазинам — корректно настроенные карточки товара могут быть отличным интерактивным «островком».

Минусинск

Алгоритм «Минусинск» — при определении SEO-ссылок как таковых, которые были куплены для искажения результатов ранжирования поиска, на сайт ложился фильтр, который существенно портил позиции сайта. Анонсирован «Минусинск» в апреле 2015, полностью вступил в свои права в мае этого же года. Именно с этим алгоритмом и связана знаменитая Санта Барбара Яндекс.

Особенности

Перед выходом «Минусинска» Яндекс в 2014 для тестирования отключил влияние SEO-ссылок по множеству коммерческих ключей в Москве и проанализировал результаты. Итог оказался предсказуемым — покупная ссылочная масса все еще используется, а для поисковой системы — это спам. Выпуск «Минусинска» знаменовался днем, когда владельцы сайтов должны были почистить свои ссылочные профили, а бюджет, который тратится на ссылочное продвижение, использовать для улучшения качества своего интернет-ресурса.

Результаты

«Авторитетные» сайты, которые добились ТОПа благодаря массовой закупке ссылок, вылетели из первых страниц, а некоторые получили санкции за нарушения правил. Качественные и молодые площадки, не наглеющие по бэклинкам, внезапно оказались в ТОП 10. «Попавшие под раздачу» вебсайты, нежелающие долго ждать, создавали новые площадки, перенося контент и ставя заглушку на старые, либо хитро шаманили с редиректом. Примерно через 3 месяца нашли дыру в алгоритме, позволяющую почти моментально снимать данный фильтр.

Массово начинает дорабатываться юзабилити и улучшаться контент. Ссылки закупаются с еще большей осторожностью, а контроль за бэклинками становится одной из функциональных обязанностей оптимизатора.

По данным на сегодня — при неумелой закупке ссылок — даже за 100 ссылок можно получить фильтр. Но если ссылочную массу правильно разбавлять, то смело можно покупать тысячи ссылок как и в старые добрые. То-есть, по сути — сильно выросли ссылочные бюджеты на это самое разбавление, в роли которого выступил крауд и упоминания.

Владивосток

Алгоритм «Владивосток» — внедрение в поиск технологии проверки сайта на полную совместимость с мобильными устройствами. Полный старт проекта произошел в феврале 2020 года.

Особенности

Яндекс сделал очередной шаг навстречу к мобильным пользователям. Специально для них был разработан алгоритм «Владивосток». Теперь для лучшего ранжирования в мобильном поиске сайт обязан соответствовать требованиям мобилопригодности. Чтобы опередить своих конкурентов в поисковой выдаче интернет-ресурс должен корректно отображаться на любом web-устройстве, включая планшеты и смартфоны. «Владивосток» проверяет отсутствие java и flash плагинов, адаптивность контента к расширению экрана (вместимость текста по ширине дисплея), удобство чтения текста и возможность комфортно нажимать на ссылки и кнопки.

Результаты

К запуску алгоритма «Владивосток» мобилопригодными оказались всего 18% сайтов — остальным пришлось быстренько избавляться от «тяжести» на страницах, которая не отображается или мешает корректно отображаться контенту на смартфонах и планшетах. Основным фактором, который влияет на понижение вебсайта в мобильной выдаче — это поведение мобильного пользователя. Во всяком случае, пока. Ведь идеально мобилопригодных сайтов не так уж много, поэтому свободные места в поиске занимают те, кто способен предоставить пользователю максимально комфортные условия, пусть даже не полностью. Из мобильного поиска неадаптированные к мобильным устройствам сайты не выбрасываются, а просто ранжируются ниже тех, кто достиг в улучшении качества предоставления услуг для смартпользователей лучших результатов. На данный момент самый популярный вид заказов макетов сайтов — адаптивные, а не мобильные, как можно было подумать. Прошедшие все требования алгоритма сайты получают максимальное количество мобильного трафика в своей нише.

Google: история создания и развития алгоритмов

Алгоритмы и фильтры Гугла и до сей поры не совсем поняты русскоязычным оптимизаторам. Для компании Google всегда важным моментом являлось скрытие подробностей по методам ранжирования, объясняя это тем, что «порядочным» сайтам боятся нечего, а «непорядочным» лучше не знать, что их ожидает. Поэтому про алгоритмы Гугла до сих слагают легенды и множество информации было получено только после того, как задавались вопросы поддержке, когда сайт проседал в поисковой выдаче. Мелких доработок у Google было столько, что и не перечесть, а на вопросы, что именно изменилось, зарубежная ПС просто отмалчивалась. Рассмотрим основные алгоритмы, которые влияли на позиции сайтов существенно.

Кофеин

Алгоритм «Кофеин» — на первой странице поиска может находиться сразу несколько страниц одного и того же сайта по бренду, появляется возможность пред просмотра. Запуск произошел в июне 2010 года.

Особенности

Выделение сайтов компаний, в случае поиска по бренду. Возле строки с выдачей появляется «лупа» для предосмотра. Ключевые слова по бренду дают положительную тенденцию роста на позициях интернет-ресурса в целом. Обновился индекс Page Rank, при этом PR повысился на известных и посещаемых площадках.

Результаты

Оптимизаторы стали больше уделять внимания брендированию вебсайтов, включая цветовые схемы, логотипы, названия. Ключевые слова на бренд по-особенному выделяли страницы сайта в поиске, а при переходе с такой фразы посетителя на главный page, его позиции в выдаче росли (если до этого ресурс был не лидером). СЕО-оптимизаторы стали закупать больше ссылок для повышения «цитированности». молодым и малоузнаваемым брендам практически невозможно было пробиться в ТОП выдачи.

Panda (Панда)

Алгоритм «Панда» — технология проверки сайта на качество и полезность контента, включая множество СЕО факторов. Сайты с «черным» SEO исключаются из поиска. Анонсирована «Panda» в январе 2012 года.

Особенности

«Панда» вышла в поиск и почистила его от мусора. Именно так можно сказать после того, как множество не релевантных ключевым запросам web-сайты исчезли из выдачи Google. Алгоритм обращает внимание на: переспам ключевыми словами и неравномерное их использование, уникальность контента, постоянство публикаций и обновления, активность пользователя и взаимодействие его с сайтом. Пролистывание посетителя страницы до конца со скоростью чтения считалось положительным фактором.

Результаты

После включения «Панды» огромное количество сайтов поддались санкциям с боку поисковой системы Google и поначалу все думали, что это связано с участием в ссылочных пирамидах и закупкой ссылочных масс. В итоге, СЕОоптимизаторы провели процесс тестирования алгоритма и проанализировали влияние. Вывод экспериментов заключался в том, что «Панда» все-таки проверяет качество сайта на ценность для посетителей. Интернет-ресурсы перестали копипастить и активно принялись за копирайтинг. Поведенческие факторы улучшались за счет преобразования структуры сайта в более удобные варианты, а перелинковка внутри статей с помощью особых выделений стала важной частью оптимизации. Популярность SEO как услуги стремительно возросла. Замечено, что сайты, не соответствующие правилам «Панды», исчезали из поиска очень быстро.

Топ-пост этого месяца:  Ливэксперт — отзывы о заработке на консультациях в LiveExpert

Page Layout (Пейдж Лайот)

Алгоритм «Пейдж Лайот» — технология по борьбе с поисковым спамом, подсчитывающая на страницах web-сайтов соотношение полезного контента к спамному. Запущен в январе 2012 и обновлялся до 2014 включительно.

Особенности

«Page Layout» был создан после многочисленных жалоб пользователей на недобросовестных владельцев сайтов, у которых на страницах подходящего контента было совсем мало или искомые данные оказывались труднодоступными, а иногда вообще отсутствовали. Алгоритм рассчитывал в процентном соотношении нахождение на странице по входящему запросу релевантного контента и спама. На несоответствующие требованиям площадки накладывались санкции и сайт выбрасывался из поиска. К несоблюдению правил размещения документов также относилось забитая рекламой шапка сайта, когда для просмотра текста требовалось перейти на второй экран.

Результаты

Слишком заспамленные рекламой сайты слетели со своих позиций, даже при том, что контент на страницах был оптимизирован под ключевые слова в меру. Нерелевантные запросам страницы были понижены в поисковой выдаче. Но площадок нагло не соблюдая правила и не беспокоясь о комфортности посетителей оказалось не так уже и много. За три обновления алгоритма приблизительное количество ресурсов, попавших под фильтр, оказалось не более 3%.

(Венеция)

Алгоритм «Венеция» — геопривязка сайта к определенному региону, учитывая при этом наличие названий городов на страницах сайта. Запущен в феврале 2012 года.

Особенности

«Венеция» требовала от вебмастеров наличие на их сайтах страницы «О нас», с указанием адреса местоположения, не обращая при этом внимания, что фактического расположения у компании могло и не быть. В контексте алгоритм искал названия городов, чтобы вывести отдельную страницу по указанному в нем региону. Начала использоваться разметка schema-creator.org, чтобы пояснить поисковому роботу свою географическую привязанность.

Результаты

Сайты выпали в поисковой выдаче по тем регионам, о которых они не упоминают на своих страницах, не учитывая геонезависимые запросы. Оптимизаторы активно включают геозависимые ключевые слова и пытаются создавать микроразметку. Контент на каждой странице персонализируется под каждый конкретный город или регион в целом. Активно стал использоваться локализированный линкбилдинг, чтобы повышать позиции по выбранному региону.

(Пингвин)

Алгоритм «Пингвин» — умная технология определения веса сайтов и качества обратных ссылок. Система редактирования накрученных показателей авторитетности интернет-ресурсов. Запущена в поиск в апреле 2012.

Особенности

«Пингвин» нацелен на войну с закупкой обратных ссылок, неестественным, то есть искусственным, набором авторитетности сайта. Алгоритм формирует свою базу значимых ресурсов, исходя от качества бэклинков. Побуждением на запуск «Пингвина» являлось появление ссылочных оптимизаторов, когда любая ссылка на вебресурс имела одинаковый вес и подымала такой сайт в поисковой выдаче. Кроме этого, в поиске начали ранжироваться наравне со стандартными интернет-ресурсами обычные профили пользователей социальных сетей, что еще больше популяризовало раскрутку обычных сайтов с помощью социальных сигналов. Одновременно с этими возможностями алгоритма система стала бороться с нерелевантными вставками поисковых запросов в keywords и в названия доменов.

Результаты

Пингвин «попустил» множество сайтов в поисковой выдаче за неестественный рост обратных ссылок и нерелевантность контента к запросам пользователей. Значимость каталогов и площадок по продаже ссылок быстро снижалось к минимуму, а авторитетных ресурсов (новостных сайтов, тематических и околотематических площадок) росло на глазах. Из-за введения алгоритма «Пингвин» у, практически, всех публичных сайтов был пересчитан PR. Популярность массовой закупки бэклинков резко упала. Сайты максимально начали подгонять ключевые фразы к контенту на страницах площадок. Началась «мания релевантности». Установка социальных кнопок на страницах в виде модулей имела массовый характер за счет быстрой индексации аккаунтов социальных сетей в поиске.

Pirate (Пират)

Алгоритм «Пират» — технология реагирования на жалобы пользователей и выявления фактов нарушения авторских прав. Старт системы произошел в августе 2012 года.

Особенности

«Пират» принимал жалобы авторов на нарушение их авторских прав владельцами сайтов. Кроме текстов и картинок, основной удар на себя приняли площадки с видео-контентом, которые размещали пиратские съемки фильмов из кинотеатров. Описания и рецензии к видео тоже подверглись фильттрованию — теперь не разрешалось копипастить под страхом наложения санкций. За большое количество жалоб на сайт за нарушения, такая площадка выкидывалась из поисковой выдачи.

Результаты

По результатам первого месяца работы «Пирата» от Google на практически всех сайтах, включая видехостинги и онлайн-кинотеатры, были заблокированы к просмотру миллионы видео-файлов, нарушающих права правообладателей. Вебсайты, имеющие только пиратский контент, оказались под санкцией и выпали из поиска. Массовая зачистка от «ворованного» контента продолжается до сих пор.

HummingBird (Колибри)

Алгоритм «Колибри» — внедрение технологии понимания пользователя, когда запросы не соответствуют точным вхождениям. Запущена система «определения точных желаний» в сентябре 2013 года.

Особенности

Теперь пользователь не изменял фразу, чтобы конкретней найти нужную информацию. Алгоритм «Колибри» давал возможность не искать по прямым точным вхождениям, а выдавал результаты из базы «расшифровки пожеланий». Например, пользователь вбивал в поисковую строку фразу «места для отдыха», а «Колибри» ранжировала в поиске сайты с данными о санаториях, отелях, СПА-центрах, бассейнах, клубах. То есть в алгоритме были сгруппирована стандартная база с человеческими фразами об их описании. Понимающая система изменила поисковую выдачу существенно.

Результаты

С помощью технологии «Колибри» сеооптимизаторы смогли расширить свое семантическое ядро и получить больше пользователей на сайт за счет морфологических ключей. Ранжирование площадок уточнилось, потому что теперь учитывались не только вхождения прямых ключевых фраз и релевантных тексту запросов, но и околотематические пожелания пользователей. Появилось понятие LSI-копирайтинг — написание текста, учитывающего латентное семантическое индексирование. То есть теперь статьи писались не только со вставкой ключевых слов, но и максимально включая синонимы и околотематические фразы.

(Голубь)

Алгоритм «Голубь» — система локализации пользователей и привязки поисковой выдачи к месту нахождения. Технология запущена в июле 2014 года.

Особенности

Месторасположение пользователя теперь играло ключевую роль для выдачи результатов. Органический поиск превратился в сплошную геолокацию. Привязка сайтов к Гугл-картам сыграла особую роль. Теперь при запросе пользователя, алгоритм сначала искал ближайшие по местоположению сайты или таргетированный контент, далее шел на удаление от посетителя. Органическая выдача видоизменилась существенно.

Результаты

Локальные сайты быстро возвысились в поиске и получили местный трафик. Интернет-площадки без геозависимости упали в позициях. Снова началась борьба за каждый город и количественно возросли ситуации, когда начали плодить одинаковые сайты с отрерайченным контентом и привязкой к разной местности. До получения точной информации о внедрении алгоритма «Голубь» в русскоязычном интернет-поиске, многие вебмастера думали, что попали под санкции «Пингвина».

(Дружелюбный к мобильным устройствам)

Алгоритм Mobile-Friendly — внедрение технологии проверки сайтов на адаптивность к мобильным устройствам. Система запущена в апреле 2015 года и успела «обозваться» в интернете как: «Мобильный Армагеддон» (mobilegeddon), «Мобильный Апокалипсис» (mobilepocalyse, mobocalypse, mopocalypse).

Особенности

Mobile-Friendly запустил новую эру для мобильных пользователей, рекомендуя оптимизаторам в срочном порядке обеспечить комфортное пребывание мобильных посетителей на их сайтах. Адаптивность площадок к мобильным устройствам стала одним из важнейших показателей заботы владельцев сайтов о своих посетителях. Неадаптивным веб-площадкам пришлось в кратчайшие сроки исправлять недоработки: избавляться от плагинов, не поддерживающихся на планшетах и смартфонах, корректировать размер текста под расширение разных экранов, убирать модули, мешающие пребыванию посетителей с маленьким экранчиком перемещаться по сайту. Кто-то просто верстал отдельную мобильную версию своего интернет-ресурса.

Результаты

Заранее готовые к такому повороту ресурсы получили особое выделение среди других интернет-площадок в поисковой выдаче, а трафик из разнообразных не декстопных устройств на такие вебсайты повысился более чем на 25%. Совсем неадаптивные сайты были понижены в мобильном поиске. Направленность на мобильность сыграла свою роль — на ресурсах свели к минимуму наличие тяжелых скриптов, рекламы и страницы, естественно, начали грузиться быстрее, учитывая, что большинство пользователей с планшетами/смартфонами используют мобильный интернет, который в разы медленнее, чем стандартный.

Резюме

Теперь вам известно, как по годам развивался поиск как для обычных пользователей, так и для «попавших по раздачу» сайтов. Каждый из вышеперечисленных алгоритмов поиска периодически модернизируется. Но это не значит, что оптимизаторам и вебмастерам стоит чего-то бояться (если конечно вы не используете черное СЕО), но держать ухо востро все же стоит, чтобы неожиданно не просесть в поиске из-за очередного нового фильтра.

Яндекс и Google: как работают поисковые системы?

Ежедневно сотни тысяч пользователей задают вопросы поисковым системам в надежде получить ответ на интересующие их вопросы. Но как это работает? Мы решили приоткрыть завесу тайны с этого вопроса.

Давно никого не удивляет, что при практически любой формулировке вопроса поисковые системы предоставляют пользователю список веб-страниц, отлично отвечающих их запросу. Такой результат достигается с помощью сложных алгоритмов, представляющих собой комплекс тщательно разработанных программ.

Поисковые системы самообучаемы и способны оценивать качество сайта, исходя из поведения пользователя на ресурсах. Опыт поисковой машины ложится в основу изменений алгоритмов. Это особенность упрощает жизнь пользователям, но усложняет работу оптимизаторам.

В рунете продвижение ориентируется на поисковые системы Яндекс и Google. Несмотря на то, что алгоритмы этих систем схожи, они все таки имеют ряд важных особенностей. Условно всю работу поисковой машины можно разделить на несколько этапов.

Сканирование

Многие пользователи ошибочно полагают, что в результатах поиска можно найти все страницы, имеющиеся на просторах интернета. Но это не так. В ранжировании участвуют только сайты, которые известны поисковым машинам.

Найти как можно больше новых сайтов — главная задача поисковой системы на этапе сканирования. Эту работу выполняет робот «паук», который переходит по ссылкам на страницах сайта. Таким образом, он составляет подобие справочника адресов страниц. Эти данные используются в дальнейшем для повторных обходов.

Если Вы долгое время не находите свой сайт в поиске, возможно у робота просто нет возможности до него добраться. Поисковые системы дают советы по улучшению индексации сайта, с ними можно ознакомится на страницах поддержки пользователей.

Индексация

Как написано выше, в результаты поиска попадают ранжированные страницы, находящиеся в базе поисковых систем. Анализировать данные можно только при их наличии. Для получения информации о страницах ресурса и предназначена индексация.

Что такое индексация? Индексация (попадание в индекс поисковых систем) — это процесс создания копии страницы и сохранения полученных данных в базе. Эту копию поисковые системы используют для определения соответствия сайта запросу пользователя.

В процессе индексации страницы, роботы поисковых систем оценивают качество информации представленной на странице. Индексация повторяется через некоторые промежутки времени. Чем чаще изменяется информация на сайте, тем чаще робот поисковых систем будет посещать и индексировать Ваш сайт.

Сниппет

Сниппет — это часть текста, которая появляется в результатах выдачи поисковых систем под заголовком страницы. Формируется он для пользователя, предоставляя ему возможность самостоятельно оценить соответствие страницы запросу. Как правило, он формируется из поля «description». При его отсутствии или недостаточном соответствии ключевой фразе, поисковая система формирует краткое описание из текста веб-страницы.

В Яндексе сниппеты выглядят следующим образом:

Ранжирование страниц в результатах поиска

Поисковики используют при ранжировании сайтов систему факторов. На сегодняшний день Google учитывает около 270 факторов, Яндекс — около 800. И их число будет только увеличиваться.

На порядок страниц в выдаче оказывают три вида факторов:

Группа внешних факторов определяет популярность ресурса в интернете с помощью сложных алгоритмов. Основной критерий — наличие ссылок на сайт с качественных ресурсов близких по тематике.

В отличие от внешних факторов, на внутренние может повлиять веб-мастер. К ним относится в первую очередь уникальный контент.

Наполнение сайта полезной пользователю информацией является обязательной частью работы с ресурсом. Но одной пользы не достаточно. Содержание страниц должно соответствовать требованиям поисковых систем к ресурсам по продвигаемым запросам, а так же быть читаемой. Удобный шрифт, наличие элементов форматирования и изображений: все это показатель качественного контента.

Наименее подверженная автоматизации группа факторов — поведенческие. К ним можно отнести: переходы пользователя внутри сайта, возврат к поисковой выдаче, использование посетителем кнопок социальных сетей и многое другое. Поведение пользователей поисковые системы начали учитывать сравнительно недавно, но эти факторы становятся одними из самых важных.

Поисковые системы очень быстро реагируют на бум или наоборот на резкий спад посещаемости, географию пользователей и поведение на сайте. Кто как ни сам человек может решить полезен ресурс или стоит продолжить поиск более качественного контента.

С 2020 года Яндекс включил в список еще один фактор — адаптивность сайта. С ростом числа мобильных пользователей этот фактор становится важен не только для поисковиков, но и для владельцев сайтов.

За любые манипуляции с рейтингом сайты наказываются поисковыми системами с помощью фильтров. Фильтр — это ограничения поисковой системы, накладываемые на сайт. В результате чего ресурс надолго уходит из поля видимости потенциальных клиентов, поэтому стоит внимательно выбирать специалиста по продвижению.

Выводы

Специалисты корпораций Яндекс и Google разработали и постоянно совершенствуют методы поиска сайтов, полезных пользователю сети интернет. Это обеспечивает наиболее релевантную выдачу поисковых систем.

С целью оценки качества ресурсов используется множество факторов, повлиять на которые возможно при качественном анализе соответствия интернет-ресурса требованиям поисковых систем. Этот процесс трудоемкий и требует опыта и хороших знаний в области продвижения, поэтому доверить выход своего сайта на первые позиции выдачи поисковых систем лучше профессионалам.

В наше время все больше используют изображения в качестве фона под текст. Данный прием весьма известен и в дизайне, и в мультимедиа. Изображение, в качестве фона под надписью, придает ей более выразительный и запоминающийся вид, чем обычный набранный текст.

«Черная пятница» — крупнейшая распродажа в интернет-магазине в режиме онлайн, которая, безусловно, предоставляет бизнесменам хорошую возможность подзаработать. Однако к этому событию нужно правильно подготовиться, чтобы вместо заработка не получить головную боль.

Не секрет, что вес изображений на сайте играет немаловажную роль с точки зрения SЕО, а также сильно влияет на загрузку самой страницы. Давайте разберемся, какими способами можно быстро «облегчить» изображения и не потерять пользователей.

Слово «ребрендинг» у всех на слуху, но оно означает не просто дань моде или изменение логотипа компании. Ребрендинг – это объективная необходимость проведения изменений внутри компании и в рамках работы с целевой аудиторией. Жизнь сегодня стремительно меняется, и тем компаниям, которые хотят оставаться на плаву, важно уметь подстраиваться под эти перемены..

Как подняться наверх в локальной выдаче Google? Наш SEO-специалист Илья Вершинин побывал на встрече с Грегом Гиффордом — ведущим экспертом по Local SEO. А теперь делится советами и внедряет в работу новые практики.

Как работают поисковые системы — сниппеты, алгоритм обратного поиска, индексация страниц и особенности работы яндекса

Очевидно, что метод простого перебора всех страниц, хранящихся в базе данных, не будет являться оптимальным. Этот метод называется алгоритмом прямого поиска и при том, что этот метод позволяет наверняка найти нужную информацию не пропустив ничего важного, он совершенно не подходит для работы с большими объемами данных, ибо поиск будет занимать слишком много времени.

Поэтому для эффективной работы с большими объемами данных был разработан алгоритм обратных (инвертированных) индексов. И, что примечательно, именно он используется всеми крупными поисковыми системами в мире. Поэтому на нем мы остановимся подробнее и рассмотрим принципы его работы.

При использовании алгоритма обратных индексов происходит преобразование документов в текстовые файлы, содержащие список всех имеющихся в них слов.

Слова в таких списках (индекс-файлах) располагаются в алфавитном порядке и рядом с каждым из них указаны в виде координат те места в вебстранице, где это слово встречается. Кроме позиции в документе для каждого слова приводятся еще и другие параметры, определяющие его значение.

Если вы вспомните, то во многих книгах (в основном технических или научных) на последних страницах приводится список слов, используемых в данной книге, с указанием номеров страниц, где они встречаются. Конечно же, этот список не включает вообще всех слов, используемых в книге, но тем не менее может служить примером построения индекс-файла с помощью инвертированных индексов.

Обращаю ваше внимание, что поисковики ищут информацию не в интернете, а в обратных индексах обработанных ими вебстраниц сети. Хотя и прямые индексы (оригинальный текст) они тоже сохраняют, т.к. он в последствии понадобится для составления сниппетов, но об этом мы уже говорили в начале этой публикации.

Алгоритм обратных индексов используется всеми системами, т.к. он позволяет ускорить процесс, но при этом будут неизбежны потери информации за счет искажений внесенных преобразованием документа в индекс-файл. Для удобства хранения файлы обратных индексов обычно хитрым способом сжимаются.

Математическая модель используемая для ранжирования

Для того, чтобы осуществлять поиск по обратным индексам, используется математическая модель, позволяющая упростить процесс обнаружения нужных вебстраниц (по введенному пользователем запросу) и процесс определения релевантности всех найденных документов этому запросу. Чем больше он соответствует данному запросу (чем он релевантнее), тем выше он должен стоять в поисковой выдаче.

Значит основная задача, выполняемая математической моделью — это поиск страниц в своей базе обратных индексов соответствующих данному запросу и их последующая сортировка в порядке убывания релевантности данному запросу.

Использование простой логической модели, когда документ будет являться найденным, если в нем встречается искомая фраза, нам не подойдет, в силу огромного количества таких вебстраниц, выдаваемых на рассмотрение пользователю.

Поисковая система должна не только предоставить список всех веб-страниц, на которых встречаются слова из запроса. Она должна предоставить этот список в такой форме, когда в самом начале будут находиться наиболее соответствующие запросу пользователя документы (осуществить сортировку по релевантности). Эта задача не тривиальна и по умолчанию не может быть выполнена идеально.

Кстати, неидеальностью любой математической модели и пользуются оптимизаторы, влияя теми или иными способами на ранжирование документов в выдаче (в пользу продвигаемого ими сайта, естественно). Матмодель, используемая всеми поисковиками, относится к классу векторных. В ней используется такое понятие, как вес документа по отношению к заданному пользователем запросу.

В базовой векторной модели вес документа по заданному запросу высчитывается исходя из двух основных параметров: частоты, с которой в нем встречается данное слово (TF — term frequency) и тем, насколько редко это слово встречается во всех других страницах коллекции (IDF — inverse document frequency).

Под коллекцией имеется в виду вся совокупность страниц, известных поисковой системе. Умножив эти два параметра друг на друга, мы получим вес документа по заданному запросу.

Естественно, что различные поисковики, кроме параметров TF и IDF, используют множество различных коэффициентов для расчета веса, но суть остается прежней: вес страницы будет тем больше, чем чаще слово из поискового запроса встречается в ней (до определенных пределов, после которых документ может быть признан спамом) и чем реже встречается это слово во всех остальных документах проиндексированных этой системой.

Оценка качества работы формулы асессорами

Таким образом получается, что формирование выдач по тем или иным запросам осуществляется полностью по формуле без участия человека. Но никакая формула не будет работать идеально, особенно на первых порах, поэтому нужно осуществлять контроль за работой математической модели.

Для этих целей используются специально обученные люди — асессоры, которые просматривают выдачу (конкретно той поисковой системы, которая их наняла) по различным запросам и оценивают качество работы текущей формулы.

Все внесенные ими замечания учитываются людьми, отвечающими за настройку матмодели. В ее формулу вносятся изменения или дополнения, в результате чего качество работы поисковика повышается. Получается, что асессоры выполняют роль такой своеобразной обратной связи между разработчиками алгоритма и его пользователями, которая необходима для улучшения качества.

Основными критериями в оценке качества работы формулы являются:

  1. Точность выдачи поисковой системы — процент релевантных документов (соответствующих запросу). Чем меньше не относящихся к теме запроса вебстраниц (например, дорвеев) будет присутствовать, тем лучше
  2. Полнота поисковой выдачи — процентное отношение соответствующих заданному запросу (релевантных) вебстраниц к общему числу релевантных документов, имеющихся во всей коллекции. Т.е. получается так, что во всей базе документов, которые известны поиску вебстраниц соответствующих заданному запросу будет больше, чем показано в поисковой выдаче. В этом случае можно говорить о неполноте выдаче. Возможно, что часть релевантных страниц попала под фильтр и была, например, принята за дорвеи или же еще какой-нибудь шлак.
  3. Актуальность выдачи — степень соответствия реальной вебстраницы на сайте в интернете тому, что о нем написано в результатах поиска. Например, документ может уже не существовать или быть сильно измененным, но при этом в выдаче по заданному запросу он будет присутствовать, несмотря на его физическое отсутствие по указанному адресу или же на его текущее не соответствие данному запросу. Актуальность выдачи зависит от частоты сканирования поисковыми роботами документов из своей коллекции.

Отчеты | Как работают поисковые системы и что такое сниппеты

Мария Бори­сё­нок

Всего материалов: 395

Как работают поисковые системы и что такое сниппеты

26 сен­тяб­ря при под­держ­ке Mail.Ru Group состо­ял­ся митап Теп­ли­цы соци­аль­ных тех­но­ло­гий «Самые оба­я­тель­ные и при­вле­ка­тель­ные, или Как уве­ли­чить при­ток поль­зо­ва­те­лей с поис­ко­вых систем на сайт». Участ­ни­ки узна­ли прин­ци­пы рабо­ты поис­ко­вых систем, пра­ви­ла индек­са­ции и позна­ко­ми­лись с инстру­мен­та­ми созда­ния снип­пе­тов.

На встре­че высту­пил Павел Кар­пов, про­фес­си­о­наль­ный интер­нет-мар­ке­то­лог, кон­суль­тант рос­сий­ских и транс­на­ци­о­наль­ных ком­па­ний, спи­кер кон­фе­рен­ции WordCamp.

Основы алгоритмов поисковых систем

Несмот­ря на раз­но­об­ра­зие поис­ко­вых систем (Яндекс, Google, Mail.Ru, Bing), их рабо­та сво­дит­ся к трем дей­стви­ям:

  1. най­ти инфор­ма­цию на сай­те с помо­щью робо­тов;
  2. обра­бо­тать полу­чен­ную инфор­ма­цию (индек­са­ция стра­ниц);
  3. дове­сти инфор­ма­цию до поль­зо­ва­те­ля.

Вла­де­лец сай­та может вли­ять на все эта­пы выда­чи инфор­ма­ции. Раз­бе­рем, как имен­но.

Этап 1. Поиск информации поисковыми роботами

Поис­ко­вые робо­ты ска­ни­ру­ют сай­ты и соби­ра­ют нуж­ную инфор­ма­цию для поис­ко­ви­ков. Для нача­ла про­верь­те, досту­пен ли ваш сайт для ска­ни­ро­ва­ния.

Далее убе­ди­тесь, есть ли у вас кар­та сай­та в виде фай­ла Sitemap. Файл Sitemap – это файл с инфор­ма­ци­ей о стра­ни­цах сай­та, кото­рые под­ле­жат индек­си­ро­ва­нию. Раз­ме­стив этот файл на сай­те, вы може­те:

  • сооб­щить поис­ко­вой систе­ме, какие стра­ни­цы ваше­го сай­та нуж­но индек­си­ро­вать;
  • узнать, как часто обнов­ля­ет­ся инфор­ма­ция на стра­ни­цах;
  • обо­зна­чить, индек­си­ро­ва­ние каких стра­ниц наи­бо­лее важ­но.

Совет Пав­ла Кар­по­ва: Так­же реко­мен­дую про­ве­рить сайт на нали­чие битых ссы­лок и посмот­реть содер­жи­мое фай­ла robots.txt, кото­рый лежит в корне сай­та.

Если у вас появи­лась новая стра­ни­ца на сай­те, убе­ди­тесь, что у поис­ко­вых систем не воз­ник­нет про­блем с досту­пом к ней для индек­са­ции.

Алек­сей Куль­пин, раз­ра­бот­чик WordPress-пла­ги­нов. Фото: Бек Юсу­пов.

Этап 2. Индексация сайта

После того как робо­ты собра­ли инфор­ма­цию, начи­на­ет­ся каче­ствен­ный ана­лиз содер­жи­мо­го сай­та. Есть про­ве­рен­ные при­е­мы, кото­рые могут повли­ять на ско­рость попа­да­ния в поис­ко­вые систе­мы:

  • повы­шай­те уро­вень цити­ру­е­мо­сти: чем чаще на вас ссы­ла­ют­ся, тем реле­вант­нее для поис­ко­вой выда­чи ваш сайт;
  • пиши­те боль­шие тек­сты. Чем объ­ем­нее текст на стра­ни­це, тем боль­ше шанс, что в нем содер­жит­ся боль­ше отве­тов на запро­сы людей;
  • дели­тесь сво­и­ми тек­ста­ми в соци­аль­ных сетях и соби­рай­те рет­ви­ты.

Участ­ни­ки мита­па. Фото: Бек Юсу­пов.

Этап 3. Выдача данных пользователю

Алго­ритм выда­чи дан­ных у систем Яндекс и Google раз­ли­чен. В 2009 году Яндекс внед­рил новый метод машин­но­го обу­че­ния – Мат­рикс­нет. В нем важ­ная роль отво­дит­ся асес­со­рам, сотруд­ни­кам поис­ко­вых ком­па­ний, кото­рые зани­ма­ют­ся оцен­кой реле­вант­но­сти стра­ниц в поис­ко­вой выда­че запро­сам поль­зо­ва­те­лей.

Асес­со­ры про­смат­ри­ва­ют спи­сок запро­сов и созда­ют выбор­ку реле­вант­ных сай­тов. Роль чело­ве­че­ско­го фак­то­ра здесь зна­чи­тель­на, в отли­чие от прин­ци­па рабо­ты систе­мы Google.

Поиск в систе­ме Google осно­ван на искус­ствен­ном интел­лек­те Rank Brain. При каж­дом запро­се Rank Brain ана­ли­зи­ру­ет инфор­ма­цию на осно­ве дан­ных, полу­чен­ных ранее. После ана­ли­за мно­же­ства фак­то­ров, в том чис­ле и пове­ден­че­ских, он пред­ла­га­ет реле­вант­ный вари­ант выда­чи на обсуж­де­ние асес­со­рам Google. В слу­чае если вари­ант откло­нен, то Rank Brain про­дол­жа­ет искать нуж­ный ответ.

Вы не може­те рабо­тать толь­ко с клю­че­вы­ми сло­ва­ми, так как чело­век может фор­му­ли­ро­вать запрос совер­шен­но непред­ска­зу­е­мым обра­зом. Не дове­ряй­те пози­ци­ям соб­ствен­но­го сай­та в поис­ко­ви­ке. Павел Кар­пов

Спе­ци­фи­ка­ции Яндекс и Google о фак­то­рах ран­жи­ро­ва­ния посто­ян­но меня­ют­ся, и за их обнов­ле­ни­я­ми сле­дят про­фес­си­о­наль­ные SEO-спе­ци­а­ли­сты. Для тех, кто не хочет углуб­лять­ся в SEO, пред­ла­га­ем разо­брать­ся со снип­пе­та­ми.

Снип­пе­ты – это инфор­ма­тив­ные бло­ки, кото­рые выда­ют поис­ко­ви­ки при запро­се. Дан­ные бло­ки содер­жат назва­ние стра­ни­цы и неболь­шое опи­са­ние сай­та (инфор­ма­ция из мета-тега «description»).

Инструменты создания сниппетов

Снип­пе­ты по-раз­но­му отоб­ра­жа­ют­ся в каж­дой поис­ко­вой систе­ме, поэто­му сто­ит узнать подроб­нее о снип­пет-раз­мет­ке для Яндекс и Google. Так­же реко­мен­ду­ем най­ти отдель­ные инстру­мен­ты по созда­нию и про­дви­же­нию снип­пе­тов для каж­дой CMS-плат­фор­мы.

Добавить комментарий