Google индексация не всех страниц сайта является нормой


Содержание материала:

Как проверить индексацию сайта и отдельных страниц в Яндекс и Google

Технические доработки под требования SEO и оптимизация структуры сайта – это первостепенные моменты в продвижении ресурса, но если поисковые системы не знают о нем, то есть он не проиндексирован, то продвижение невозможно.

Что же такое индексация? Это добавление поисковыми роботами собранных сведений о ресурсе в базы данных. Дальнейшее ранжирование происходит уже по проиндексированным страницам. Предлагаем несколько простых и понятных способов проверки страниц, которые «видят» поисковые системы.

Рассмотрим каждый вариант подробнее.

1. Проверка индексирования сайта через панель Яндекс.Вебмастера и Google Search Console

Бесплатный и достоверный способ с использованием сервисов для вебмастеров.

Яндекс.Вебмастер

В первую очередь выполняем авторизацию в аккаунте Яндекса и входим в сервис Вебмастер. Далее вводим url ресурса и нажимаем кнопку «Добавить».

Добавление сайта в вебмастер Яндекса

После прохождения верификации переходим в панель и нажимаем вкладку «Индексирование» – «Страницы в поиске». Тут представлены страницы веб-сайта, участвующие в поиске Яндекса.

Просмотр страниц в поиске Яндекса через панель для вебмастеров

Также количество загруженных и проиндексированных страниц можно посмотреть в сервисе на странице «Мои сайты».

Просмотр количества страниц в поиске на вкладке «Мои сайты»

Для анализа список страниц можно скачать из сервиса файлом в форматах .xls и .csv.

Google Search Console

Аналогично вебмастеру Яндекса проходим авторизацию в аккаунте Google, входим в сервис search.google, вводим url сайта и нажимаем кнопку «Добавить ресурс».

Пример верификации в панели вебмастеров в Гугл

После подтверждения прав на сайт для проверки индексации ресурса в панели Вебмастера Гугл переходим во вкладку «Индекс» – «Покрытие».

Просмотр страниц в ПС Гугл через панель для вебмастеров

Нужно учитывать, что информация в Google Search Console примерная, так как в отчете показывается статистика после последнего обхода, то есть количество страниц может быть другим на текущий момент проверки.

Примеры проверки индексации сайта

На скриншоте – сайт, у которого нет проблем с индексацией в Яндексе

На скриншоте – сайт, у которого регулярно удаляются страницы из поиска Яндекса

На скриншоте – сайт, у которого регулярно удаляются страницы из поиска Гугл

2. Проверка количества проиндексированных страниц в ПС при помощи операторов

Применяя документный оператор «site» возможно увидеть примерное количество страниц в индексе. Для использования этого параметра введите в строке поиска «site:адрес_интересующего_сайта», например «site:https://www.bordur32.ru».

Пример использования оператора «site» в Яндексе

Пример использования команды «site» в Гугле

3. Анализ индексации сайта при помощи плагинов и расширений

Чтобы не вводить операторы в строке браузера перед url используется данный автоматизированный способ. Скачиваем бесплатный букмарклет для браузера (небольшой по размеру скрипт, сохраняемый в закладках) и кликаем на специальную иконку находясь на сайте.

Пример использования плагина SEO-tools

Установить расширение вы можете по ссылке

Пример использования расширения RDS bar

Установить расширение вы можете по ссылке

4. Отслеживание проиндексированных страниц с помощью online сервисов

Еще один способ проверки индексации это использование сторонних ресурсов. Например, переходим на сайт a.pr-cy.ru вводим url и нажимаем «Анализировать».

Скриншот проверки индексации сайта в a.pr-cy.ru

Индексацию сайта можно проверить и в других сервисах, например: seogadget.ru, xseo.in и других.

5. Программы для контроля индексации сайта

Существуют бесплатные (Site-Auditor) и платные программы (Semonitor) для анализа сайта и проверки страниц в индексе. Выбранное программное обеспечение скачиваем и устанавливаем на ПК. В строку ввода добавляем url проверяемого сайта.

Скриншот фрагмента анализа сайта в программе Site-Auditor

Проверка индексации страницы

Иногда требуется не только узнать сколько страниц проиндексировано в Яндексе и Google, но и нужно определить индексируется ли какая-то конкретная страница. Это можно сделать следующими способами:

1. В панели для вебмастеров:

Яндекс – следовать по пути «Индексирование» – «Проверить статус URL». В поле для ввода данных ввести либо полный урл интересующей страницы, либо путь от корня сайта начинающийся с «/». Далее нажать кнопку «Проверить».

Проверяемая страница в поиске Яндекса

Google – перейти во вкладку «Проверка URL» и ввести урл интересующей страницы.

Проверяемая страница проиндексирована в Google

2. Оператор «url»

В строке поиска вводим специальный оператор. Запрос будет выглядеть так: «url:адрес_интересующей_страницы».

Пример использования оператора «url» в ПС Яндекс

3. Оператор «info»

В поисковой системе Google можно воспользоваться оператором «info». Запрос в строке поиска будет выглядеть следующим образом: «info:адрес_интересующей_страницы»

Пример использования оператора «info» в ПС Гугл

Почему сайт может не индексироваться

В идеале страницы ресурса должны быть проиндексированы и их количество в поисковых системах должно быть примерно одинаковым. Но так бывает далеко не всегда. Рассмотрим причины мешающие индексации сайта.

Ошибки в файле robots.txt

Файл robots.txt – это текстовый документ в формате .txt лежащий в корневом каталоге веб-сайта, запрещающий или разрешающий индексирование страниц роботам ПС. Поэтому неправильное использование директив может закрыть от индексации весь сайт или отдельные страницы ресурса.

Отсутствие файла sitemap.xml

Карта сайта (файл sitemap.xml) – это специальный документ расположенный в корневом каталоге, содержащий ссылки на все страницы ресурса. Этот файл помогает поисковым роботам оперативно и качественно индексировать ресурс. Поэтому в него нужно добавлять только те страницы, которые должны попасть в индекс.

Новый сайт

Процесс индексации нового ресурса занимает некоторое время. Поэтому в данном случае нужно просто подождать, не забывая контролировать процесс индексации.

Приватные настройки

В некоторых CMS, таких, как WordPress и Megagroup, существует возможность скрыть от индексации страницы через админку сайта, данные настройки могут стоять по умолчанию.

Тег «noindex»

Страницы могут быть закрыты от индекса в коде с помощью мета тега name=»robots» content=»noindex, nofollow» />. Нужно проверить его наличие и либо убрать из кода, либо заменить на «index» и «follow».

Мусорные страницы

Еще одной из причин может стать большое количество мусорных страниц, не предоставляющих полезного и уникального контента в рамках сайта. Такие страницы нужно закрывать от индексации, чтобы не возникали проблемы с индексированием ресурса и робот не тратил время на посещения этих страниц.

Также причиной не индексации страниц ресурса могут быть ошибки сканирования, блокировка сайта в файле .htaccess, дубли страниц, не уникальный контент, низкий uptime хостинга, медленная скорость загрузки сайта, баны и фильтры ПС.

Выводы SEO-специалиста Веб-центра

Главная цель как владельца сайта так и SEO-специалиста добиться индексирования нужных страниц ресурса. Для этого нужно регулярно контролировать страницы в поиске Яндекса и Google, проверять сервисы для вебмастеров на наличие ошибок на сайте, наполнять его уникальным и полезным контентом, следить и оптимизировать скорость загрузки ресурса.

Как узнать количество проиндексированных страниц в Гугле

От автора

Важно следить за количеством проиндексированных страниц сайта. Резкий рост и резкое снижение страниц в индексе, означает, что на сайте существуют проблемы или ошибки которые решать и исправлять.

Способы узнать количество проиндексированных страниц в Гугле

Способ 1. Search Console

Чтобы следить за всеми показателями сайта в поиске Google, нужно зарегистрировать сайт Search Console, – сервисе для комплексного анализа показателей сайта в поиске Гугле.

После регистрации, подтверждении прав на сайт и выполнении необходимых настроек, сервис должен набрать статистику по сайту, в том числе показать, сколько страниц есть в индексе Гугле.

Посмотреть количество и их список можно на вкладке Индекс Google>>>Статус Индексирования.

На диаграмме страницы сервис покажет динамику индексации страниц за год в двух вариантах: Только основные и Расширенные данные.

Основные данные показывают количество страниц в индексе и график индексации по месяцам за год.

Расширенные данные покажут, сколько страниц закрыты от сканирования в файле robots.txt, и сколько страниц вы сами удалили из индекса за текущий год.

Важно! Резкое снижение и резкое увеличение страниц в индексе Гугле, не связанное с вашими действиями на сайте, может говорить о проблемах.

Например, резкое увеличение может говорить о взломе сайта, автоматическим созданием контента, большим количеством дублей. Резкое снижение, говорит, о невозможности Гугле сканировать часть вашего контента или санкциях наложенных новым алгоритмом.

Как говорит сам Google в своих рекомендациях:

Стремитесь к стабильным показателем роста страниц в индексе. Стабильный рост просканированных и проиндексированных страниц сайта говорит, что Гугле регулярно получает доступ к содержанию и индексирует ваш ресурс.

Информация Search Console доступна только после подтверждения прав на сайт, а значит, не всегда доступна и не может использоваться для анализа сайтов конкурентов.

Как в этом случае узнать количество проиндексированных страниц в Гугле?

Способ 2. Язык запросов

Общее количество (приблизительное) проиндексированных страниц сайта можно получить сразу в выдаче Google, сделав такие запросы:

  • site:www.example.ru
  • site:example.ru
  • site:https://www.example.ru
  • site:https://example.ru
  • site:http://www.example.ru
  • site:http://example.ru

, в которых example.ru нужно поменять на свой домен. Без пробелов.

Нажав на кнопку «настройки» внизу поиска можно посмотреть, какие страницы поисковик проиндексировал за час, 24 часа, неделю, месяц.

Второй способ не очень корректный и дает выдачу со всеми страницами, где есть ваш сайт. Включая соцсети, сервисы проверок и т.д. Более точную информацию по количеству проиндексированных страниц в Гугле может дать одно из специальных расширений браузера.

Способ 3. Расширения для браузера

Приведу один пример такого расширения. Оно дает подробную информацию о состоянии сайта с точки зрения оптимизации и индекса. Это расширений под названием «RDS bar».

  • Вот его ссылка для Google: //chrome.google.com/webstore/detail/rds-bar-seo-pagerank-dmoz/jlipcaflaocihnmlhnhcfombgmmfglho
  • Вот его ссылка для Mozilla: https://addons.mozilla.org/ru/firefox/addon/rds-bar/
  • Вот его ссылка для Opera: https://addons.opera.com/ru/extensions/details/rds-bar/

Это расширение для браузеров, в один клик покажет сколько на любом сайте проиндексировано страниц.

Примечание: расширение RDS я показал для примера. Есть аналогичные, такие же мощные расширения и расширения менее функциональные, которые помогут быстро посмотреть индекс сайта и не только в Гугле. Например, SEO Quake ( https://www.seoquake.com/index.html ).

Это полезно

Если вам нужно моментально узнать есть ли домен или отдельная страница в индексе, используйте Букмарклеты —Java Script программы, оформленные в виде «javascript:URL», сохраняемая как закладка браузера.

Имея такой букмарклер, вы моментально посмотрите есть открытая страница сайта в Индексе.

Вот «буки» от Netpeak: http://img.netpeak.net/melik/index-check.html?_ga=2.163131836.1475269850.1519456507-549606374.1519456507

Их нужно положить в панель закладок вашего браузера и нажать на открытой странице сайта.

Вывод

Каждый веб мастер выбирает инструменты под себя и для выполнения своих задач. Однако надеюсь, что эта статья была полезна, и вы без труда узнать количество проиндексированных страниц в Гугле вашего сайта и сайта ваших конкурентов.

12 причин, почему Google и Яндекс не индексирует ваш сайт

Больше полезных статей, кейсов и мануалов. Подпишись на обновления!

Без нормальной индексации сайта – поисковое продвижение в принципе невозможно.

Первое, что нужно сделать – это проиндексировать сайт и сделать так, чтобы новый контент на нем быстро индексировался поисковиками.

В данной статье мы рассмотрим 12 причин, по которым у вашего сайта могут быть проблемы с индексацией в поисковых системах Google и Яндекс .

Переходим к причинам:

1. Google и Яндекс пока не нашел ваш сайт

Такое случается в том случае, если вы только что выложили свой сайт и ничего не делали для того, чтобы поисковые системы его заметили.

В таком случае не стоит ожидать быстрой индексации. Но это легко можно поправить.

Для этого нужно сделать:

  • Добавить сайт в поисковые системы (Add url)
  • Добавить сайт в Google и Яндекс вебмастер

Статьи в тему:

После чего, нужно немного подождать и ваш сайт должен проиндесироваться. Обычно это занимает от пару часов, до пару дней и более.

2. Сайт или страницы закрыты в robots.txt

Это часто бывает причиной, которую не учитывают разработчики и выкатывают сайт закрытым от индексации в файле robots.txt. Но такое легко можно поправить.

Если у вас не много технических разделов, то можно обойтись и таким robots.txt:

Но если на сайте нужно много чего закрывать, то:

  • читаем статью по ссылке выше
  • закрываем только те разделы, что не нужно индексировать
  • оставляем для индексации все остальное

Тогда все с вашим сайтом должно быть нормально.

3. Включены приватные настройки

Если вы используете систему управления сайта WordPress, то по умолчанию могут стоять приватные настройки. Это действительно может быть причиной того, что сайт до сих пор не проиндексирован.

Для этого нужно зайти в:

  • Настройки
  • Чтение
  • Видимость для поисковых систем
  • Убрать галочку

Многие забывают убрать эту галочку и потом не могут понять, в чем же причина не индексации сайта.

4. Сайт закрыт от индексации в noindex в мета тегах

Индексацию контента или страницы так же можно закрыть с помощью мета тега. Выглядит он так:

Все что нужно:

  • проверить код на наличие такого тега и что в нем прописано
  • убрать строку кода
  • или просто сделать follow и index

Пример:

Из нашей практики встречались и такие сайты, на которых это было причиной индексации.

5. Ошибки сканирования

Если возникает много ошибок при сканировании, то поисковый бот просто может не дойти до нужных страниц.

Чтобы это проверить:

  • Заходим в Google Webmaster Tools
  • Сканирование
  • Ошибки сканирования

Если есть какие-то критические ошибки. Просто нужно их исправить и все будет хорошо.

6. Сайт заблокирован в .htaccess

В этом файле обычно прописывается 301 редирект. Но в нем, так же можно закрыть от индексации поисковыми системами.

Для того, чтобы это проверить:

  • находим на сервере файл .htaccess
  • в коде смотрим, чтобы не был закрыт сайт

Это может быть причиной, но многие даже не думаю в этом направлении. А как вариант не стоит исключать.

7. Хостинг или сервер работает не стабильно

Если в момент, когда поисковый бот пришел на сайт индексировать страницы, сайт не доступен, то это может быть причиной не индексации.

Как минимум стоит позаботиться о том, чтобы up time у вашего сервера был хорошим и хостинг стабильным.

Сервисов, которые позволяет это проконтролировать множество. Если нужно бесплатно, то Яндекс Метрика оповещает о том, когда сайт не доступен.

Топ-пост этого месяца:  ReactJS Material UI. Урок 3. Создание шапки приложения

Как я сказал, сервисов множество, вводим в поиск uptime checker и получаем множество результатов сервисов. А дальше выбираем на вкус и цвет.

8. Проблемы с AJAX/JavaScript

Не секрет, что Google индексирует AJAX и JavaScript. Вот ссылка для разработчиков с инструкцией: https://support.google.com/webmasters/answer/174992

Но на данный момент поисковая система индексирует эти языки не так легко и просто как HTML.

В случае, если вы не правильно настроили все для поиска в AJAX и JavaScript, то Google не проиндексирует ваш сайт и страницы.

Вот полезная информация из справки Гугла на этот счет: https://support.google.com/webmasters/answer/174993

9. У вас на сайте много дублированного контента

Если на сайте много дублированного контента, как:

То во первых можно получить санкции от Google Панды. Во вторых это может быть причиной того, что сайт не индексируется.


Статьи в тему:

На эту причину стоит обращать внимание. Так как сейчас это № 1 причина, за которые можно получить санкции и сложности в дальнейшей раскрутке сайта.

10. Очень медленная скорость загрузки сайта

Скорость загрузки сайта влияет на позиции и это один из факторов ранжирования. Поэтому если ваш сайт грузиться очень долго, то вполне вероятно, что он не будет нормально индексироваться.

После чего, нужно учесть все моменты со скоростью загрузки и сделать ее очень быстрой.

11. Ваш домен ранее был забанен

Такое часто случается. Когда:

  • регистрируешь хороший и звучный домен
  • по обратным ссылкам все нормально
  • делаешь хороший сайт с нормальным дизайном
  • наполняешь уникальным и толковым контентом
  • а он не хочет никак индексироваться

В таком случае дела не очень хороши. Но все равно это можно поправить. А именно:

  • написать запрос на пересмотр (если Яндекс, узнать в чем причина)
  • написать на форуме Google (постараться узнать в чем причина)
  • развивать проект

Но по опыту скажу. Если домен не лезет в течении 3-4 месяцев нормально. То лучше развивать проект на другом домене. Как минимум это будет быстрее и на порядок проще.

12. У вас нет sitemap на сайте

Это очень редко может быть причиной. Но все же может быть. Поэтому нужно сделать карту сайта и добавить ее как Google вебмастер, так и в Яндекс вебмастер.

В заключение

Индексация сайта важнейший момент для поискового продвижения сайта. Поэтому сначала нужно найти причину, понимать следствия. В итоге не допускать того, чтобы с индексацией сайта были проблемы.

Хорошие статьи по индексации сайта в помощь:

А что вы думаете про причины не индексации или плохой индексации сайта?

PS: если вы перепробовали все причины и сайт не индексируется, то однозначно стоит писать в поддержку поисковых систем и узнавать причину у них.

Особенности индексации страниц сайта в Google и Яндекс

Особенности индексации страниц сайта в Google и Яндекс

Когда создаешь сайт, всегда хочется, чтобы он выдавался поисковиками в ТОП-е выдачи. Но чтобы получить хоть какую-то позицию в поиске или, например, запустить контекстную рекламу, нужно, чтобы сайт прошел индексацию поисковых систем. И от ваших действий зависит, придется вам ждать несколько недель или несколько дней.

Индексация молодых сайтов

Индексация – ключевое событие в жизни любого сайта. Под этим термином подразумевается процесс сбора информации о веб-страницах и размещенном на них контенте. Этим занимаются специальные роботы поисковиков. Как только они проиндексируют веб-ресурс, он тут же заносится в базу данных поисковой системы. Это значит, что спустя некоторое время он вместе с другими сайтами будет показываться по запросам в Google и Яндекс.

Как ускорить индексацию сайта

Посещаемые порталы и блоги проверяются роботами поисковиков каждые несколько часов.

Однако новым сайтам придется ждать робота долго – от двух недель. К счастью, на скорость этого процесса можно повлиять.

  1. Первым делом нужно зарегистрироваться в сервисах Яндекс.Вебмастер и Google Search Console. На сайт следует добавить следующие файлы:
    1. Карту сайта. По сути, это перечень ссылок, отображающий основные разделы вашего сайта, его структуру. Создается он в формате html или xml. Для поисковых роботов лучше создавать карту во втором формате – файлы формата xml считываются всеми поисковыми системами. Также формат позволяет расставить приоритет ссылок для ускорения индексации.
    2. Robots.txt. Этот документ похож на sitemap, поскольку тоже состоит из ссылок. Ключевое отличие в том, что robots.txt ограничивает поискового робота – не все страницы сайта можно индексировать. Например, формы заявки, где пользователь оставляет личную информацию. Обратите внимание, что этот текстовый файл должен быть создан в кодировке UTF-8, иначе роботы могут неправильно его прочесть.
    3. Если ссылки на ваш сайт будут размещаться на страницах популярных и уже известных поисковикам платформ, индексация пройдет гораздо быстрее. Возможно, вам не придется ждать и суток.
    4. Также ссылки можно оставлять на форумах и страницах социальных сетей. Метод не настолько эффективен, как предыдущий, но все же увеличит шансы на ускоренную индексацию.

Как проверить индексацию

Существует три основных способа.

  1. Проверить индексацию в аккаунтах Яндекс.Вебмастер и Google Search Console. В первом сервисе ищем вкладку «Индексирование сайта», во втором – «Индекс Google».
  2. С помощью операторов. Это команды, которые вводятся в поисковую строку. Для Яндекса – host:ваш сайт, для Google – site:ваш сайт.
  3. С помощью сторонних сервисов. Например, xseo, rascruty.ru, seogadget.ru

Возможности поисковых роботов

Теперь подробнее рассмотрим, как поисковые роботы собирают информацию.

Наивно думать, что о предстоящей индексации можно позаботиться потом, главное, создать страницу. Про поисковых роботов нужно помнить с самого начала, когда вы разрабатываете структуру сайта, заполняете его контентом, ключевыми словами.

Дело в том, что современные поисковые роботы научились оценивать содержимое с точки зрения его пользы и удобства для людей. Оценивают все: скорость загрузки страницы, грамотность текстов, «вес» страницы, то есть внешние и внутренние ссылки и активность перехода по этим ссылкам. Сюда же относится оценка уникальности и информативности контента, поведенческие факторы вроде показателей отказов. Все критерии назвать невозможно. По некоторым данным, роботы Google оценивают сайт по двумстам параметрам.

Тем не менее, индексации не стоит бояться, ведь она создана для того, чтобы качественные страницы быстрее находили своего пользователя.

Особенности индексации в Яндекс

В отличие от универсального Google, которым пользуются во всем мире, Яндекс существует в рунете и ориентирован на Россию и страны СНГ. Примечательно, но в начале 2000-х велись переговоры с Google о покупке отечественной площадки. В итоге, компания отказалась от поглощения.

Итак, каковы же особенности индексации в Яндекс?

  • Сам процесс проходит примерно так: робот находит ваш ресурс, анализирует его контент и заносит сведения в базу данных. Через две недели сайт попадает в выдачу.
  • Главным критерием при поиске в Яндекс является привязка к региону пользователя. Если это прижилось в России, то в других странах это помешало Яндексу завоевать рынок: там принято ориентироваться на язык и местоположение человека. Соответственно, при индексации поисковик оценивает, нужна ли сайту региональная привязка. Если ваш ресурс ориентирован на конкретную область, край или округ, укажите это в профиле Вебмастера.
  • Яндекс индексирует медленнее, чем Google. Однако он жестко отсекает некачественные материалы, предлагая пользователю максимально полезные страницы.

Особенности индексации в Google

Очевидным преимуществом Google является его огромная база данных, самая крупная в мире среди поисковиков. Также в компании хорошо поработали над скоростью загрузки системы, в результате чего поисковик практически мгновенно выдает страницы по запросам. И так же быстро индексирует новые сайты. В связи с этим есть свои особенности:

  • Google настолько быстро индексирует страницы, что в поиск могут попасть еще недоработанные ресурсы. Дело в том, что страница попадает в выдачу сразу после оценки роботами.
  • Для Google важен показатель отказов. Поскольку раньше поисковые алгоритмы были проще, то и материалы в Интернете писались для роботов, человеку они не приносили заметной пользы, их было невозможно читать. Только показатель отказов давал понять, насколько привлекательным контент был для пользователя. Поэтому современную индексацию поисковика можно описать как отсеивание некачественных сайтов.
  • Также ключевыми факторами для успешной индексации становятся мета-теги title и description, удобная внутренняя перелинковка, простая структура сайта, качественное содержание.
  • С недавнего времени Google стал отдавать предпочтение мобильным устройствам, поэтому для него важно, как веб-страницы отображаются в мобильной версии.

Чтобы улучшать позиции вашего ресурса, в дальнейшем нужно регулярно пополнять его страницы новыми материалами. Роботы будут снова индексировать ваш обновленный сайт и продвигать его в топ, если новые тексты будут написаны грамотно и качественно.

Итак, помните, что при создании сайта надо изначально учитывать его будущую индексацию. Пишите грамотные тексты, создавайте простую и понятную структуру. Размещайте ссылки на сторонних популярных ресурсах, близких по тематике вашему сайту. Позаботьтесь о быстрой загрузке страниц, для этого можно оптимизировать изображения.

В конце концов, посмотрите на страницу глазами обычного пользователя. Все ли ему будет понятно? Будет ли ему полезна ваша информация? Захочет ли он воспользоваться вашими услугами? Если вы создадите сайт под потребности пользователя, роботы это оценят.

Как приручить поискового бота: гайд по индексированию сайта

Время чтения: 19 минут Нет времени читать? Нет времени?

Если интернет – огромная библиотека, то поисковые системы – ее сверхбыстрые сотрудники, способные быстро сориентировать читателя (интернет-пользователя) в бескрайнем океане информации. В этом им помогает систематизированная картотека – собственная база данных.

Когда пользователь вводит ключевую фразу, поисковая система показывает результаты из этой базы данных. То есть ПС хранят на своих серверах копии документов и обращаются к ним, когда пользователь отправляет запрос. Чтобы представить в выдаче определенную страницу, ее нужно сперва добавить в базу (индекс). Поэтому только что созданные сайты, о которых поисковики не знают, в выдаче не участвуют.

Поисковая система отправляет своего робота (он же паук, он же краулер) на поиски новых страниц, которые появляются в сети ежесекундно. Паучья стая собирает данные, передвигаясь по ссылкам с одной страницы на другую, и передает их в базу. Обработку информации производят уже другие механизмы.

У каждой поисковой системы – свой набор ботов, выполняющих разные функции. Вот пример некоторых роботов «Яндекса»:

  • Основной робот.
  • Индексатор картинок.
  • Зеркальщик (обнаруживает зеркала сайта).
  • Быстробот. Эта особь обитает на часто обновляемых сайтах. Как правило – новостных. Контент появляется в выдаче практически сразу после размещения. При ранжировании в таких случаях учитывается лишь часть факторов, поэтому позиции страницы могут измениться после прихода основного робота.

У «Гугла» тоже есть свой робот для сканирования новостей и картинок, а еще – индексатор видео, мобильных сайтов и т. д.

Скорость индексирования новых сайтов у разных ПС отличается. Каких-то конкретных сроков здесь нет, есть лишь примерные временные рамки: для «Яндекса» – от одной недели до месяца, для Google – от нескольких минут до недели. Чтобы не ждать индексации неделями, нужно серьезно поработать. Об этом и пойдет речь в статье.

Сперва давайте узнаем, как проверить, проиндексирован ли сайт.

Как проверить индексацию сайта

Проверить индексацию можно тремя основными способами:

  1. Сделать запрос в поисковик, используя специальные операторы.
  2. Воспользоваться инструментами вебмастеров (Google Search Console, «Яндекс.Вебмастер»).
  3. Воспользоваться специализированными сервисами или скачать расширение в браузер.

Поисковые операторы

Быстро и просто примерное количество проиндексированных страниц можно узнать с помощью оператора site. Он действует одинаково в «Яндекс» и «Гугл».

Сервисы для проверки индексации

Бесплатные сервисы позволяют быстро узнать количество проиндексированных «Яндексом» и Google страниц. Есть, к примеру, очень удобный инструмент от XSEO.in и SEOGadget (можно проверять до 30 сайтов одновременно).

У RDS целая линейка полезных инструментов для проверки показателей сайтов, в том числе проиндексированных страниц. Можно скачать удобный плагин для браузера (поддерживаются Chrome, Mozilla и Opera) или десктопное приложение.

Вообще плагин больше подходит профессиональным SEOшникам. Если вы обычный пользователь, будьте готовы, что эта утилита будет постоянно атаковать вас лишней информацией, вклиниваясь в код страниц, и в итоге придется либо ее настраивать, либо удалять.

Панели вебмастера

«Яндекс.Вебмастер» и Google Search Console предоставляют подробную информацию об индексировании. Так сказать, из первых уст.

В старой версии GSC можно также посмотреть статистику сканирования и ошибки, с которыми сталкиваются роботы при обращении к страницам.

Подробнее о данных об индексировании, представленных в панелях вебмастеров, можно почитать в соответствующих разделах наших руководств по «Яндекс.Вебмастеру» и Google Search Console.

Как контролировать индексацию

Поисковые системы воспринимают сайты совсем не так, как мы с вами. В отличие от рядового пользователя, поисковый робот видит всю подноготную сайта. Если его вовремя не остановить, он будет сканировать все страницы, без разбора, включая и те, которые не следует выставлять на всеобщее обозрение.

При этом нужно учитывать, что ресурсы робота ограничены: существует определенная квота – количество страниц, которое может обойти паук за определенное время. Если на вашем сайте огромное количество страниц, есть большая вероятность, что робот потратит большую часть ресурсов на «мусорные» страницы, а важные оставит на будущее.

Поэтому индексированием можно и нужно управлять. Для этого существуют определенные инструменты-помощники, которые мы далее и рассмотрим.

Robots.txt

Robots.txt – простой текстовый файл (как можно догадаться по расширению), в котором с помощью специальных слов и символов прописываются правила, которые понимают поисковые системы.

Директивы, используемые в robots.txt:

Описание

Обращение к роботу.

Адрес главного зеркала.

Адрес карты сайта.

Время задержки между скачиванием страниц сайта.

Страницы с какими параметрами нужно исключить из индекса.

User-agent показывает, к какому поисковику относятся указанные ниже правила. Если адресатом является любой поисковик, пишем звездочку:

User-agent: Slurp (поисковый робот Yahoo!)

Самая часто используемая директива – disallow. Как раз она используется для запрета индексирования страниц, файлов или каталогов.

К страницам, которые нужно запрещать, относятся:

  1. Служебные файлы и папки. Админ-панель, файлы CMS, личный кабинет пользователя, корзина и т. д.
  2. Малоинформативные вспомогательные страницы, не нуждающиеся в продвижении. Например, биографии авторов блога.
  3. Различного вида дубли основных страниц.

На дублях остановимся подробнее. Представьте, что у вас есть страница блога со статьей. Вы прорекламировали эту статью на другом ресурсе, добавив к существующему URL UTM-метку для отслеживания переходов. Адрес немного изменился, но он все еще ведет на ту же страницу – контент полностью совпадает. Это дубль, который нужно закрывать от индексации.

Не только системы статистики виноваты в дублировании страниц. Дубли могут появляться при поиске товаров, сортировке, из-за наличия одного и того же товара в нескольких категориях и т. д. Даже сами движки сайта часто создают большое количество разных дублей (особенно WordPress и Joomla).

Помимо полных дублей существуют и частичные. Самый лучший пример – главная страница блога с анонсами записей. Как правило, анонсы берутся из статей, поэтому на таких страницах отсутствует уникальный контент. В этом случае анонсы можно уникализировать или вовсе убрать (как в блоге Texterra).

У подобных страниц (списки статей, каталоги товаров и т. д.) также присутствует постраничная навигация (пагинация), которая разбивает список на несколько страниц. О том, что делать с такими страницами, Google подробно расписал в своей справке.

Дубли могут сильно навредить ранжированию. Например, из-за большого их количества поисковик может показывать по определенным запросам совершенно не те страницы, которые вы планировали продвигать и на которые был сделан упор в плане оптимизации (например, есть усиленная ссылками страница товара, а поисковик показывает совершенно другую). Поэтому важно правильно настроить индексацию сайта, чтобы этой проблемы не было. Как раз один из способов борьбы с дублями – файл robots.txt.

Пример robots.txt для одного известного блога:

При составлении robots.txt можно ориентироваться на другие сайты. Для этого просто добавьте в конце адреса главной страницы интересующего сайта после слеша «robots.txt».Не забывайте только, что функционал у сайтов разный, поэтому полностью скопировать директивы топовых конкурентов и жить спокойно не получится. Даже если вы решите скачать готовый robots.txt для своей CMS, в него все равно придется вносить изменения под свои нужды.

Давайте разберемся с символами, которые используются при составлении правил.

Путь к определенному файлу или папке мы указываем через слеш (/). Если указана папка (например, /wp-admin/), все файлы из этой папки будут закрыты для индексации. Чтобы указать конкретный файл, нужно полностью указать его имя и расширение (вместе с директорией).

Если, к примеру, нужно запретить индексацию файлов определенного типа или страницу, содержащую какой-либо параметр, можно использовать звездочки (*):

На месте звездочки может быть любое количество символов (а может и не быть вовсе). Значок $ используется, когда нужно отменить правило, созданное значком *. Например, у вас есть страница eda.html и каталог /eda. Директива «/*eda» запретит индексацию и каталога, и страницы. Чтобы оставить страницу открытой для роботов, используйте директиву «/eda$».

Топ-пост этого месяца:  Как создать мероприятие в Facebook и разослать приглашения

Запретить индексацию страниц с определенными параметрами также можно с помощью директивы clean-param. Подробнее об этом можно прочитать в справке «Яндекса».

Директива allow разрешает индексирование отдельных каталогов, страниц или файлов. Например, нужно закрыть от ПС все содержимое папки uploads за исключением одного pdf-файла. Вот как это можно сделать:

Следующая важная (для «Яндекса») директива – host. Она позволяет указать главное зеркало сайта.

У сайта может быть несколько версий (доменов) с абсолютно идентичным контентом. Даже если у вас домен единственный, не стоит игнорировать директиву host, это разные сайты, и нужно определить, какую версию следует показывать в выдаче. Об этом мы уже подробно писали в статье «Как узнать главное зеркало сайта и настроить его с помощью редиректа».

Еще одна важная директива – sitemap. Здесь (при наличии) указывается адрес, по которому можно найти карту вашего сайта. О том, как ее создать и для чего она нужна, поговорим позже.

Наконец, директива, которая применяется не так часто – crawl-delay. Она нужна в случае, когда нагрузка на сервер превышает лимит хостинга. Такое редко встречается у хороших хостеров, и без видимых причин устанавливать временные ограничения на скачивание страниц роботам не стоит. К тому же скорость обхода можно регулировать в «Яндекс.Вебмастере».

Нужно отметить, что поисковые системы по-разному относятся к robots.txt. Если для «Яндекса» это набор правил, которые нельзя нарушать, то «Гугл» воспринимает его, скорее, как рекомендацию и может проигнорировать некоторые директивы.

В robots.txt нельзя использовать кириллические символы. Поэтому если у вас кириллический домен, используйте онлайн-конвертеры.

После создания файла его нужно поместить в корневой каталог сайта, т. е.: site.ru/robots.txt.

Проверить robots.txt на наличие ошибок можно в разделе «Инструменты» панели «Яндекс.Вебмастер»:

В старой версии Google Search Console тоже есть такой инструмент.

Как закрыть сайт от индексации

Если вам по какой-то причине нужно, чтобы сайт исчез из выдачи всех поисковых систем, сделать это очень просто:

Крайне желательно делать это, пока сайт находится в разработке. Чтобы снова открыть сайт для поисковых роботов, достаточно убрать слеш (главное – не забыть это сделать при запуске сайта).

Nofollow и noindex

Для настройки индексации используются также специальные атрибуты и html-теги.

У «Яндекса» есть собственный тег , с помощью которого можно указать роботу, какую часть текста он не должен индексировать. Чаще всего это служебные части текста, которые не должны отображаться в сниппете, или фрагменты, которые не должны учитываться при оценке качества страницы (неуникальный контент).

Проблема в том, что этот тег практически никто кроме «Яндекса» не понимает, поэтому при проверке кода большинство валидаторов выдают ошибки. Это можно исправить, если слегка изменить внешний вид тегов:

Атрибут rel=”nofollow” позволяет закрыть от индексации отдельные ссылки на странице. В отличие от его понимают все поисковые системы. Чтобы запретить роботу переходить по всем ссылкам на странице сразу, проще использовать вот такой мета-тег: .

Кстати, на мега-теге robots стоит остановиться подробнее. Как и файл robots.txt, он позволяет управлять индексацией, но более гибко. Чтобы понять принцип работы, рассмотрим варианты инструкций:

индексировать контент и ссылки

не индексировать контент и ссылки

не индексировать контент, но переходить по ссылкам

индексировать контент, но не переходить по ссылкам

Это далеко не все примеры использования мета-тега robots, так как помимо nofollow и noindex существуют и другие директивы. Например, noimageindex, запрещающая сканировать изображения на странице. Подробнее почитать об этом мета-теге и его применении можно в справке от Google.

Rel=”canonical”

Еще один способ борьбы с дублями – использование атрибута rel=”canonical”. Для каждой страницы можно задать канонический (предпочитаемый) адрес, который и будет отображаться в поисковой выдаче. Прописывая атрибут в коде дубля, вы «прикрепляете» его к основной странице, и путаницы c ee версиями не возникнет. При наличии у дубля ссылочного веса он будет передаваться основной странице.

Вернемся к примеру с пагинацией в WordPress. С помощью плагина All in One SEO можно в один клик решить проблему с дублями этого типа. Посмотрим, как это работает.

Зайдем главную страницу блога и откроем, к примеру, вторую страницу пагинации.

Теперь посмотрим исходный код, а именно – тег
с атрибутом rel=»canonical» в разделе . Изначально он выглядит так:

Каноническая ссылка установлена неправильно – она просто повторяет физический адрес страницы. Это нужно исправить. Переходим в общие настройки плагина All in One SEO и отмечаем галочкой пункт «No Pagination for Canonical URLs» (Запретить пагинацию для канонических URL).

После обновления настроек снова смотрим код, теперь должно быть вот так:

И так – на любой странице, будь то вторая или двадцатая. Быстро и просто.

Но есть одна проблема. Для Google такой способ не подходит (он сам об этом писал), и использование атрибута canonical может негативно отразиться на индексировании страниц пагинации. Если для блога это, в принципе, не страшно, то со страницами товаров лучше не экспериментировать, а использовать атрибуты rel=”prev” и rel=”next”. Только вот «Яндекс» их, по словам Платона Щукина, игнорирует. В общем, все неоднозначно и ничего не понятно, но это нормально – это SEO.

Sitemap (карта сайта)

Если файл robots.txt указывает роботу, какие страницы ему трогать не надо, то карта сайта, напротив, содержит в себе все ссылки, которые нужно индексировать.

Главный плюс карты сайта в том, что помимо перечня страниц она содержит полезные для робота данные – дату и частоту обновлений каждой страницы и ее приоритет для сканирования.

Файл sitemap.xml можно сгенерировать автоматически с помощью специализированных онлайн-сервисов. Например, Gensitemap (рус) и XML-Sitemaps (англ). У них есть ограничения на количество страниц, поэтому если у вас большой сайт (больше 1000 страниц), за создание карты придется заплатить символическую сумму. Также получить готовый файл можно с помощью плагина. Самый простой и удобный плагин для WordPress – Google XML Sitemaps. У него довольно много разных настроек, но в них несложно разобраться.

В результате получается простенькая и удобная карта сайта в виде таблички. Причем она становится доступной сразу после активации плагина.

Sitemap крайне полезен для индексации, так как зачастую роботы уделяют большое внимание старым страницам и игнорируют новые. Когда есть карта сайта, робот видит, какие страницы изменились, и при обращении к сайту в первую очередь посещает их.

Если вы создали карту сайта при помощи сторонних сервисов, готовый файл необходимо скачать и поместить, как и robots.txt, в папку на хостинге, где расположен сайт. Опять же, в корневой папке: site.ru/sitemap.xml.

Для удобства желательно загрузить полученный файл в специальный раздел в «Яндекс.Вебмастере» и Google Search Console.

В старой версии инструмент немного отличается.

В «Яндекс.Вебмастере» проверить содержимое карты сайта на наличие ошибок можно в разделе «Инструменты».

Как ускорить индексацию

Поисковые системы рано или поздно узнают о вашем сайте, даже если вы ничего для этого не сделаете. Но вы наверняка хотите получать клиентов и посетителей как можно раньше, а не через месяцы, поэтому затягивать с индексацией – себе в убыток.

Регулярное быстрое индексирование необходимо не только новым, но и действующим сайтам – для своевременного обновления данных в поиске. Представьте, что вы решили оптимизировать старые непривлекательные заголовки и сниппеты, чтобы повысить CTR в выдаче. Если ждать, пока робот сам переиндексирует все страницы, можно потерять кучу потенциальных клиентов.

Вот еще несколько причин, чтобы как можно быстрее «скормить» роботам новые странички:

  • На сайте публикуется контент, быстро теряющий актуальность. Если сегодняшняя новость проиндексируется и попадет в выдачу через неделю, какой от нее толк?
  • О сайте узнали мошенники и следят за обновлениями быстрее любого робота: как только у вас публикуется новый материал, они копируют его себе и благополучно попадают на первые позиции благодаря более быстрому индексированию.
  • На страницах появляются важные изменения. К примеру, у вас изменились цены или ассортимент, а в поиске показываются старые данные. В результате пользователи разочаровываются, растет показатель отказов, а сайт рискует опуститься в поисковой выдаче.

Ускорение индексации – работа комплексная. Каких-то конкретных способов здесь нет, так как каждый сайт индивидуален (как и серверы, на которых они расположены). Но можно воспользоваться общими рекомендациями, которые, как правило, позитивно сказываются на скорости индексирования.

Перечислим кратко, что можно сделать, чтобы сайт индексировался быстрее:

  1. Указать роботам, что индексировать и что не индексировать. Про robots.txt, карту сайта и все их преимущества мы уже говорили. Если файлы будут составлены правильно, боты быстрее справятся со свалившимся на них объемом новой информации.
  2. Зарегистрироваться в «Яндекс.Вебмастере» и Google Search Console. Там вы сможете не только заявить о новом сайте, но и получить доступ к важным инструментам и аналитике.
  3. Обратить внимание на сам сайт. Чтобы роботу (как и пользователям) проще было ориентироваться на сайте, у него должна быть понятная и простая структура и удобная навигация. Сюда же можно отнести грамотную перелинковку, которая может помочь в передвижении по сайту и обнаружении важных страниц. Качество контента тоже может повлиять на скорость индексирования, поэтому лучше выкладывать уникальные тексты, несущие пользу.
  4. Публикуйтесь на внешних площадках. Многие рекомендуют регистрировать сайты в сервисах социальных закладок, каталогах, «прогонять» по «Твиттеру», покупать ссылки и т. д. Мне в свое время это не помогло – новый сайт индексировался месяц. Но вот ссылки с крупных посещаемых ресурсов (где даже может обитать быстробот) действительно могут помочь. О том, как и где публиковаться, у нас было много статей: «Гостевой постинг: как публиковаться, вставлять ссылки и не платить за это», «Внешний контент-маркетинг: зачем, о чем и куда писать», гайд по линкбилдингу.
  5. Обновляйте сайт чаще. Если на сайте месяцами не публикуются новые материалы, робот меняет тактику и заходит на сайт реже.

Еще в панелях «Яндекс.Вебмастера» и Google Search Console можно отправлять роботов на конкретные страницы.

Обратите внимание на то, что отдельные адреса можно добавить в важные, чтобы потом отслеживать их индексирование.

А вот еще одна полезная штука: здесь можно узнать, проиндексирован ли конкретный URL.

В Google запросить индексирование конкретных страниц можно во вкладке «Посмотреть как Googlebot» (старая версия).


Это, пожалуй, самые основные способы ускорения индексации. Есть и другие, но их эффективность – под вопросом. В большинстве случаев тратить на них время не стоит, если только проиндексировать сайт нужно срочно, и вы готовы испробовать любые способы. В таких случаях лучше читать конкретные кейсы. Например, как проиндексировать сайт в Google в течение 24 часов.

Вывод

Индексация сайта – сложный процесс, с которым поисковые системы далеко не всегда справляются в одиночку. Так как индексирование влияет непосредственно на ранжирование сайта в поисковой выдаче, имеет смысл взять управление в свои руки и максимально упростить работу поисковым роботам. Да, придется повозиться и набить много шишек, но даже такой непредсказуемый зверь как поисковый бот все же может покориться человеку.

Google опубликовал подробный FAQ по индексации AMP

Сотрудник Google Ли Донг-хви (DongHwi Lee) опубликовал на форуме Webmaster Central Help список распространённых вопросов по индексации AMP.

Ниже – основные пункты из FAQ.

  1. Сколько времени обычно занимает индексацияAMP-страниц?

Сканирование и индексирование AMP-страницы осуществляется так же, как и сканирование и индексирование обычной веб-страницы. Но если на AMP-странице есть ошибки (особенно, что касается необходимой разметки), то это может повлиять на успешность сканирования.

  1. Если я запущуX ускоренных страниц, сколько времени займёт индексация? Какие факторы влияют на отбор?

Google сканирует и индексирует AMP-страницы с той же скоростью, что и обычные. Убедитесь, что AMP-документы являются валидными, чтобы улучшить сканирование AMP-страниц.

  1. Разнится ли индексирование в зависимости от типа страницы – например, если это главная страница и страница товара?

Главные страницы и страницы товаров проходят через один и тот же поток индексации. Для определения оптимальной частоты сканирования Google использует разные факторы – например, как часто меняется основной контент страницы.

  1. Если страницы подлежат частому изменению или удалению, будут ли они по-прежнему хорошими кандидатами для индексирования?

Да, это вполне нормально, если на сайте присутствуют страницы, содержимое которых часто меняется. Проинформировать Google о новых и обновлённых страницах можно с помощью файлов Sitemap.

  1. Существует ли способ ускорить индексирование (например, через создание кампаний вGoogleAds)?

Рекламные кампании не влияют на индексацию и ранжирование страниц в органическом поиске Google.

Вебмастера могут помочь Googlebot, предоставляя файлы Sitemap или отправляя запросы на индексацию отдельных URL через Search Console.

  1. КакAMP влияет на ранжирование?

Внедрение технологии AMP не влияет на ранжирование. Google учитывает мобильную скорость загрузки в качестве фактора ранжирования, однако сайты могут быть быстрыми за счёт использования разных технологий, не только AMP. По факту Google применяет один и тот же стандарт ко всем страницам, независимо от технологии, на основе которой они были созданы.

  1. Нужно ли беспокоиться, если только небольшой процентAMP-страниц был проиндексирован и отображается в поиске?

Сам по себе «небольшой процент» не является проблемой.

  • Используйте Search Console, чтобы понять, какое число AMP-страниц было найдено на сайте. Проверьте соответствующий подраздел в разделе «Вид в поиске».
  • Google, возможно, обнаружил не все AMP-страницы на сайте. Это нормально и со временем количество обнаруженных страниц увеличится. Чтобы сообщить Google о новых и обновлённых страницах, рекомендуется использовать файлы Sitemap.
  • Googlebot пытается не создавать проблем для серверной инфраструктуры сайта. Он ограничивает сканирование в зависимости от того, как реагирует сайт. Он также пытается приритизировать сканирование и индексирование наиболее полезных страниц сайта.
  1. Почему в результатах поиска появляются два результата – иAMP, и не-AMP?

Google, возможно, не видит ссылки между AMP и канонической страницей. Это может происходить в том случае, если ссылка на amphtml с канонической страницы или ссылка на каноническую страницу с AMP является нерабочей. Когда эти два документа не могут быть сопряжены, они могут обрабатываться как отдельные документы.

  1. Нужно ли помечатьAMP-страницы каким-то особым образом в следующем сценарии: десктопный сайт (www), мобильный сайт (m.),AMP-страницы (наm.), когдаAMP указывает наm., аm. – наAMP?

В данном сценарии, когда есть и десктопный, и мобильный AMP-сайт:

  • AMP должны указывать на десктопную версию через
  • ;
  • Десктопные страницы должны указывать на AMP через
  • .

AMP также могут быть самостоятельными каноническими страницами, получающими весь трафик. Во многих случаях нет никакой необходимости в создании отдельного десктопного и мобильного (m.) сайтов.

Если же существуют все три версии (десктопная, мобильная и AMP), то:

  • Десктопный сайт: укажите на AMP с помощью
  • и на мобильную версию с помощью rel=alternate;
  • Мобильный сайт: укажите на десктопную версию с помощью
  • и на AMP с помощью rel=amphtml;
  • AMP: укажите на десктопную версию с помощью
  • .
  1. ПочемуAMP-страница не показывается в карусели «Главные новости»?

Этому может быть несколько причин:

  • Страница не проиндексирована;
  • Страница не попадает в конкретную карусель. Поисковые функции зависят от множества факторов и того, считает ли Google, что конкретные результаты обеспечат наилучший опыт для пользователя. Поэтому их вид может быть разным для разных людей.
  • Cтраница содержит ошибки.
  1. Расходуется ли краулинговый бюджет при сканированииAMP?

Да. Google должен сканировать все документы, включая AMP, в рамках бюджета сканирования сервера, чтобы избежать возникновения проблем на сайте. В целом большинству сайтов не нужно беспокоиться о бюджете сканирования, а AMP-контент является очень экономичным с точки зрения сканирования и индексирования.

Напомним, что ранее в этом месяце Google открыл доступ к превью-версии AMP URL с указанием домена издателя.

Как Google индексирует ваши сайты?

На первый взгляд кажется, что индексация сайта поисковым роботом Google — вещь рядовая, ничем не примечательная и не вызовет трудностей даже у новичков.

Однако на деле и у этого процесса имеется немало подводных камней и нюансов, о которых вы даже можете не знать, но которые необходимо учесть, чтобы получить достойный результат. Индексация — процесс весьма любопытный, и его качество зависит не от воли случая или прихоти поискового робота, но от вас самих, а именно — тех действий, которые вы совершите.

Также индексация — это необходимое условие для реализации маркетинговой программы в интернете. Конечно, это не самое важное звено, но, без сомнения, одно из первых. Без индексации своих лендингов или пройдя ее кое-как — вы обречены на провал.

Топ-пост этого месяца:  Категории функций — Комментарии, пинги… — WordPress

Какими путями можно добиться более качественной индексации сайта — в статье ниже.

Особенности индексации в системе Google

Для начала определим, что же такое индексация, в чем суть этого процесса.
Поскольку Google является крупнейшей в мире поисковой системой, сосредоточимся прежде всего на его индексе.

Что такое веб-индекс?

Вы же знаете, что такое индекс, верно? Это перечень сведений, своего рода инструкция к тому, как найти ту или иную информацию. Один из простейших примеров индекса — алфавитно-предметный указатель в конце любого учебника.

Веб-индекс имеет немного отличий. Это база данных, то есть список всех материалов, размещенных в интернете, с указанием расположения каждого документа. Это свойство индекса и позволяет вам быстро получать те или иные материалы в сети.

Объем размещенных в интернете материалов невообразимо велик. Поэтому информация о каждом материале размещена в большой базе данных.

Представьте, что интернет — это гигантская библиотека, в которой размещены миллионы и миллиарды всевозможных книг (сайтов). Поисковая система Google и является индексом для этой библиотеки. К счастью, чтобы пользоваться этим индексом, вам не нужно знать, что такое десятичная классификация Дьюи и как ею пользоваться; достаточно лишь умения печатать.

При наборе запроса в поисковую строку системы и нажатии на кнопку «Поиск» вы осуществляете поиск именно по индексу. Страница с результатами — это страница индекса.

Как Google индексирует интернет?

Для того, чтобы суметь проиндексировать такую большую библиотеку, какой является интернет, вам нужно обладать мощнейшими инструментами. Эти инструменты называются «пауками» (от англ. — spider) или поисковыми роботами.

Почему именно пауки? Потому что они ползают с сайта на сайт, создавая, по сути, веб-информацию. Этот процесс называется выборкой (от англ. fetching). Пауки отбирают информацию, которая затем хранится в индексе Google.

Веб-спайдер заползает на один сайт, индексирует все доступные там страницы, переползает на следующий, индексирует его, и продолжает двигаться в том направлении, куда его направит цепочка из размещенных в сети ссылок.

Так и формируется всемогущий индекс.

Какого рода информацию сохраняет паук?

Спайдер пытается обозреть большую часть той информации, которая размещена на сайте, но он не в состоянии увидеть абсолютно все. В первую очередь он индексирует наиболее важную информацию.

Красная градиентная шкала — важность для поисковой машины; синяя градиентная шкала — важность для пользователя.
Сверху вниз: адреса страниц, тег Title, метаданные, теги изображений, заголовки, ссылки, контент.

Какую информацию можно считать самой важной?

1. Адреса страниц — URL (uniform resource locator — единый указатель ресурса).
2. Тег Title. Title — это название лендинга.
3. Метаданные. Описание сайта с набором ключевых слов.

Это тот самый набор главной информации, которую поисковый робот пересылает в индекс Google. И это именно та информация, которую вы видите на странице результатов поиска.

В этом заключается базовая идея. Очевидно, что больше трудностей возникает с поиском информации по индексу, ее грамотной организации и выдаче результатов.

Нас как веб-мастеров должны волновать другие проблемы, а именно — какие шаги нужно предпринять, чтобы поисковый робот Google как можно скорее заглянул к вам на сайт и занес информацию о нем в общую базу.

Что сделать, чтобы Google проиндексировал ваш сайт как можно быстрее?

Следует сказать, что независимо от того, сделаете ли вы что-либо из перечисленного ниже, Google, вероятно, и так проиндексирует ваш сайт, если только вы намеренно не закроете его от индексации (через файл robots.txt).

Но если вы оставите этот процесс на самотек, то попасть в индекс вы сможете через неопределенно долгое время. У кого-то сайт проиндексируется через 2 недели, а у кого — через 2 месяца. В ваших интересах, чтобы индексация лендинга произошла как можно раньше, а для этого и нужно предпринять некоторые специальные действия. Что именно нужно делать — читайте ниже.

Шаг №1: создайте карту сайта (sitemap)

Карта — это документ в XML-формате, который должен лежать в корневой папке вашего сайта. Поисковый робот обращается к этому документу, чтобы обозреть ваш сайт целиком, понять, какие страницы/разделы на нем самые главные и где расположен самый свежий контент. Карта сайта — это незаменимый и один из важнейших элементов успешной индексации.

Поисковый робот умен, но сайтмап ему необходим. Зачем? Без карты сайта индексация лендинга или нового материала может занять до 24 часов. Это слишком долго. С помощью карты сайта вы можете свести продолжительность этого процесса до нескольких минут. Согласитесь: существенная разница.

Чтобы доказать состоятельность этого положения, был проведен эксперимент, в ходе которого была замерена скорость, с которой индексируется сайт без sitemap и сайт с картой. Результаты более чем удивительные:

Индексация сайтов без sitemap. По вертикали: затраченное время в минутах, по горизонтали: число проиндексированных страниц.

Индексация сайтов при помощи sitemap. По вертикали: затраченное время в минутах, по горизонтали: число проиндексированных страниц.

После того, как вы создали файл sitemap, вы можете загрузить его в Google Search Console. Чтобы это сделать, выполните следующее:

  • на главной странице Google Search Console выберите свой сайт;
  • на панели в левой части экрана нажмите «Конфигурация сайта», а затем «Файлы Sitemap»;
  • в правом верхнем углу кликните по кнопке «Добавить/Протестировать карту сайта»;
  • введите /system/feeds/sitemap в появившемся текстовом окне;
  • нажмите «Отправить файл Sitemap».

Шаг №2: создайте файл Robots.txt

Robots.txt — это обычный файл вашего сайта, в котором содержатся инструкции для поискового робота: там указано, что индексировать, а что — нет. Это самая первая остановка, которую делает паук на вашем веб-ресурсе. Если ваш robots.txt как бы говорит «не индексируй меня», поисковый робот не станет ничего индексировать и поползет дальше. Поэтому очень важно, чтобы ваш robots.txt давал роботу Google неограниченное разрешение на обзор сайта.

Разумеется, если вы хотите, чтобы какие-то страницы сайта не появлялись в результатах поиска, вы можете ограничить к ним доступ.

Вот что говорит о robots.txt поисковая система Google:

«Большинство сайтов не имеет необходимости скрывать от поискового робота те или иные страницы, поэтому они будут появляться в поисковой выдаче без каких-либо дополнительных усилий. Robots.txt, наряду с другими инструментами веб-мастера, предоставляет владельцам веб-ресурсов неограниченные возможности в управлении индексацией сайта, поведением поискового робота на сайте. С помощью этого файла собственники интернет-ресурсов могут закрыть сайт от индексации роботом Google (иди других поисковых систем), дать какие-то специальные указания для индексации определенных страниц».

Вывод один: чем больше страниц вашего сайта открыты к индексации, тем лучше.

Шаг №3: Регистрация сайта в поисковых системах

Ранее считалось, для того, чтобы поисковая система проиндексировала сайт, веб-мастеру непременно нужно подать заявку, зарегистрировать ресурс в системе. Однако в настоящее время появляются такие умельцы поисковой оптимизации, которые и без регистрации могут выдвинуть сайты на первые страницы поисковой выдачи. Если вы таким умением пока еще похвалиться не можете, советуем вам все же зарегистрировать свой сайт во всех популярных поисковых системах. В Google вы можете сделать это через Google Search Console.

Шаг №4: сделайте внутреннюю перелинковку

Самый эффективный способ ускорить индексацию сайта — сделать внутреннюю перелинковку страниц сайта.

Маршрут, по которому поисковый робот перемещается в глобальной паутине, формируется посредством ссылок. Когда одна страница связана с другой, паук автоматически переходит и на нее. Ваша задача — убедиться, что все основные страницы сайта связаны друг с другом ссылками.

Если ваш сайт хорошо организован, внутренняя перелинковка произойдет естественным путем. Взгляните на этот пример стандартной архитектуры сайта ресторана: все основные страницы связаны друг с другом.

Чем больше страниц вы свяжете друг с другом, тем лучше. Как только вы публикуете на своем сайте новый материал, тут же добавляйте в него ссылки на другие страницы.

Шаг №5: повышайте свой индекс цитирования

Одно дело, когда вы создаете и размещаете ссылки на свой сайт внутри самого сайта, но другое — когда на вас ссылаются извне. Разумеется, чтобы попасть на страницы других сайтов, нужно выделиться чем-то необычным и полезным. Чем чаще о вас будут говорить другие, тем быстрее проиндексируется ваш сайт и тем выше он будет стоять в поисковой выдаче.

Шаг №6: поощряйте социальный обмен

Социальный обмен — это весомая часть эффективной индексации, поэтому щедро размещайте ссылки на свои материалы в социальных сетях. Так как Google и Twitter заключили партнерское соглашение, чтобы беспрепятственно делиться данными, Google может получить доступ к информации такого рода очень быстро, а вы улучшите индексацию своего сайта.

Шаг №7: заведите блог

Блог заставит вас создавать тонны интересного и полезного контента, а это крайне необходимо для высоких позиций в поисковой выдаче. Запомните: чем больше контента вы разместите в сети, тем качественнее будет индексация.

Шаг №8: создайте RSS-канал

RSS-канал не обязателен, но и он не будет лишним. RSS (от англ. Rich Site Summary — обогащенная сводка сайта) — семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т.п. Пожалуй, это один из самых простых способов оповещения об обновлениях сайта, блога и т.д., но на сегодняшний момент отчасти устаревший. Но даже так RSS-канал может быть эффективным способом донести до Google информацию о своем новом материале, как только он появился на вашем сайте.

Шаг №9: отслеживайте ошибки индексации

Ошибки и некоторые неточности в индексации сайта неминуемы. Обычно это происходит, когда вы вносите значительные изменения на сайт: добавляете, удаляете или перемещаете страницы.

Отследить все ошибки можно в уже знакомой вам Google Search Console.

Заключение

Помните, что индексация сайта поисковой системой Google — это лишь первый шаг в развитии ресурса. Помимо этого вам потребуется придерживаться базовых правил поисковой оптимизации и создавать качественный и полезный для ваших читателей контент.

Высоких вам конверсий!

Прочитать статью целиком
Ваш e-mail адрес на 100% защищен от спама

Если вы уже являетесь подписчиком блога LPgenerator,
просто введите ваш email

Как узнать количество проиндексированных страниц в Гугле

От автора

Важно следить за количеством проиндексированных страниц сайта. Резкий рост и резкое снижение страниц в индексе, означает, что на сайте существуют проблемы или ошибки которые решать и исправлять.

Способы узнать количество проиндексированных страниц в Гугле

Способ 1. Search Console

Чтобы следить за всеми показателями сайта в поиске Google, нужно зарегистрировать сайт Search Console, – сервисе для комплексного анализа показателей сайта в поиске Гугле.

После регистрации, подтверждении прав на сайт и выполнении необходимых настроек, сервис должен набрать статистику по сайту, в том числе показать, сколько страниц есть в индексе Гугле.

Посмотреть количество и их список можно на вкладке Индекс Google>>>Статус Индексирования.

На диаграмме страницы сервис покажет динамику индексации страниц за год в двух вариантах: Только основные и Расширенные данные.

Основные данные показывают количество страниц в индексе и график индексации по месяцам за год.

Расширенные данные покажут, сколько страниц закрыты от сканирования в файле robots.txt, и сколько страниц вы сами удалили из индекса за текущий год.

Важно! Резкое снижение и резкое увеличение страниц в индексе Гугле, не связанное с вашими действиями на сайте, может говорить о проблемах.

Например, резкое увеличение может говорить о взломе сайта, автоматическим созданием контента, большим количеством дублей. Резкое снижение, говорит, о невозможности Гугле сканировать часть вашего контента или санкциях наложенных новым алгоритмом.

Как говорит сам Google в своих рекомендациях:

Стремитесь к стабильным показателем роста страниц в индексе. Стабильный рост просканированных и проиндексированных страниц сайта говорит, что Гугле регулярно получает доступ к содержанию и индексирует ваш ресурс.

Информация Search Console доступна только после подтверждения прав на сайт, а значит, не всегда доступна и не может использоваться для анализа сайтов конкурентов.

Как в этом случае узнать количество проиндексированных страниц в Гугле?

Способ 2. Язык запросов

Общее количество (приблизительное) проиндексированных страниц сайта можно получить сразу в выдаче Google, сделав такие запросы:

  • site:www.example.ru
  • site:example.ru
  • site:https://www.example.ru
  • site:https://example.ru
  • site:http://www.example.ru
  • site:http://example.ru

, в которых example.ru нужно поменять на свой домен. Без пробелов.

Нажав на кнопку «настройки» внизу поиска можно посмотреть, какие страницы поисковик проиндексировал за час, 24 часа, неделю, месяц.

Второй способ не очень корректный и дает выдачу со всеми страницами, где есть ваш сайт. Включая соцсети, сервисы проверок и т.д. Более точную информацию по количеству проиндексированных страниц в Гугле может дать одно из специальных расширений браузера.

Способ 3. Расширения для браузера

Приведу один пример такого расширения. Оно дает подробную информацию о состоянии сайта с точки зрения оптимизации и индекса. Это расширений под названием «RDS bar».

  • Вот его ссылка для Google: //chrome.google.com/webstore/detail/rds-bar-seo-pagerank-dmoz/jlipcaflaocihnmlhnhcfombgmmfglho
  • Вот его ссылка для Mozilla: https://addons.mozilla.org/ru/firefox/addon/rds-bar/
  • Вот его ссылка для Opera: https://addons.opera.com/ru/extensions/details/rds-bar/

Это расширение для браузеров, в один клик покажет сколько на любом сайте проиндексировано страниц.

Примечание: расширение RDS я показал для примера. Есть аналогичные, такие же мощные расширения и расширения менее функциональные, которые помогут быстро посмотреть индекс сайта и не только в Гугле. Например, SEO Quake ( https://www.seoquake.com/index.html ).

Это полезно

Если вам нужно моментально узнать есть ли домен или отдельная страница в индексе, используйте Букмарклеты —Java Script программы, оформленные в виде «javascript:URL», сохраняемая как закладка браузера.

Имея такой букмарклер, вы моментально посмотрите есть открытая страница сайта в Индексе.

Вот «буки» от Netpeak: http://img.netpeak.net/melik/index-check.html?_ga=2.163131836.1475269850.1519456507-549606374.1519456507

Их нужно положить в панель закладок вашего браузера и нажать на открытой странице сайта.

Вывод

Каждый веб мастер выбирает инструменты под себя и для выполнения своих задач. Однако надеюсь, что эта статья была полезна, и вы без труда узнать количество проиндексированных страниц в Гугле вашего сайта и сайта ваших конкурентов.

Как устроена индексация сайтов в Google

Привет, друзья! В сегодняшнем посте я затрону тему индексации сайта в поисковой системе Google. Какие проблемы возникают с ней? Существует ли сейчас основной и дополнительный индекс? Все мои наблюдения на этот счет ниже.

Не знаю как у вас, а у меня Google индексирует меньше страниц, чем Яндекс. По крайней мере он показывает это по таким запросам:

Кстати в этой записи все буду разбирать на примере блога. Он находится в dmoz-каталоге, на нем авторские уникальные статьи, теги, архивы и другие, дублирующие контент страницы (кроме категорий и нумерации страниц по средствам плагины PageNavi) запрещены в robots.txt. Что на такой запрос говорит Яндекс?

Тут уже 281 страница. Причем вообще в sitemap записано примерно 200 страниц + примерно 80 — это как раз те, которые создаются постраничной навигацией. Эти цифры ближе к реальности .

Вернемся опять к гуглу. Получилось, что сейчас он знает только о 172 страницах моего блога. Что же на самом деле? У меня получилась следующая картина:

Google объяснит владельцам сайта, почему не индексируются страницы

Новый инструмент проверки URL от Google Search Console поможет владельцам сайтов узнать проиндексирована страница и если нет, то почему. Это поможет пользователям исправить недочеты на своих ресурсах и не тратить время на самостоятельный поиск ошибок.

Кроме того сервис поможет:

  • выяснить, когда была произведена последняя индексация;
  • укажет канонический URL;
  • проверит наличие AMP-версии страницы и разметки для расширенного сниппета;
  • выявит ошибки, связанные с индексированием.

Чтобы воспользоваться функцией, нужно ввести полный URL в поисковой строке Google Search Console, после чего вы получите один из результатов:

  • URL есть в индексе Google — это значит, что страница отображается в результатах поиска и никаких ошибок не обнаружено;
  • URL есть в индексе Google, но на странице наблюдаются проблемы — страница индексируется, но существует риск некорректного отображения данных или другие проблемы, касающиеся пользовательских свойств, в любом случае это требует решения;
  • URL нет в индексе Google: ошибки индексирования — существует критическая ошибка, которая не позволяет индексировать страницу, ее нужно исправить;
  • URL нет в индексе Google — страница не индексируется и на то есть причины, возможно вызванные вашими действиями. Сервис скажет, в чем проблема, и вы сможете устранить ее;
  • Этот URL – альтернативная версия — это значит, что по данному адресу числится альтернативная версия страницы и правок не требуется.

Предполагается, что инструмент станет доступен пользователям в ближайшие пару недель, сейчас завершается закрытое тестирование.

Добавить комментарий