Google об особенностях индексации различных форматов документов


Содержание материала:

Индексирование страниц для включения в результаты поиска

Чтобы материалы с вашего сайта появлялись в результатах вашей системы пользовательского поиска, они должны быть включены в индекс Google. Индекс Google аналогичен картотеке, в которой хранится информация о всех доступных в библиотеке книгах. А в нашем индексе содержатся сведения о всех веб-страницах, о которых знает Google. Когда наш робот посещает ваш сайт, он обнаруживает новые и обновленные страницы. Сведения о них заносятся в индекс Google.

Чтобы проверить, какие страницы вашего сайта включены в индекс, выполните поиск в Google по запросу «site:moisait.ru».

Чтобы в индекс Google было включено больше страниц, подайте запросы на индексирование с помощью Search Console. Они повлияют на результаты индексирования как для СПП, так и для Google Поиска. Чтобы СПП распознала запрос, сайт или шаблон URL должен быть в списке «Сайты, на которых выполняется поиск». Он находится на вкладке Основные сведения в разделе настроек. Сканирование и индексирование занимает определенное время.

Google напомнил о правилах индексации документов после инцидента с «Яндексом»

Накануне вечером в выдаче российского поисковика появились гугл-документы, похожие на персональные данные

Москва. 5 июля. INTERFAX.RU — Корпоративный блог Google опубликовал запись, в которой уточнил правила индексации документов пользователей Google Docs.

Запись появилась после того, как вечером в среду поисковик «Яндекса» начал тщательно индексировать в поиске документы пользователей Google Docs, выдавая по соответствующим запросам файлы, содержащие, например, пароли, фамилии и телефоны, номера кредитных карт, корпоративные документы.

В блоге Google между тем «Яндекс» не упоминается.

В сентябре 2009 года Google сообщила, что публичные документы из Google Docs при наличии публичной ссылки будут появляться в выдаче поисковиков. Таким образом, ссылка на документ, которой пользователь ни с кем не делился, не должна появляться в выдаче. Это должно быть так даже в том случае, если доступ к документу не ограничен.

В своей новой записи американская компания напомнила, что «поисковые системы могут индексировать только те документы, которые намеренно были сделаны их владельцами публичными, или когда кто-либо публикует ссылку на документ, владелец которого сделал его доступным для поиска и просмотра всем в интернете».

У пользователя, как отмечается, имеется возможность выставить настройки приватности, то есть определить, что именно доступно для просмотра, комментирования или редактирования выбранным пользователям.

Российский поисковик вечером 4 июля начал выдавать искомые документы, если ему указывали область поиска docs.google.com, а в строке поиска писали, например, «пароли». В выдаче показывались документы с информацией, похожей на персональные данные, в текстовом формате или формате электронной таблицы

Около часа ночи возможность яндекс-поиска по Google Docs прекратилась.

С 1 июля Google начнёт индексировать новые сайты по мобильной версии – наступает эра mobile-first индекса

В конце мая Google объявил, что все новые веб-сайты, «ранее неизвестные поисковой системе», будут индексироваться с использованием mobile-first индекса, начиная с 1 июля 2020 года. Старые сайты в обязательно-принудительном порядке 1 июля переводить на новую систему не будут, но как только они станут готовы к переносу – перенесут.

Официальное заявление от Google. В блоге для вебмастеров Гугл написал:

Мы рады объявить, что mobile-first индексация будет включена по умолчанию для всех новых, ранее неизвестных поиску Google, веб-сайтов, начиная с 1 июля 2020 года. Приятно видеть, что на новых веб-сайтах теперь, как правило, пользователям и поисковым системам показывают один и тот же контент, как на как мобильных, так и на настольных устройствах.

Только для новых сайтов. Ещё раз, чтобы все уяснили. Новость касается только новых сайтов, о которых Гугл пока не знает. Кроме того, сайты, которые уже перешли на mobile-first индексацию, естественно, будут индексироваться с её использованием. Но если у вас старый сайт, который пока что не переехал на mobile-first, то индексироваться он будет по-старому, как desktop-first, пока не будет готов для переезда.

Цитата из блога Гугла:

Для старых веб-сайтов мы будем продолжать отслеживать и оценивать страницы на предмет их готовности к mobile first indexing, и уведомлять их владельцев через Search Console, как только они будут готовы.

Без уведомлений. В отличие от старых веб-сайтов, которые получают уведомления при их переносе, Google не будет отправлять уведомления владельцам новых сайтов, поскольку mobile-first – теперь состояние «по умолчанию».

Цитата из блога Гугла:

Поскольку по умолчанию для новых веб-сайтов будет использоваться mobile-first индексация, в уведомлениях нет необходимости.

Что такое mobile-first indexing? Приоритетная индексация мобильной версии сайта. Это то, как Google сканирует и индексирует Интернет. Вместо того, чтобы смотреть на десктопную версию веб-страницы, Google смотрит на её мобильную версию. Сейчас уже больше 50% всего, что индексирует Google, приходится на mobile-first.

Где можно получить дополнительную информацию по теме? В Сети уже куча статей про mobile first indexing. Google выпустил специальный документ для разработчиков, чтобы помочь вебмастерам подготовиться к индексированию с приоритетом мобильного контента. Думаю, его вполне достаточно.

Ещё совет. Как правило, Google уведомляет вас, когда ваш сайт переходит на индексацию с приоритетом мобильного контента, в Search Console. Поэтому не забывайте туда заходить и проверять свои сайты. В качестве дополнительного сигнала о том, что ваш сайт перешёл к mobile-first, можете ориентироваться на последнее сканирование, которое провёл Googlebot в инструменте проверки URL (скрины привёл выше).

Так же необходимо уделить дополнительное внимание структурированным данным и alt-тексту изображений, в связи со всеми этими нововведениями. По крайней мере, так советует сделать Гугл.

Почему об этом стоит заботиться? Если вы запускаете новый веб-сайт, и не уделили достаточно внимания его мобильной версии, то у вас могут возникнуть проблемы с индексацией и ранжированием в Google. Обязательно тестируйте проекты перед запуском в Сеть и разрабатывайте их с учётом mobile-first. На этот тренд уже нельзя закрывать глаза.

ПОНРАВИЛАСЬ СТАТЬЯ? ПОДЕЛИСЬ С ДРУЗЬЯМИ!

Как Google индексирует ваши сайты?

На первый взгляд кажется, что индексация сайта поисковым роботом Google — вещь рядовая, ничем не примечательная и не вызовет трудностей даже у новичков.

Однако на деле и у этого процесса имеется немало подводных камней и нюансов, о которых вы даже можете не знать, но которые необходимо учесть, чтобы получить достойный результат. Индексация — процесс весьма любопытный, и его качество зависит не от воли случая или прихоти поискового робота, но от вас самих, а именно — тех действий, которые вы совершите.

Также индексация — это необходимое условие для реализации маркетинговой программы в интернете. Конечно, это не самое важное звено, но, без сомнения, одно из первых. Без индексации своих лендингов или пройдя ее кое-как — вы обречены на провал.

Какими путями можно добиться более качественной индексации сайта — в статье ниже.

Особенности индексации в системе Google

Для начала определим, что же такое индексация, в чем суть этого процесса.
Поскольку Google является крупнейшей в мире поисковой системой, сосредоточимся прежде всего на его индексе.

Что такое веб-индекс?

Вы же знаете, что такое индекс, верно? Это перечень сведений, своего рода инструкция к тому, как найти ту или иную информацию. Один из простейших примеров индекса — алфавитно-предметный указатель в конце любого учебника.

Веб-индекс имеет немного отличий. Это база данных, то есть список всех материалов, размещенных в интернете, с указанием расположения каждого документа. Это свойство индекса и позволяет вам быстро получать те или иные материалы в сети.

Объем размещенных в интернете материалов невообразимо велик. Поэтому информация о каждом материале размещена в большой базе данных.

Представьте, что интернет — это гигантская библиотека, в которой размещены миллионы и миллиарды всевозможных книг (сайтов). Поисковая система Google и является индексом для этой библиотеки. К счастью, чтобы пользоваться этим индексом, вам не нужно знать, что такое десятичная классификация Дьюи и как ею пользоваться; достаточно лишь умения печатать.

При наборе запроса в поисковую строку системы и нажатии на кнопку «Поиск» вы осуществляете поиск именно по индексу. Страница с результатами — это страница индекса.

Как Google индексирует интернет?

Для того, чтобы суметь проиндексировать такую большую библиотеку, какой является интернет, вам нужно обладать мощнейшими инструментами. Эти инструменты называются «пауками» (от англ. — spider) или поисковыми роботами.

Почему именно пауки? Потому что они ползают с сайта на сайт, создавая, по сути, веб-информацию. Этот процесс называется выборкой (от англ. fetching). Пауки отбирают информацию, которая затем хранится в индексе Google.

Веб-спайдер заползает на один сайт, индексирует все доступные там страницы, переползает на следующий, индексирует его, и продолжает двигаться в том направлении, куда его направит цепочка из размещенных в сети ссылок.

Так и формируется всемогущий индекс.

Какого рода информацию сохраняет паук?

Спайдер пытается обозреть большую часть той информации, которая размещена на сайте, но он не в состоянии увидеть абсолютно все. В первую очередь он индексирует наиболее важную информацию.

Красная градиентная шкала — важность для поисковой машины; синяя градиентная шкала — важность для пользователя.
Сверху вниз: адреса страниц, тег Title, метаданные, теги изображений, заголовки, ссылки, контент.

Какую информацию можно считать самой важной?

1. Адреса страниц — URL (uniform resource locator — единый указатель ресурса).
2. Тег Title. Title — это название лендинга.
3. Метаданные. Описание сайта с набором ключевых слов.

Это тот самый набор главной информации, которую поисковый робот пересылает в индекс Google. И это именно та информация, которую вы видите на странице результатов поиска.

В этом заключается базовая идея. Очевидно, что больше трудностей возникает с поиском информации по индексу, ее грамотной организации и выдаче результатов.

Нас как веб-мастеров должны волновать другие проблемы, а именно — какие шаги нужно предпринять, чтобы поисковый робот Google как можно скорее заглянул к вам на сайт и занес информацию о нем в общую базу.

Что сделать, чтобы Google проиндексировал ваш сайт как можно быстрее?

Следует сказать, что независимо от того, сделаете ли вы что-либо из перечисленного ниже, Google, вероятно, и так проиндексирует ваш сайт, если только вы намеренно не закроете его от индексации (через файл robots.txt).

Но если вы оставите этот процесс на самотек, то попасть в индекс вы сможете через неопределенно долгое время. У кого-то сайт проиндексируется через 2 недели, а у кого — через 2 месяца. В ваших интересах, чтобы индексация лендинга произошла как можно раньше, а для этого и нужно предпринять некоторые специальные действия. Что именно нужно делать — читайте ниже.

Шаг №1: создайте карту сайта (sitemap)

Карта — это документ в XML-формате, который должен лежать в корневой папке вашего сайта. Поисковый робот обращается к этому документу, чтобы обозреть ваш сайт целиком, понять, какие страницы/разделы на нем самые главные и где расположен самый свежий контент. Карта сайта — это незаменимый и один из важнейших элементов успешной индексации.

Поисковый робот умен, но сайтмап ему необходим. Зачем? Без карты сайта индексация лендинга или нового материала может занять до 24 часов. Это слишком долго. С помощью карты сайта вы можете свести продолжительность этого процесса до нескольких минут. Согласитесь: существенная разница.

Чтобы доказать состоятельность этого положения, был проведен эксперимент, в ходе которого была замерена скорость, с которой индексируется сайт без sitemap и сайт с картой. Результаты более чем удивительные:

Индексация сайтов без sitemap. По вертикали: затраченное время в минутах, по горизонтали: число проиндексированных страниц.

Индексация сайтов при помощи sitemap. По вертикали: затраченное время в минутах, по горизонтали: число проиндексированных страниц.

После того, как вы создали файл sitemap, вы можете загрузить его в Google Search Console. Чтобы это сделать, выполните следующее:

  • на главной странице Google Search Console выберите свой сайт;
  • на панели в левой части экрана нажмите «Конфигурация сайта», а затем «Файлы Sitemap»;
  • в правом верхнем углу кликните по кнопке «Добавить/Протестировать карту сайта»;
  • введите /system/feeds/sitemap в появившемся текстовом окне;
  • нажмите «Отправить файл Sitemap».

Шаг №2: создайте файл Robots.txt

Robots.txt — это обычный файл вашего сайта, в котором содержатся инструкции для поискового робота: там указано, что индексировать, а что — нет. Это самая первая остановка, которую делает паук на вашем веб-ресурсе. Если ваш robots.txt как бы говорит «не индексируй меня», поисковый робот не станет ничего индексировать и поползет дальше. Поэтому очень важно, чтобы ваш robots.txt давал роботу Google неограниченное разрешение на обзор сайта.

Разумеется, если вы хотите, чтобы какие-то страницы сайта не появлялись в результатах поиска, вы можете ограничить к ним доступ.

Вот что говорит о robots.txt поисковая система Google:

«Большинство сайтов не имеет необходимости скрывать от поискового робота те или иные страницы, поэтому они будут появляться в поисковой выдаче без каких-либо дополнительных усилий. Robots.txt, наряду с другими инструментами веб-мастера, предоставляет владельцам веб-ресурсов неограниченные возможности в управлении индексацией сайта, поведением поискового робота на сайте. С помощью этого файла собственники интернет-ресурсов могут закрыть сайт от индексации роботом Google (иди других поисковых систем), дать какие-то специальные указания для индексации определенных страниц».

Топ-пост этого месяца:  Графический редактор Adobe Photoshop (Фотошоп). Как вырезать изображения в Photoshop

Вывод один: чем больше страниц вашего сайта открыты к индексации, тем лучше.

Шаг №3: Регистрация сайта в поисковых системах

Ранее считалось, для того, чтобы поисковая система проиндексировала сайт, веб-мастеру непременно нужно подать заявку, зарегистрировать ресурс в системе. Однако в настоящее время появляются такие умельцы поисковой оптимизации, которые и без регистрации могут выдвинуть сайты на первые страницы поисковой выдачи. Если вы таким умением пока еще похвалиться не можете, советуем вам все же зарегистрировать свой сайт во всех популярных поисковых системах. В Google вы можете сделать это через Google Search Console.

Шаг №4: сделайте внутреннюю перелинковку

Самый эффективный способ ускорить индексацию сайта — сделать внутреннюю перелинковку страниц сайта.

Маршрут, по которому поисковый робот перемещается в глобальной паутине, формируется посредством ссылок. Когда одна страница связана с другой, паук автоматически переходит и на нее. Ваша задача — убедиться, что все основные страницы сайта связаны друг с другом ссылками.

Если ваш сайт хорошо организован, внутренняя перелинковка произойдет естественным путем. Взгляните на этот пример стандартной архитектуры сайта ресторана: все основные страницы связаны друг с другом.

Чем больше страниц вы свяжете друг с другом, тем лучше. Как только вы публикуете на своем сайте новый материал, тут же добавляйте в него ссылки на другие страницы.


Шаг №5: повышайте свой индекс цитирования

Одно дело, когда вы создаете и размещаете ссылки на свой сайт внутри самого сайта, но другое — когда на вас ссылаются извне. Разумеется, чтобы попасть на страницы других сайтов, нужно выделиться чем-то необычным и полезным. Чем чаще о вас будут говорить другие, тем быстрее проиндексируется ваш сайт и тем выше он будет стоять в поисковой выдаче.

Шаг №6: поощряйте социальный обмен

Социальный обмен — это весомая часть эффективной индексации, поэтому щедро размещайте ссылки на свои материалы в социальных сетях. Так как Google и Twitter заключили партнерское соглашение, чтобы беспрепятственно делиться данными, Google может получить доступ к информации такого рода очень быстро, а вы улучшите индексацию своего сайта.

Шаг №7: заведите блог

Блог заставит вас создавать тонны интересного и полезного контента, а это крайне необходимо для высоких позиций в поисковой выдаче. Запомните: чем больше контента вы разместите в сети, тем качественнее будет индексация.

Шаг №8: создайте RSS-канал

RSS-канал не обязателен, но и он не будет лишним. RSS (от англ. Rich Site Summary — обогащенная сводка сайта) — семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т.п. Пожалуй, это один из самых простых способов оповещения об обновлениях сайта, блога и т.д., но на сегодняшний момент отчасти устаревший. Но даже так RSS-канал может быть эффективным способом донести до Google информацию о своем новом материале, как только он появился на вашем сайте.

Шаг №9: отслеживайте ошибки индексации

Ошибки и некоторые неточности в индексации сайта неминуемы. Обычно это происходит, когда вы вносите значительные изменения на сайт: добавляете, удаляете или перемещаете страницы.

Отследить все ошибки можно в уже знакомой вам Google Search Console.

Заключение

Помните, что индексация сайта поисковой системой Google — это лишь первый шаг в развитии ресурса. Помимо этого вам потребуется придерживаться базовых правил поисковой оптимизации и создавать качественный и полезный для ваших читателей контент.

Высоких вам конверсий!

Прочитать статью целиком
Ваш e-mail адрес на 100% защищен от спама

Если вы уже являетесь подписчиком блога LPgenerator,
просто введите ваш email

Документы Google Docs оказались в открытом доступе

В ночь на четверг 5 июля поисковик «Яндекс» начал индексировать в поиске документы Google Docs, обратили внимание несколько Telegram-каналов и убедились корреспонденты «Ведомостей». Действительно, если указать «Яндексу» область поиска docs.google.com, а затем заполнить строку поиска, то «Яндекс» выдавал искомые документы – например, в текстовом формате или формате электронной таблицы. Среди найденного были документы с информацией, похожей на персональные данные (включая имена, фамилии, номера телефонов и электронной почты), убедился корреспондент «Ведомостей». «Яндекс» выдавал результаты и по запросу «пароли».

Около 01.00 «Яндекс»-поиск по Google Docs прекратился.

Но функция поиска по документам Google Docs все же осталась – уже с помощью самого Google. Указав в строке поиска с помощью специальной команды все те же документы Google Docs, можно было найти искомое, например, Google снова выдавал результаты по запросу «пароли».

«Яндекс» индексирует лишь открытую часть интернета – те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля, пояснил «Ведомостям» представитель компании Илья Грабовский. Страницы, индексация которых запрещена администратором сайта в файле roots.txt, Яндекс не индексирует, даже если они находятся в открытой части интернета. По словам Грабовского, в среду вечером пользователи пожаловались в службу поддержки на доступность файлов doc.google.com, и сейчас служба безопасности «Яндекса» связывается с коллегами из Google, «чтобы обратить их внимание на то, что в этих файлах может оказаться приватная информация», сказал Грабовский. Какое количество поисковых запросов по Google Docs выполнили пользователи, Грабовский не раскрыл. Он также не прокомментировал то, отключал ли «Яндекс» индексирование Google Docs.

«Ведомости» ожидают комментариев представителя Google.

Что такое Google Docs

Google Docs (а также Google Sheets – таблицы, и Google Slides – презентации) — это набор сервисов для работы с различными типами документов — от текстов до таблиц и презентаций, напоминающий по функционалу офисный пакет программ Microsoft Office. Но, в отличие от продуктов компании Microsoft, Google Docs позволяет работать над документом в режиме онлайн — доступ предоставляется через веб-интерфейс или мобильные приложения для различных операционных систем.

В документах Google есть несколько уровней настройки приватности. По умолчанию к нему имеет доступ только сам пользователь, однако он может выбрать иной уровень доступа (просмотр, комментирование или редактирование документа) и дать его сторонним пользователям. Сделать это можно с помощью выбора одной из опций — разрешить доступ определенного уровня (просмотр, редактирование или комментирование) конкретным пользователям — для этого нужно указать их почту, либо дать этот доступ всем пользователям, у кого есть ссылка на данный документ. Последний случай наиболее удобен, поскольку не требует действий по подтверждению доступа пользователя через почту.

Telegram-каналы дали рекомендации, как обезопасить собственные документы Google. Например, авторы канала «Нецифровая экономика» посоветовали проверить настройки приватности документов и сделать их доступными только для себя.

Индексация массивов документов

А. В. Аграновский, Р. Э. Арутюнян

Обработка текстовых документов (или приведенных к текстовому виду) является в настоящее время одной из самых актуальных задач. Несмотря на то что наиболее востребована на сегодняшний день задача поиска, имеется множество смежных вопросов обработки текстовых массивов, постоянно находящих все новые важные применения.

Сотрудникам крупных, средних и даже небольших компаний, в частности, работающих в сфере информационных технологий, приходится сталкиваться с проблемой навигации по значительному объему документации, хранящейся на сервере локальной сети или на их рабочих станциях. Программные продукты, разработанные для решения подобной проблемы, не всегда исчерпывающим образом удовлетворяют потенциальных пользователей таких информационных систем, поэтому возникает задача разработки собственного механизма навигации, учитывающего особенности конкретного массива документов.

Существующие системы управления базами данных часто содержат встроенные средства полнотекстового поиска. Они весьма удобны, когда тексты документов целиком хранятся в базе данных. В противном случае приходится разрабатывать иной способ поиска, который, как правило, можно наделить гораздо более мощными возможностями и относительно легко приспособить для решения целого ряда проблем, касающихся не только поиска документов, но и их рубрикации, кластеризации и автоматического аннотирования.

Извлечение текстового содержания

Работа поисковых систем часто основана на использовании ключевых слов, что подразумевает возможность выделения из каждого документа некоторого текстового содержания. В ряде случаев решение такой задачи очевидно (например, когда файл текстовый), но существуют форматы документов, извлечь текстовое содержание из которых непросто. Важна информация о названии документа и его авторах, она часто рассматривается отдельно от содержания. Ниже приведен список форматов файлов, потенциально пригодных для индексации, с анализом механизма получения их текстового содержания.

  • Текстовые файлы (txt). Извлечь текстовое содержание из таких файлов достаточно просто. Это самый удобный для индексации формат, но на сегодняшний день он используется относительно редко. Кроме того, в файлах текстового формата затруднено определение названия документа и практически невозможно выделение его авторов.
  • HTML-страницы (htm, html). Будучи одним из самых распространенных форматов хранения текстовой информации, формат HTML относительно легко подвергается обработке для выделения текста. Простейший алгоритм состоит в удалении всех тегов. Однако в заголовке HTML-файла может храниться информация, которую следует обрабатывать отдельно: название документа (тег TITLE), сведения об авторах, ключевые слова и др. (тег META).
  • Документы Adobe Acrobat (pdf). Данный формат получил в последнее время широкое распространение отчасти благодаря своей межплатформности. Несмотря на то что pdf-файлы, как правило, содержат текст, для получения его в явном виде обычно требуются значительные усилия. Для этого существует ряд программных продуктов, реализующих полный разбор pdf-файла. Возможно также использование средств automation Adobe Acrobat, но вследствие больших затрат на межпроцессные вызовы (COM-сервер Adobe Acrobat реализован в виде локального, т. е. exe-файла) процедура получения текста даже для одного pdf-файла требует значительных затрат времени и, на взгляд авторов, практически неприемлема.
  • Файлы PostScript (ps). Файлы этого формата также приобрели большую популярность и используются, в частности, для хранения научных статей, чему способствует возможность легкого преобразования в этот формат dvi-файлов. Формат ps сложен, однако существуют программы для выделения текста из таких файлов, причем некоторые из них, как и в случае с pdf-файлами, доступны в виде открытых кодов.
  • Документы MS Word (doc). Фирма Microsoft официально не открыла формат doc и не предоставила удобных автоматических средств получения содержимого doc-файлов. Тем не менее с помощью имеющихся автоматических средств данная задача может быть решена, хотя и со значительным ущербом для надежности и скорости работы приложений. Во всяком случае, в Интернете есть неофициальные описания формата doc и исходные коды программ, выделяющих текст из doc-файлов.
  • Файлы RTF (rtf). Этот формат был также разработан Microsoft, его описание можно найти на официальном сайте корпорации.
  • Файлы мультимедиа (mp3, ogg, avi, mpeg и др.). Они могут быть проиндексированы по названию песни, фильма, альбома и имени исполнителя, если эти данные в них присутствуют.
  • Исполняемые файлы (exe).Иногда такие файлы можно подвергнуть индексации. Хотя текстовое содержание из exe-файлов получить невозможно, но этот формат позволяет определить название программы и ее авторов из ресурсов. Правда, соответствующие данные присутствуют не во всех exe-файлах.

Для файлов, форматы которых не позволяют проводить их прямую индексацию, возможно составление файлов описания (для них часто используется расширение diz) и при индексации получение информации из них. Такой метод полезен при индексации программных продуктов. Он позволяет хранить для каждого из них, помимо названия и фирмы-производителя, аннотацию, что заметно повышает точность навигации.

Алгоритмы поиска и индексации

Первые работы, касающиеся поиска текста, появились во второй половине XX в., и основные подходы, заложенные в них, и по сей день успешно используются всеми поисковыми системами. Наиболее распространенными методами поиска текстовых документов являются булев поиск, векторный и вероятностный.

Булев поиск опирается на использование инвертированного индекса ключевых слов, т. е. таблицы, в которой для каждого ключевого слова перечисляются все документы, где оно встречается. Главным достоинством этого алгоритма является возможность связывания слов запроса логическими операциями, например, он позволяет осуществить поиск по запросу «кофе или чай» и получить в результате объединение множеств документов, содержащих слова «кофе» и «чай». К недостаткам этого алгоритма следует отнести невозможность определения релевантности запросу полученной выборки документов и, как следствие, невозможность ее сортировки.

В векторной модели поиска каждому документу ставится в соответствие вектор

где wij — вес j-го ключевого слова в i-м документе, обычно вычисляемый по формуле

где aij — частота появления j-го ключевого слова в i-м документе; dj — количество документов, в которых встречается j-е ключевое слово; N — общее количество рассматриваемых документов.

Аналогично для запроса Q вводится одноименный вектор

где qj =1, если j-е ключевое слово присутствует в запросе Q, и qj = 0, если нет.

Мера схожести документа Dj и запроса Q в этом случае вычисляется как косинус угла между соответствующими векторами:

где (Di ,Q) — скалярное произведение векторов Di и Q; ||Di||, ||Q|| — их нормы.

Вероятностная модель поиска основана на вычислении условной вероятности события, что документ соответствует данному запросу, т. е. величины P(документ D релевантен| запрос Q).

Используя теорему Байеса и тот факт, что вероятность P(запрос Q) постоянна на протяжении всего поиска, получаем: мерой релевантности документа D является величина

P(документ D релевантен) P(запрос Q | документ D релевантен).

В качестве факторов, влияющих на безусловную релевантность документа, можно рассматривать его размер, источник, дату публикации и т. д. Вероятность запроса Q при условии релевантности документа D зависит главным образом от веса ключевых слов запроса в документе D.

В реальных поисковых системах, как правило, используется комбинация рассмотренных методов. При этом булев поиск используется для выделения из всего массива тех документов, которые содержат все слова запроса. Для определения релевантности документов и сортировки полученной выборки используются алгоритмы векторного и вероятностного поиска. Отметим, что для решения последней задачи кроме упомянутых двух алгоритмов существуют другие, ориентированные на конкретный тип поиска. Тем не менее булева составляющая индексирования, сильно ускоряющая процесс поиска, обычно является неотъемлемой частью поисковых систем, что говорит о необходимости создания и поддержки инвертированного индекса.

Таблицы индекса

Для эффективной организации поиска документов необходимо задействовать несколько таблиц в базе данных. В самом простом случае используются следующие три.

  • Таблица документов Documents. В ней хранится информация обо всех документах, проиндексированных системой, а именно название документа, его авторы, тип файла, путь к файлу/URL и т. д. При этом каждому документу необходимо присвоить уникальный идентификатор Doc_id.
  • Таблица ключевых слов/словарь Words. Здесь хранятся все ключевые слова системы и соответствующие им номера Word_id.
  • Инвертированный индекс Inverse, используемый для поиска. В этой таблице хранится идентификатор слова Word_id и соответствующий ему список документов, содержащих это слово.

При добавлении в индекс очередного документа заносится соответствующая запись в таблицу Documents, после чего необходимо провести обновление таблицы инвертированного индекса. Для этого идентификатор вновь созданного документа добавляется ко всем записям таблицы Inverse, соответствующим ключевым словам нового текста.

Эффективная организация словаря

Одна из самых важных и трудных проблем индексации текстов связана с созданием и пополнением словаря ключевых слов. Главная сложность ее заключается в том, что для эффективной работы системы необходимо рассматривать только базовые словоформы ключевых слов. При этом индексация даст лучшие результаты при обработке текстов, так как, например, неважно, в каком падеже встретилось в тексте слово. Следует иметь в виду, что механизмы выделения базовых словоформ сильно различаются в разных языках. Существует два подхода к решению этой проблемы. Первый состоит в реализации механизма выделения базовых словоформ из всех слов языка, и ему отвечает словарь небольшого размера. При индексации документа или обработке запроса происходит выделение из текста документа или запроса базовых словоформ всех слов. Очевидно, что механизм выделения для большинства языков крайне не прост, и это усложняет применение данного метода. При использовании подобного подхода велика также вероятность образования ошибочных словоформ.

Топ-пост этого месяца:  Google начал наказывать за неправильные иконки в поисковых сниппетах

Для выделения базовых словоформ существует ряд алгоритмов. Простейшим из них является метод отсечения всех знакомых системе приставок и суффиксов/окончаний. Из более продвинутых методов стоит упомянуть прием, называемый «квадратом Джозефа Гринберга», который предложил в графическом представлении размещать по двум противоположным сторонам квадрата (или ромба) английские слова, например sleeps и eats, по двум другим противоположным сторонам — слова sleeping и eating. То же можно записать в виде пропорции sleeps:eats = sleeping:eating. Анализ этой конструкции позволяет выделить две базовые словоформы sleep и eat и окончания s и ing.

Американский языковед З. Харрис предложил вероятностный подход к решению проблемы выделения базовой словоформы, граница которой определяется по наибольшему числу совпадений букв в сравниваемых словоформах.

Другим часто используемым алгоритмом выделения базовых словоформ является метод Портера, разработанный специально для поисковых систем и изначально применявшийся для английского языка. Идея алгоритма состоит в создании для каждого используемого языка правил отсечения окончаний (в широком смысле) слов. Каждое из них имеет вид:

(условие) S1->S2, где S1 — окончание слова, которое необходимо удалить, S2 — новое окончание слова. Условия, при которых применяется данное правило, являются логическими функциями следующих событий:
*S — базовая словоформа заканчивается на S (здесь S — любая буква);
*v* — базовая словоформа содержит гласную;
*d — базовая словоформа заканчивается на двойную согласную и т. д.

В качестве примера приведем следующие правила, построенные по этой схеме:

SSES->ES # caresses->caress
IES->I # ponies->poni
(*v*) ED-> # plastered->plaster
(*v*) ING-> # sing->sing

Существуют другие подходы к решению проблемы словаря. Например, создается фиксированный набор слов языка с указанием для каждого слова его базовой словоформы. Существенным недостатком данного метода является большой объем словаря, в котором приходится хранить не только базовые словоформы, а все используемые слова. Однако это позволяет построить более точное соответствие между словами и их базовыми словоформами. Кроме того, появляется возможность ограничить словарь некоторым набором базовых слов, созданным при его инициализации. Во время индексации можно игнорировать неизвестные слова (в случае, если исходный словарь уже велик). Это позволит отсечь большое количество «мусора» — ошибочных и служебных слов, появление которых неизбежно. Наряду с этим могут быть пропущены слова, важные для индексации, преимущественно специальные выражения и термины предметных областей. Чтобы избежать этого, предлагается добавлять новые слова, но без учета образования от них словоформ. Такой подход дает особенно хорошие результаты при добавлении в словарь аббревиатур, не требующих образования от них дополнительных словоформ.

Еще одна проблема индексирования связана с выявлением и удалением из текста так называемых стоп-слов. Они не несут смысловой нагрузки в текущей предметной области, и для эффективной работы системы их следует удалять при индексировании. Как правило, стоп-словами являются предлоги, союзы, артикли, вводные слова и т. п. Они очень часто встречаются в документах, но малоинформативны. Для их удаления можно либо использовать отдельный словарь стоп-слов, либо считать все слова с высокими частотами встречаемости в базе данных текстов стоп-словами и удалять их при индексировании.

Интерфейс поисковой системы

В ряду задач, стоящих при создании поисковой системы, не последнее место занимает разработка интерфейса, при неудачной реализации которого даже самая функциональная программа может много потерять в эффективности.

Как показала практика, наиболее удобен для поисковой системы Web-интерфейс, в частности когда большая часть документов для индексации хранится в виде html-файлов. Однако даже если это не так, отсутствие необходимости установки дополнительного программного обеспечения и использование для поиска обычного браузера делают систему доступной и простой в использовании.

Отдельного внимания в данном случае требует объем информации, выводимой поисковой системой по запросу. Большинство поисковых Интернет-систем ограничивается следующим.

  • Заголовок документа.
  • Тип документа. В случае, если поисковая система поддерживает несколько типов документов (html, doc, pdf, ps и т. д.), информация о типе каждого из них может оказаться полезной для пользователя. Система Google выводит тип документа (если документ не является html-страницей) перед его названием в квадратных скобках.
  • Выдержки из текста документа. Обычно приводятся предложения или части предложений документа, содержащие ключевые слова запроса. Сами ключевые слова при этом выделяются жирным начертанием. Выдержки из текста документа оказываются крайне полезными для определения контекста, в котором встретились ключевые слова, и позволяют, как правило, сразу отсечь значительное количество ненужных и ошибочных документов.
  • Помимо приведения вышеперечисленной стандартной информации, поисковые Интернет-системы предоставляют разнообразные дополнительные возможности, облегчающие нахождение нужных документов. Большинство из них, например, имеют функцию «Похожие документы», позволяющую произвести поиск в базе данных на предмет нахождения документов, имеющих максимальное сходство с данным.

Смежные вопросы обработки текстов

Задачи индексации и поиска текста тесно связаны с несколькими другими задачами из области обработки текстов, имеющими важные приложения. Отметим следующие из них:

  • рубрикация текстов (text categorization);
  • кластеризация текстов (text clustering);
  • автоматическое аннотирование текстов (text summarizing);

Задача рубрикации текстов состоит в определении принадлежности входного текста одной из имеющихся рубрик. Ее решение основано также на механизме ключевых слов и в самом простом случае сводится к вычислению меры близости между вектором признаков документа и некоторым средним вектором, представляющим категорию текстов. Текущий текст считается принадлежащим той категории, для которой эта мера минимальна. Задача рубрикации имеет много важных и востребованных в современном мире приложений. Одним из них является механизм фильтрации сообщений электронной почты от спама. При этом все почтовые сообщения разбиваются на две рубрики: «спам» и «нужные сообщения». После соответствующего обучения системы становится возможной автоматическая фильтрация.

Кластеризация текстов также имеет большое число приложений. Задача кластеризации состоит в автоматическом разбиении массива текстов на категории. От рубрикации ее отличает то, что категории заранее не определены; известно лишь их число. Для решения задачи кластеризации документов обычно используются традиционные алгоритмы кластеризации, такие как алгоритм k средних, EM-алгоритм для моделей гауссовых смесей (GMM), иерархическая кластеризация и т. д. С помощью кластеризации может быть повышена точность работы поисковых систем (при этом используется принцип, согласно которому документы, близкие по содержанию, обычно релевантны одним и тем же запросам), а также облегчен просмотр больших объемов документов и работа с ними.

Задача автоматического аннотирования состоит в построении по тексту нескольких обобщающих предложений, отражающих его главную мысль. Как правило, она решается путем нахождения в тексте наиболее информативных предложений, т. е. содержащих наибольшее количество информативных слов. К сожалению, полученная аннотация обычно не отличается связностью. Тем не менее она в ряде случаев может быть полезна. Например, ее можно выводить в списке найденных поисковой системой документов.

Почему поисковик проиндексировал документы сервиса Google Docs

В поисковой выдаче «Яндекса» оказалось множество документов пользователей сервиса Google Docs, не защищенных настройками приватности. В российской интернет-компании утверждают, что она просто индексирует всю открытую часть интернета. По словам экспертов в области кибербезопасности, масштабы проблемы «огромны», а инцидент произошел из-за человеческого фактора: несмотря на предупреждения и резонансные утечки, люди продолжают хранить секретные данные в открытых документах. Ситуация могла затронуть и другие поисковики, включая Bing от Microsoft.


Вечером 4 июля документы пользователей сервиса Google Docs, не скрытые настройками приватности, оказались доступны в поисковой выдаче «Яндекса». На выдачу документов из Google Docs обратили внимание пользователи, информация об этом быстро распространилась в социальных сетях. В публичном доступе оказались документы с самой разной информацией — от участия компаний в тендерах до паролей к кредитным картам.

«Яндекс» индексирует всю открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля, объясняет представитель компании. По его словам, страницы, индексация которых запрещена администратором сайта в файле robots.txt, «Яндекс» не индексирует, даже если они находятся в открытой части интернета. «В среду вечером в службу поддержки обратились пользователи с жалобами на проблему доступности файлов на docs.google.com. Наша служба безопасности связывается сейчас с коллегами из Google, чтобы обратить их внимание на то, что в этих файлах может оказаться приватная информация»,— заявили в «Яндексе».

«Сохранять и защищать личную информацию пользователей — наш первый приоритет,— подчеркивают в Google.—

Сервис «Google Документы» является высоко защищенным инструментом для совместной работы, и он работает именно так, как задумывалось.

Поисковые системы могут индексировать только те документы, которые намеренно были сделаны их владельцами публичными, или когда кто-либо публикует ссылку на документ, владелец которого сделал его доступным для просмотра всем в интернете. Вы всегда можете изменить настройки доступа вашим файлам и установить ограничения, что именно доступно для просмотра, комментирования или редактирования выбранным пользователям».

Как Google запустил программу расширенной защиты пользователей

Масштабы проблемы огромны, она касается всех облачных сервисов, не только Google, считает руководитель департамента системных решений Group-IB Антон Фишман. По его словам, другие поисковики также проиндексировали документы в Google Docs: «Всех не проверяли, но как минимум Bing (принадлежит Microsoft.— “Ъ” ) точно». «Поисковик Bing индексирует и выдает в качестве результатов поиска только то, что находится в открытом доступе»,— сообщил “Ъ” представитель Microsoft. «Я лично не считаю это проблемой поисковых и облачных сервисов, пользователи сами выставили такой формат доступа. Но, конечно, стоит отслеживать эту информацию и запрещать ее индексацию на стороне провайдера облачного сервиса»,— говорит господин Фишман.

В «Поиске Mail.Ru» не отображаются ссылки на документы с приватным доступом, полученные в переписке через мессенджеры или в любом другом частном канале коммуникации, заявили “Ъ” в пресс-службе сервиса. «Мы никогда не индексировали такие ссылки и не планируем. «Поиск Mail.Ru» находит только публичные ссылки на документы на Google и других файлохранилищах, публичные — это значит, что на них есть ссылки с других сайтов в интернете, например опросы или презентации. Не видим в таких случаях ничего плохого: это стандартный механизм работы любого поисковика — обходить сайты, смотреть, куда они ссылаются, и идти дальше»,— отметил представитель компании.

Как настроить политики конфиденциальности крупнейших интернет-сервисов

Документы пользователей Google Docs появились в поисковой выдаче «Яндекса» не случайно, считает специалист технического сопровождения продуктов Eset Russia Борис Соболев. «Во-первых, файл robots.txt индексирует все общедоступные документы для поисковых систем. Во-вторых, пользователи открыли доступ к своим файлам без авторизации на сервисах Google и защиты, то есть априори разрешили доступ всему интернету. Другие поисковики проиндексировали файлы по той же причине — файл robots.txt используется большинством систем. Но его использование добровольное, индексацию можно и нужно было отключить,— рассуждает эксперт.— В теории «Яндекс» проиндексировал все файлы, до которых дотянулся, кроме доступных по приглашению».

По мнению господина Соболева, последствия утечки пользователи будут наблюдать в ближайшей перспективе: «Уже сейчас есть сообщения о взломе аккаунтов, пароли от которых пользователи хранили в Google Docs. Хорошо расходятся новости о корпоративной информации, попавшей в общий доступ. Пока непонятно, кто и в каком объеме скопировал или заскриншотил слитую информацию. Думаю, нас ожидает волна угонов аккаунтов, скандалов и разоблачений».

«В связи со случившимся инцидентом Роскомнадзор направил официальный запрос в компанию «Яндекс»»,— собщили “Ъ” в ведомстве.

Интернет-омбудсмен Дмитрий Мариничев считает, что у ситуации не может быть никаких юридических последствий.

«Такое делают порой в целях организации коллективной работы над документами. Поэтому если кто-то не ставит свойство документа «Только для себя», то он никак не может претендовать на то, чтобы получить какое-то возмещение или претендовать на подачу иска на ущерб»,— считает интернет-омбудсмен. Он проводит аналогию с тем, что кто-то, уходя из дома, не кладет ключ под коврик, а оставляет его в ячейке замка: «Любой человек, даже случайно заметивший это, может войти посмотреть и даже что-то стащить».

Google подготовила исследование про способы взлома аккаунтов

По мнению ведущего юриста Обществ защиты прав потребителей Олега Фролова, если говорить о физических лицах, то перспектива получения компенсации морального вреда действительно маловероятна, либо, «даже если случится чудо и вы иск выиграете, она будет ничтожной и несоизмеримой с затратами сил на получение». «Что касается юридического лица, то ущерб здесь может быть более значительным, как минимум может быть раскрыта коммерческая тайна,— продолжает господин Фролов.— Практики такой обширной в России пока нет, убытки доказать в наших судах крайне сложно, суды неохотно верят в доказательства во всем, что связано с интернетом. Эта та область, с которой даже наше правительство не знает, как обращаться, разве только блокировать сайты и защищать честь и достоинство — вот здесь практика сложилась. А вот со сливами информации, хакерскими атаками бороться пока не научились».

Google опубликовал подробный FAQ по индексации AMP

Сотрудник Google Ли Донг-хви (DongHwi Lee) опубликовал на форуме Webmaster Central Help список распространённых вопросов по индексации AMP.

Ниже – основные пункты из FAQ.

  1. Сколько времени обычно занимает индексацияAMP-страниц?

Сканирование и индексирование AMP-страницы осуществляется так же, как и сканирование и индексирование обычной веб-страницы. Но если на AMP-странице есть ошибки (особенно, что касается необходимой разметки), то это может повлиять на успешность сканирования.

  1. Если я запущуX ускоренных страниц, сколько времени займёт индексация? Какие факторы влияют на отбор?

Google сканирует и индексирует AMP-страницы с той же скоростью, что и обычные. Убедитесь, что AMP-документы являются валидными, чтобы улучшить сканирование AMP-страниц.

  1. Разнится ли индексирование в зависимости от типа страницы – например, если это главная страница и страница товара?

Главные страницы и страницы товаров проходят через один и тот же поток индексации. Для определения оптимальной частоты сканирования Google использует разные факторы – например, как часто меняется основной контент страницы.

  1. Если страницы подлежат частому изменению или удалению, будут ли они по-прежнему хорошими кандидатами для индексирования?

Да, это вполне нормально, если на сайте присутствуют страницы, содержимое которых часто меняется. Проинформировать Google о новых и обновлённых страницах можно с помощью файлов Sitemap.

  1. Существует ли способ ускорить индексирование (например, через создание кампаний вGoogleAds)?

Рекламные кампании не влияют на индексацию и ранжирование страниц в органическом поиске Google.

Вебмастера могут помочь Googlebot, предоставляя файлы Sitemap или отправляя запросы на индексацию отдельных URL через Search Console.

  1. КакAMP влияет на ранжирование?

Внедрение технологии AMP не влияет на ранжирование. Google учитывает мобильную скорость загрузки в качестве фактора ранжирования, однако сайты могут быть быстрыми за счёт использования разных технологий, не только AMP. По факту Google применяет один и тот же стандарт ко всем страницам, независимо от технологии, на основе которой они были созданы.

  1. Нужно ли беспокоиться, если только небольшой процентAMP-страниц был проиндексирован и отображается в поиске?
Топ-пост этого месяца:  6 бесплатных способов повысить посещаемость сайта

Сам по себе «небольшой процент» не является проблемой.

  • Используйте Search Console, чтобы понять, какое число AMP-страниц было найдено на сайте. Проверьте соответствующий подраздел в разделе «Вид в поиске».
  • Google, возможно, обнаружил не все AMP-страницы на сайте. Это нормально и со временем количество обнаруженных страниц увеличится. Чтобы сообщить Google о новых и обновлённых страницах, рекомендуется использовать файлы Sitemap.
  • Googlebot пытается не создавать проблем для серверной инфраструктуры сайта. Он ограничивает сканирование в зависимости от того, как реагирует сайт. Он также пытается приритизировать сканирование и индексирование наиболее полезных страниц сайта.
  1. Почему в результатах поиска появляются два результата – иAMP, и не-AMP?

Google, возможно, не видит ссылки между AMP и канонической страницей. Это может происходить в том случае, если ссылка на amphtml с канонической страницы или ссылка на каноническую страницу с AMP является нерабочей. Когда эти два документа не могут быть сопряжены, они могут обрабатываться как отдельные документы.

  1. Нужно ли помечатьAMP-страницы каким-то особым образом в следующем сценарии: десктопный сайт (www), мобильный сайт (m.),AMP-страницы (наm.), когдаAMP указывает наm., аm. – наAMP?

В данном сценарии, когда есть и десктопный, и мобильный AMP-сайт:

  • AMP должны указывать на десктопную версию через
  • ;
  • Десктопные страницы должны указывать на AMP через
  • .

AMP также могут быть самостоятельными каноническими страницами, получающими весь трафик. Во многих случаях нет никакой необходимости в создании отдельного десктопного и мобильного (m.) сайтов.

Если же существуют все три версии (десктопная, мобильная и AMP), то:

  • Десктопный сайт: укажите на AMP с помощью
  • и на мобильную версию с помощью rel=alternate;
  • Мобильный сайт: укажите на десктопную версию с помощью
  • и на AMP с помощью rel=amphtml;
  • AMP: укажите на десктопную версию с помощью
  • .
  1. ПочемуAMP-страница не показывается в карусели «Главные новости»?

Этому может быть несколько причин:

  • Страница не проиндексирована;
  • Страница не попадает в конкретную карусель. Поисковые функции зависят от множества факторов и того, считает ли Google, что конкретные результаты обеспечат наилучший опыт для пользователя. Поэтому их вид может быть разным для разных людей.
  • Cтраница содержит ошибки.
  1. Расходуется ли краулинговый бюджет при сканированииAMP?

Да. Google должен сканировать все документы, включая AMP, в рамках бюджета сканирования сервера, чтобы избежать возникновения проблем на сайте. В целом большинству сайтов не нужно беспокоиться о бюджете сканирования, а AMP-контент является очень экономичным с точки зрения сканирования и индексирования.

Напомним, что ранее в этом месяце Google открыл доступ к превью-версии AMP URL с указанием домена издателя.

Индексирование документов в электронный архив

Клиенты

В компаниях, ведущих чёткий электронный архив, трудоспособность сотрудников в несколько раз повышается. Тем же, кто не систематизирует документы, работается вовсе не так охотно. Ещё бы – одна мысль о том, что нужную информацию придётся искать в кипах бумаг, отбивает напрочь желание деловой активности.

Систематизация и индексирование документов

Упорядочить пространство офиса помогают современные услуги по созданию электронного архива индексированию документов. Они жизненно необходимы на том этапе, когда количество бумаг растёт вместе с предприятием. Перевести информацию в электронный вид — значит сэкономить массу времени и заниматься бизнесом, не тревожась за «бумажную сторону вопроса».

Удобный электронный архив

Имея под рукой аккуратный архив, рабочий коллектив максимально разгружен. У всех сотрудников высвобождается время для качественной и творческой работы по профессии. Так может и должно быть в каждой компании. Сама процедура упорядочивания и индексации документов занимает небольшое время, а проблема захламленности бумагами уходит навсегда.

Индексирование и электронный архив

Внедрить на предприятии электронный архив и выполнить индексирование документов помогают наши профессиональные услуги. Если количество бумаг увеличивается, а их классификация «хромает», кратчайший путь систематизировать документы – обращение в компанию которая этим занимается.

Обращаясь к специалистам вы получите:

  • экономию места;
  • быстроту поиска;
  • простоту работы с документами;

  • сохранность документов.

Создание электронного архива

Как мы работаем

Заявка

Заказчик делает заявку по телефону, электронной почте или через наш сайт.

Обратная связь

Менеджер нашей компании связывается с заказчиком и согласовывает объем и специфику предстоящих работ.

Договор

Заключаем необходимый договор со сроками его выполнения.

Работы

После заключения договора выполняем все необходимые работы.

Отчет

Составляем детальный отчёт о проделанных работах.

Оплата

После оказания необходимых услуг или работ заказчику выставляется счёт на оплату.

При заключении договора гарантированный подарок

Скидка 20% первым пяти Клиентам с 01.03.2020

Новости

Торжественная церемония подписания документа состоялась

Статьи

Эта процедура должна выполняться по особым правилам

Нормативные документы

Об утверждении Плана мероприятий Федеральной налоговой службы по расширению электронного документооборота на 2020 — 2020 годы

О проведении Московского областного конкурса юношеских учебно-исследовательских работ «Юный архивист» в 2020 году

© 1997-2020 «Седьмая печать» — обработка и оцифровка документов по разумным ценам.

Что такое индексация сайта в поисковых системах и как её проверять

Если есть проблемы с индексацией — в первую очередь надо проверить robots.txt и sitemap.xml.

Любая поисковая система имеет объемную базу данных, куда вносит все сайты и новые страницы. Эта база называется «индекс». Пока робот не обойдет html-документ, не проанализирует его и не внесет в индекс, он не появится в поисковой выдаче. Попасть на него можно будет только по ссылке.

Что значит «индексация»

Лучше, чем спец Яндекса по индексации, вам об этом не расскажет никто:

Индексация — это процесс, в ходе которого страницы сайта обходит поисковый робот и включает (либо же не включает) эти страницы в индекс поисковой системы. Поисковый бот сканирует весь контент, проводит семантический анализ текстового содержимого, качество ссылок, аудио- и видеофайлов. На основе всего этого поисковик делает выводы и вносит сайт в ранжирование.

Пока сайт вне индекса, о нем никто не узнает, кроме тех, кому вы можете раздать прямые ссылки. То есть ресурс доступен для просмотра, но в поисковой системе его нет.

Для чего вообще нужен индекс

Сайт должен попасть в видимость, чтобы продвигаться, расти и развиваться. Веб-ресурс, который не появляется ни в одной ПС, бесполезен и не несет пользы ни пользователям, ни его владельцу.

Вообще, вот полное видео со школы вебмастеров Яндекса, если посмотрите его полностью — станете практически спецом в вопросе индексации:

От чего зависит скорость индексации

Основные пункты, от которых зависит, насколько быстро ваш сайт может попасть в область внимания поисковых роботов:

  • Возраст домена (чем старше доменное имя, тем более к нему благосклонны боты).
  • Хостинг (ПС совершенно не любят и часто игнорируют бесплатные хостинги).
  • CMS, чистота и валидность кода.
  • Скорость обновления страниц.

Что такое краулинговый бюджет

У каждого сайта есть краулинговый бюджет — то есть количество страниц, больше которого в индекс попасть не может. Если КБ сайта — 1000 страниц, то даже если у вас их десять тысяч, в индексе будет лишь тысяча. Размер этого бюджета зависит от того, насколько ваш сайт авторитетный и полезный. И если у вас проблема такого характера, что страницы не попадают в индекс, то как вариант, вам нужно, как бы это банально ни звучало, улучшать сайт!

Индексация сайта

Создавая новый сайт, нужно правильно заполнить файл robots.txt, который указывает поисковикам, можно ли индексировать ресурс, какие страницы просканировать, а какие не трогать.

Файл создается в формате txt и помещается в корневой папке сайта. Правильный роботс — это отдельная тема. От этого файла в первую очередь зависит, что и как будут анализировать боты на вашем сайте.

Обычно, на оценку нового сайта и внесение его в базу данных поисковикам требуется от пары недель до пары месяцев.

Пауки тщательно сканируют каждый разрешенный html-документ, определяя соответствующую тематику для нового молодого ресурса. Осуществляется это действие не за один день. При каждом новом обходе ПС будут вносить все большее и большее число html-документов в свою базу. Причем время от времени контент будет подвергаться переоценке, вследствие которой могут меняться места страниц в поисковой выдаче.

Также управлять индексацией помогают мета-тег robots и отчасти canonical. При проверке структуры и решении проблем с индексацией надо всегда смотреть на их наличие.

Google сначала индексирует страницы верхнего уровня. Когда следует проиндексировать новый сайт с определенной структурой, первой в индекс попадает главная страница. После этого, не зная структуры сайта, поисковик будет индексировать то, что находится ближе к слешу. Позже индексируются каталоги с двумя слешами. Это значит, что, даже если ссылки в контенте расположены высоко, они не обязательно будут проиндексированы первыми. Важно оптимально составить структуру, чтобы важные разделы не находились за большим количеством слешей, иначе Google решит, что это страница низкого уровня.

Индексация страницы

Когда Яндекс и Гугл уже познакомились с сайтом и «приняли» его в свою поисковую базу, боты будут возвращаться на ресурс, чтобы сканировать новые, добавляющиеся материалы. Чем чаще и регулярнее будет обновляться контент, тем более пристально будут следить за этим пауки.

Говорят, что для индексации помогает плагин ПДС пингер для поиска Яндекса — https://site.yandex.ru/cms-plugins/. Для этого нужно сначала установить поиск Яндекса на свой сайт. Но я особой пользы от него не ощутил.

Когда ресурс хорошо проиндексировался, выводить в поиск отдельные, новые страницы уже гораздо проще. Но тем не менее далеко не всегда анализ происходит равномерно и с одинаковой скоростью для всех, одновременно обновленных html-документов. Всегда выигрывают наиболее посещаемые и раскрученные категории ресурса.

Какие есть у поисковиков источники информации об url

  • В первую очередь, это переходы собственно поискового бота по ссылкам: обычным (внутренним и внешним), из соц.сетей (FB, Twitter, ЖЖ).
  • Вспомогательные источники: addURL, sitemap.xml.
  • Поведенческая информация: Метрика, Яндекс.Браузер (Элементы), Chrome, прочие счетчики.
  • Косвенные: регистрация в сервисах (Вебмастер, Директ, РСЯ, AdWords), упоминание домена без гиперссылки, регистрация домена, запросы в поиск.

Когда-то давно я привлекал быстроробота на конкурента, не продлившего домен, чтобы его понизили в выдаче – это не дало никакого результата.

Как проверить индексацию

Проверка видимости документов html осуществляется по-разному для Google и Яндекс. Но в целом не представляет собой ничего сложного. Сделать это сможет даже новичок.

Проверка в Яндекс

Система предлагает три основных оператора, позволяющих проверить, сколько html-документов находится в индексе.

Оператор «site:» – показывает абсолютно все страницы ресурса, которые уже попали в базу данных.

Вводится в строку поиска следующим образом: site:znet.ru

Оператор «host:» – позволяет увидеть проиндексированные страницы с доменов и поддоменов в рамках хостинга.

Вводится в строку поиска следующим образом: host:znet.ru

Оператор «url:» – показывает конкретную запрашиваемую страницу.

Вводится в строку поиска следующим образом: url:znet.ru/obo-mne

Проверка индексации этими командами всегда дает точные результаты и является самым простым способом анализа видимости ресурса.

Проверка в Google

ПС Гугл позволяет проверить видимость сайта только по одной команде вида site:znet.ru.

Но у Google есть одна особенность: он по-разному обрабатывает команду с введенными www и без. Яндекс же такого различия не делает и дает абсолютно одинаковые результаты, что с прописанными www, что без них.

Проверка операторами — это самый «дедовский» способ, но я для этих целей пользуюсь плагином для браузера RDS Bar.

Проверка с помощью Webmaster

В сервисах Google Webmaster и Yandex Webmaster также можно посмотреть, сколько страниц находится в базе данных ПС. Для этого нужно быть зарегистрированным в этих системах и внести в них свой сайт. Попасть в них можно по ссылкам:

В Яндекс Вебмастере при нажатии на ссылку «Мои сайты» в левом боковом меню появятся все необходимые пункты для проверки не только количества страниц, но и многих других полезных и важных данных, в том числе и истории индексации.

Если текста еще нет в сохранённой копии, но есть на странице, то он может быть найден по запросу [этот текст] url:site.ru — это будет означать, что он уже проиндексирован, но пока не попал в основной индекс

Массовая проверка страниц на индексацию

Если вы ведете файл семантики по моей схеме, то проверить все страницы на индексацию для вас — дело трех минут.

  1. Заходим в файл распределения
  2. Выделяем все урлы в столбце URL
  3. Вкладка «Данные» — «Удалить дубликаты», таким образом останется список всех продвигаемых страниц
  4. Массово проверяем страницы на индексацию через Comparser. Можно и с помощью браузерного плагина Winka – он умеет работать со списком ссылок в отрыве от Сапы (вызвать меню плагина – проверка списка ссылок).

Сервисы вроде Serphunt

Сейчас я проверяю индексацию в основном здесь: https://serphunt.ru/indexing/, потому что у них можно сразу 50 урлов проверить и причем не только в яндексе, но и в гугле. Мало где можно проверить одновременно в обеих ПС на халяву сразу 50 урлов.

Суть такая — просто вбиваете адреса страниц, и сервис вам выдаёт результаты:

Проверяет не очень быстро — там надо будет подождать минуты 3, но к бесплатному инструменту и претензий немного. Просто в фоновом окне ставьте и занимайтесь своими делами, через несколько минут результаты будут готовы.

Можно ли ускорить индексацию?

Повлиять на скорость загрузки html-документов поисковыми роботами можно. Для этого следует придерживаться следующих рекомендаций:

  • Повышать количество соцсигналов, побуждая пользователей делиться линками в своих профилях. А можно брать твиты с живых аккаунтов в Prospero (klout 50+). Если составите свой вайт-лист твиттеров, считайте, что получили мощное оружие для ускорения индексации;
  • Почаще добавлять новые материалы;
  • Можно по самым дешевым запросам в своей тематике директ начать крутить;
  • Вносить адрес новой страницы в аддурилки сразу же после ее публикации.

Высокие поведенческие факторы на сайте также положительно влияют на скорость обновления страниц в поиске. Поэтому не стоит забывать о качестве и полезности контента для людей. Сайт, который очень нравится пользователям, обязательно понравится и поисковым роботам.

В Google вообще все очень легко — добавить страницу в индекс в течение нескольких минут можно сканированием в панели для веб-мастеров (пункт сканирование/посмотреть как Googlebot/добавить в индекс). Таким же образом можно быстро переиндексировать необходимые страницы.

Я слышал еще истории о чуваках, которые отсылали урлы почтой Яндекса, чтобы они быстрее попали в индекс. На мой взгляд, это бред.

Дополнительные советы по улучшению индексации

Если проблема прям есть, и все предыдущие советы не помогли, остается переходить к тяжелой артиллерии.

Добавить комментарий