Google о преодолении лимита на количество URL в файле Sitemap


Содержание материала:

Создание Sitemap

Файл Sitemap — это файл с информацией о страницах сайта иначе называемая карта сайта. С помощью файла Sitemap вы можете сообщить поисковой системе, какие страницы вашего сайта нужно индексировать, как часто обновляется информация на страницах, а также индексация каких страниц наиболее важна.

Подробнее о XML-формате файла Sitemap можно прочитать на sitemaps.org

  • Преимущества платного построения карты сайта
  • Описание ошибок, выдаваемых после сканирования сайта
  • Вопросы и ответы по формированию карты сайта
  • Подробное описание опций генератора карты сайта
    Пошаговая инструкция для загрузки получившегося файла:
  1. Выберите кнопку «Загрузить Sitemap.xml» или скопируйте сгенерированный для Вашего сайта код и вставьте его в чистый текстовый файл блокнота (notepad)
  2. Сохраните этот файл под именем sitemap.xml
  3. Загрузите этот файл в корневую директорию Вашего сайта (туда, где находится главная страница сайта)
  4. В адресной строке браузера наберите полный путь к сгенерированному файлу:
    Если Вы всё сделали правильно, то Вы увидите список URL’ов и никаких ошибок

    После загрузки файла в корневую директорию вашего сайта вы можете:

    • сообщить Google о новом Sitemap, сообщить Yahoo! о новом Sitemap(предварительно вы должны зарегистрироваться),сообщить Ask.com о новом Sitemap,
    • сообщить Live Search о новом Sitemap,
    • Добавить Sitemap Yandex-у можно в консоли управления сайтами.
    • Добавить Sitemap в свой Google Sitemap аккаунт. Для этого впишите путь в соответствующую графу в аккаунте.
    • Добавить Sitemap в Yahoo можно в Yahoo site explorer.
    • Добавить в свой http://домен/ robots.txt следующую строчку:
      Здесь Вы сможете создать файл robots.txt.
  5. Проделывайте эти шаги применительно к каждому своему сайту.
  6. Здесь Вы можете бесплатно сформировать красивую графическую карту сайта на основании отсканированной информации. Визуальная карта сайта стоится на основании древовидной структуры вашего сайта. Если сайт не имеет четкой древоводности папок/подпапок, — то визуальная карта получается не информативной.

Технические подробности sitemap

Теги файла sitemap.xml:

  • changefreq — наиболее вероятная частота изменения контента указанного URL;
  • lastmod — фактическая дата последнего обновления URL;
  • loc — сам URL;
  • priority — приоритетность указанной страницы по отношению к другим страницам сайта;
  • url — этот тег служит родительским для указанных первых четырех тегов;
  • urlset — этот тег объединяет теги первых пяти типов.

Особенностью применения формата XML является необходимость замены всех служебных символов на их безопасное представление. Ниже приведена таблица символов, которые встречаются в URL и подлежат обязательной замене:

  • & — амперсанд;
  • — одиночные кавычки;
  • « — двойные кавычки;
  • > — знак «больше»;
  • .
    Прокомментировать/Отблагодарить

Безошибочный сайтмап для сайта

Вы просто кретин, если в свое время не уделили сайтмапу нужное внимание. Достаточно один раз разобраться в вопросе и в будущем избежать большого количества ошибок, что давайте сейчас и сделаем.

Ваш покорный слуга в годы младые также был таким кретином, когда только начал продвигать сайты в одной конторе. Попался мне в то время один сайтец на продвижение, который, следует сказать, был просто гавном. И у этого гавна были проблемы с индексацией. Естественно, будь сайт достаточно качественным, его бы оба поисковика индексировали несмотря ни на какие проблемы, но владельцы жались на нормальных дизайнера, верстальщика и программиста, а в этом случае сеошнику остается только, так сказать, открывать бутылку при помощи ножниц. Я перепробовал на нем все — и настройку last-modified, и ускорение индексации модным в то время фастботом, и покупку ссылок. И только потом оказалось, что дело было в том, что там не обновлялся автоматически сайтмап! Когда я его обновил — все страницы влетели в индекс.

Что такое sitemap и зачем он нужен

Что такое sitemap? Это файл с информацией о страницах сайта, которые нужно индексировать. Обычно sitemap создают для Яндекса и Гугла, чтобы оповестить поисковых роботов о страницах, которые нужно внести в индекс. Ещё при помощи сайтмапа осуществляется проверка того, как часто происходят обновления, и индексация каких веб-документов является наиболее важной. В целом очень хорошо о нем рассказали на Вебмастерской Яндекса:

Влияет ли наличие sitemap на продвижение

Если у вас отсутствует сайтмап, это не означает, что поисковики не станут индексировать ресурс. Поисковые роботы зачастую и без этого неплохо сканируют сайты и включают их в поиск. Но иногда могут возникать сбои, из-за которых порой удается отыскать не все веб-документы. Основными причинами являются:

  1. Разделы сайта, в которые можно попасть, только совершив длинную цепочку переходов;
  2. Динамические URL-адреса.

Так вот, создание sitemap.xml во многом помогает решить эту проблему. Этот файл влияет на SEO лишь постольку, поскольку облегчает/ускоряет индексацию страниц. Также возрастает шанс того, что веб-страницы проиндексируются до того, как ваши конкуренты смогут скопировать контент, опубликовав его у себя на сайте.

В каком еще формате бывает карта сайта и почему её делают в формате XML

Зачем нужна карта сайта, мы разобрались. Теперь давайте рассмотрим, в каких форматах её можно сделать:

  1. В формате html. Создается в виде обыкновенной страницы с адресами, ведущими на главные разделы ресурса. Такой тип карты помогает быстро сориентироваться, и рассчитан в большей степени на людей, чем на поисковых роботов. В HTML sitemap можно поместить ограниченное число ссылок (не более 100), ведь если их окажется больше, то не все они попадут в индекс. Или же поисковые роботы могут и вовсе исключить такую страницу из поиска за чрезмерное число URLов, пусть даже и внутренних.
  2. Создание xml-файла sitemap. Здесь нет слишком критичных ограничений по количеству ссылок, а поисковики лучше его индексируют, ведь файл sitemap xml-формата содержит полную информацию в понятном для робота виде. Особенно он важен для проектов, где имеются сотни и тысячи документов одинаковой важности, и размещение всех ссылок на них необходимо. В сайтмап такого типа есть возможность разместить до 50 тысяч URLов и помимо этого можно выставить частоту обновлений и приблизительный приоритет (priority), чего не скажешь о карте в формате HTML. Именно по этим причинам сайтмап почти всегда создают в xml.

Вот еще инфа об этом файле:

Как сделать правильный sitemap

Рассмотрим, как сделать правильную xml-карту. Здесь должны быть соблюдены следующие требования:

Google знает, как создать огромный файл Sitemap

Не секрет, что так называемая «Карта сайта» имеет ограничение на количество добавляемых в нее ссылок. Этот лимит равен 50 тыс. URL. Вместе с тем, Джон Мюллер убежден, что нет ничего сложного, чтобы обойти эту цифру:

По словам официального представителя Google, для этого достаточно создать несколько отдельных файлов Sitemap, которые в сумме будут содержать более 50 тыс. ссылок на страницы сайта. После этого такие «подфайлы» необходимо будет объединить в один материнский файл Sitemap. Джон назвал его весьма красноречиво: « файл Sitemap для файлов Sitemap». Таким вот нехитрым способом можно обойти упомянутый лимит.

Пользоваться таким приемом Гуглмен также рекомендует в случае, если общее количество URL меньше 50 тыс., однако веб-мастер, к примеру, хочет создать отдельную «Карту сайта» для каждого раздела своего ресурса.

Кроме того, завершая очередной видеоурок «SEO Snippets», Джон Мюллер посоветовал владельцам сайтов позаботиться о том, чтобы файлы Sitemap создавались в автоматическом режиме самим сервером. Эксперт Google убежден, что это даст возможность поисковым роботам гораздо оперативнее сканировать новый контент на страницах веб-ресурса.

Создайте Google Sitemap для своего сайта и избавьтесь, тем самым, от ряда проблем

Содержание статьи:

Автор: Герман Дрост
Перевод: Всеволод Козлов

Укомплектовав свой сайт файлом Google Sitemap, Вы убиваете сразу двух зайцев: во-первых, Вы можете быть уверены в том, что Google проиндексирует все имеющиеся в этом файле страницы Вашего сайта, во-вторых, Google будет регулярно сканировать этот файл на наличие новых страниц для индексации.

В этой статье мы обсудим ряд вопросов, касающихся Google Sitemap:

  1. Преимущества, получаемые вследствие внедрения Google Sitemap в свою деятельность;
  2. Кому следует это использовать;
  3. Как это работает;
  4. Как создать Google Sitemap для своего сайта;
  5. Как создать динамический XML -файл Google Sitemap;
  6. Инструменты для генерации файла Google Sitemap от сторонних производителей.

Преимущества, получаемые вследствие внедрения Google Sitemap в свою деятельность:

  1. Ускорение процесса обнаружения и добавления страниц сайта в индекс Google.
  2. Быстрое нахождение Google’ом претерпевших изменения страниц сайта.
  3. Обеспечение более быстрого попадания сайта в результаты поисковой выдачи Google.
  4. Помощь Google в пополнении его индекса свежим контентом, вследствие чего пользователи Google получают в ответ на свои поисковые запросы актуальный и свежий контент.

Кому следует это использовать?

Использовать Google Sitemap может каждый сайтовладелец независимо от того, сколько на сайте страниц одна или миллион. Но всё-таки необходимее всего использовать Google Sitemap владельцам тех сайтов, страницы которых претерпевают очень частые изменения.

Обычно бывает так, что определённое количество страниц сайта не индексируется, хотя ссылки, ведущие на них, корректно распознаются поисковыми роботами. Причина этому банальна – расположение ссылок на эти страницы в глубине сайта, т.е. поисковый робот не доходит до этих ссылок, соответственно не находит эти страницы. Избежать данной проблемы можно, воспользовавшись Google Sitemap.

Запомните: использование Google Sitemap не даёт преимущества при ранжировании!

Как это работает?

[url]
[loc]http://www.yoursite.com/[/loc]
[lastmod]2005-07-15[/lastmod]
[changefreq]monthly[/changefreq]
[priority]0.5[/priority]
[/url]

Ниже приводится описание каждой строки кода:

  • location – адрес веб-страницы, например http://www.yoursite.com
  • last modified – дата последней модификации страницы
  • change frequency – говорит Google о том, как часто Вы обновляете веб-страницу. Возможные значения: never, weekly, daily, hourly, monthly, yearly
  • priority – устанавливает приоритет, который Google назначит для конкретной веб-страницы. Возможные значения: 0.0 (низший приоритет), 1.0 (высший приоритет), 0.5 (средний приоритет).

Некоторые веб-страницы Вашего сайта могут быть особенно приоритетными, т.к. часто обновляются, например главная (домашняя) страницы сайта, страница статей, поэтому им необходимо присвоить высший приоритет…

Ещё раз повторюсь — Google Sitemap никак не влияет на ранжирование сайта.

Как создать динамический XML -файл Google Sitemap?

Если Ваш сайт состоит из 1000 страниц и более, то создавать Google Sitemap вручную будет слишком долго, муторно и неудобно.

К счастью, Google предоставляет собственный скрипт, называемый Sitemap Generator, позволяющий очень быстро сгенерировать необходимый файл. Этот скрипт написан на языке Python, он создаёт Sitemap для Вашего сайта, используя Sitemap Protocol. Этот скрипт может создавать Sitemaps из списка URL , директорий веб-сервера или из логов доступа.

Узнать больше информации относительно инструментов, предоставляемых Google’ом для веб-мастеров Вы можете тут: https://www.google.com/webmasters/sitemaps/login

Инструменты для генерации файла Google Sitemap от сторонних производителей

Google также предоставляет информацию о других sitemap-генераторах.

Например я использую бесплатный sitemap-генератор. Он лёгок в применении, и он быстро генерирует необходимый XML -код для сайта.

Ниже я привожу пошаговый план создания Google Sitemap при помощи одного из множества бесплатных Sitemap-генераторов:

  1. Зайдите на сайт http://www.sitemapspal.com и введите адрес Вашего сайта в форму, находящуюся в самом верху страницы сайта
  2. Нажмите Submit
  3. Скопируйте сгенерированный для Вашего сайта код и вставьте его в чистый текстовый файл блокнота (notepad)
  4. Сохраните этот текстовый файл под именем sitemap.xml
  5. Загрузите этот файл в корневую директорию Вашего сайта (туда, где находится домашняя страница сайта)
  6. В адресной строке браузера наберите полный путь к сгенерированному файлу, например http://www.yoursite.com/sitemap.xml. Если Вы всё сделали правильно, то Вы увидите список URL ’ов и никаких ошибок
  7. Теперь откройте свой Google Sitemap аккаунт и добавьте этот путь (из пункта 6) в соответствующую графу в аккаунте
  8. Проделывайте эти шаги применительно к каждому своему сайту.

Резюме

Google является крупнейшей и популярнейшей поисковой машиной во всём Интернете. Каждый год миллионы веб-сайтов попадают в индекс Google, что естественным образом усложняет задачу нахождения Вашего сайта в результатах поисковой выдачи (SERP). Поэтому создайте и начинайте использовать Google Sitemap прямо сейчас.

XML Sitemap: полное руководство по использованию

Файл sitemap.xml — это инструмент, который позволяет вебмастерам информировать поисковые системы о страницах сайта, доступных к индексации. Также, в XML карте можно указывать дополнительные параметры страниц: дата последнего обновления, частота обновлений и приоритет относительно других страниц. Информация в sitemap.xml может влиять на поведение поискового краулера и, в целом, на процесс индексации новых документов. Sitemap содержит в себе директивы включения страниц в очередь на обход и дополняет robots.txt, содержащий директивы исключения страниц.

В этом руководстве вы найдете ответы на все вопросы, касающиеся использования sitemap.xml.

Нужен ли мне sitemap.xml

Поисковые системы используют sitemap для поиска новых документов на сайте (это могут быть html-документы или медиа-контент), которые недоступны через навигацию, но их необходимо просканировать. Наличие ссылки на документ в sitemap.xml не гарантирует его сканирование или индексацию, но чаще всего файл помогает большим сайтам индексироваться лучше. К тому же, данные из XML карты используются при определении канонических страниц, если это специально не указано в теге rel=canonical.

Sitemap.xml важен для сайтов, где:

  • Некоторые разделы недоступны через навигационное меню.
  • Имеется множество изолированных страниц или плохо связанных между собой.
  • Используются технологии, слабо поддерживаемые поисковыми системами (например, Ajax, Flash или Silverlight).
  • Присутствует очень много страниц и есть вероятность, что поисковый краулер пропустит новый контент.

Если это не ваши случаи, то скорей всего sitemap.xml вам не нужен. Для сайтов, где каждая важная для индексации страница доступна в пределах 2х кликов, где для отображения контента не используются технологии JavaScript или Flash, где при необходимости используются канонические и региональные теги, и свежий контент появляется не чаще, чем на сайт заходит робот, в файле sitemap.xml нет необходимости.

Для небольших проектов при наличии проблемы лишь большого уровня вложенности документов, ее легко решить с помощью HTML карты сайта, не прибегая к использованию XML карты. Но если вы решили, что sitemap.xml вам все-таки нужен, то прочитайте это руководство полностью.

Техническая информация

  • Sitemap.xml является текстовым файлом формата XML. Однако, поисковые системы также поддерживают текстовый формат (см. следующий раздел).
  • Каждый сайтмап может содержать максимум 50 000 адресов и весить не более 50Мб (10Мб для Яндекса).
  • Можно использовать gzip-сжатие для уменьшения размера файла sitemap.xml и увеличения скорости его передачи. В таком случае используйте расширение gz (sitemap.xml.gz). При этом, ограничения по весу остаются для несжатых сайтмапов.
  • Местоположение файла Sitemap определяет набор URL-адресов, которые можно включить в этот Sitemap. Карта, содержащая адреса страниц всего сайта, должна располагаться в корне. Если сайтмап располагается в папке, то и все URL в этом сайтмапе должны располагаться в этой папке или глубже (см. подробней).
  • Адреса в sitemap.xml должны быть абсолютными.
  • Максимальная длина URL — 2048 символов (1024 символа для Яндекса).
  • Спецсимволы в URL (типа амперсанда «&» или кавычек) должны маскироваться в HTML-сущности.
  • Указанные в карте страницы должны отдавать 200 http-код статуса.
  • Перечисленные в карте адреса не должны быть закрыты в файле robots.txt или в meta-robots.
  • Sitemap не должен быть закрыт в robots.txt, иначе поисковая система его не просканирует. Сам файл может находиться в индексе, это нормально.

Форматы XML карт

Поисковые системы поддерживают простой текстовый формат карты сайта, где просто списком перечислены URL-адреса страниц без дополнительных параметров. В таком случае файл должен иметь кодировку UTF-8 и иметь расширение .txt.

Также поисковиками поддерживается стандартный XML-протокол. Google дополнительно поддерживает сайтмапы для изображений, видео и новостей.

Пример файла Sitemap, содержащий только один адрес.

XML-теги
urlset (обязательный) — указывает стандарт текущего протокола.
url (обязательный) — родительский тег для каждого URL-адреса.
loc (обязательный) — URL-адрес документа, должен быть абсолютным.
lastmod — дата последнего изменения документа в формате Datetime.
changefreq — частота изменения страницы (always, hourly, daily, weekly, monthly, yearly, never). Значение этого тега является рекомендацией поисковым системам, а не командой.
priority — приоритетность URL относительно других адресов (от 0 до 1) для очередности сканирования. Если не указывается, то по умолчанию равна 0.5.

XML карта для изображений

Некоторые оптимизаторы вставляют в sitemap.xml ссылки на изображения аналогично ссылкам на html-документы. Так можно делать, но лучше для Google использовать расширение стандартного протокола и вместе с урлами отправлять дополнительную информацию об изображениях. Создавать XML карты изображений полезно, если картинки необходимо сканировать и индексировать, и при этом, они напрямую не доступны боту (например, используется JavaScript).

Пример карты сайта, содержащей одну страницу и принадлежащие ей изображения

XML-теги
image:image (обязательно) — информация об одном изображении. Максимум может использоваться 1000 изображений.
image:loc (обязательно) — путь к файлу изображения. Если используется CDN, то допустимо ссылаться на другой домен, если он подтвержден в панели для вебмастеров.
image:caption — подпись к изображению (может содержаться длинный текст).
image:title — название изображение (обычно короткий текст).
image:geo_location — место съемки.
image:license — URL лицензии изображения. Используется при расширенном поиске по картинкам.

XML карта для видео

Подобно карте для изображений, Google также имеет расширение sitemap протокола для видео, где можно указывать подробную информацию о видео-контенте, влияющую на отображение в поиске по видео. Видео-сайтмап необходим, когда на сайте используются видео, которые хостятся локально, и когда индексация этих видео затруднена из-за используемых технологий. Если вы на сайте внедряете видео из YouTube, то video-sitemap здесь не нужен.

Файл Sitemap для новостей

При наличии на сайте новостного контента и участии в Google Новостях полезно использовать Sitemap для новостей, так Google будет быстрей находить ваши свежие материалы и индексировать все новостные статьи. В этом случае Sitemap должен содержать только адреса страниц, опубликованных за последние 2 дня и содержать не более 1000 урлов.

Использование нескольких карт

При необходимости можно использовать несколько карт сайтов, объединяя их в один индексный сайтмап. Несколько sitemap.xml используются в случаях, когда:

  • На сайте используется несколько движков (CMS).
  • На сайте больше 50 000 страниц.
  • Необходимо настроить удобное отслеживание ошибок в разделах.

В последнем случае каждый большой раздел сайта имеет свой sitemap.xml и все они добавляются в панель для вебмастеров, где удобно наблюдать, в каком из разделов больше всего ошибок (см. раздел поиска ошибок в карте сайта).

Если у вас 2 и более сайтмапа, их необходимо объединить в индексный сайтмап, который выглядит также как обычный (за исключением наличия тегов sitemapindex и sitemap вместо urlset и url), имеет аналогичные ограничения и может ссылаться только на обычные XML карты (не на индексные).

Пример Sitemap Index:

sitemapindex (обязательный) — указывает стандарт текущего протокола.
sitemap (обязательный) — содержит информацию об отдельном sitemap.
loc (обязательный) — местоположение sitemap (в формате xml, txt или rss для Google).
lastmod — время изменения сайтмапа. Позволяет поисковикам быстро обнаруживать новые URL на сайтах больших размеров.

Как создать sitemap.xml

Методы создания XML Sitemap:

  • Внутренние средства CMS. Многие CMS уже поддерживают создание карты сайта. Чтобы это выяснить, почитайте документацию к вашей CMS, посмотрите пункты меню в администраторской панели или обратитесь в техподдержку движка. Загрузите на вашем сайте файл https://вашсайт.com/sitemap.xml, возможно он уже существует и динамически формируется.
  • Внешние плагины. Если в CMS нет функционала генерации карты сайта, и она поддерживает плагины, погуглите, какой из плагинов закрывает вопрос sitemap.xml для вашего движка и установите его. В некоторых случаях необходимо обратиться к программистам, чтобы они написали вам подобный плагин.
  • Отдельный скрипт на сайте. Зная протокол XML карты и технические ограничения, можно создать sitemap.xml самостоятельно, добавив скрипт генерации в CRON. Если вы не программист, используйте другие пункты этого списка.
  • Генераторы Sitemap. Существует множество генераторов sitemap.xml, которые сканируют ваш сайт и дают скачать готовую карту. Недостаток здесь в том, что при каждом обновлении сайта необходимо вручную генерировать сайтмап.
  • Парсеры. Десктопные программы, предназначенные для технического анализа сайта, обычно предоставляют возможность скачать sitemap.xml, сгенерированный на основе просканированных страниц. Работает аналогично генераторам sitemap, только запускается локально на своей машине.

Популярные онлайн-генераторы карты сайта

XML-Sitemaps.com

Позволяет получить sitemap.xml в несколько кликов. Поддерживает форматы XML, HTML, TXT и GZ. Удобно использовать для небольших сайтов (до 500 страниц).

XML Sitemap Generator

Похожий генератор, но имеет чуть больше настроек и позволяет создать карту до 2000 страниц бесплатно.

My Sitemap Generator

Имеет множество настроек, позволяет импортировать URL-адреса из CSV-файла. Бесплатно сканирует до 500 урлов.

Check Domains

Не имеет лимитов на количество страниц для сканирования. Но для больших сайтов процесс генерации может подвисать на несколько десятков минут.

Локальные программы для генерации XML Sitemap

G-Mapper Sitemap Generator

Бесплатная десктопная версия генератора карты сайта под Windows.

Screaming Frog SEO Spider

Гибкий инструмент генерации карты сайта с множеством настроек. Удобно, если вы уже пользуетесь скримин фрогом для других SEO-задач. После сканирования сайта используйте пункт меню Sitemaps -> Create XML Sitemap.

Netpeak Spider

Менее гибкое, но тоже удобное решение для быстрой генерации sitemap.xml. После сканирования сайта необходимо использовать пункт меню Инструменты -> Генерация Sitemap.

Создание Sitemap XML на WordPress

Yoast SEO
Помимо прочих функций, полезных для SEO, позволяет генерировать sitemap.xml.

Google XML Sitemaps
Простой плагин для генерации Sitemap на WordPress.

WP Sitemap Page
Еще один плагин для WordPress, если предыдущие не подошли.

Sitemap.xml должен обновляться сразу же, как на сайте появляются новые страницы. Однако, в случае, если на сайте страницы появляются часто и пачками, то Sitemap целесообразно генерировать примерно раз в час. Убедитесь, что в карту сайта не попадают дубли, несуществующие страницы или содержащие редирект. Например, страницы пагинации и сортировки в sitemap.xml включать не нужно. Идеальный sitemap состоит из страниц основных разделов и подразделов сайта и конечных узлов (статьи, карточки товара и пр).

Кириллические адреса в sitemap

Несмотря на то, что sitemap протокол позволяет использовать только ASCII символы в URL, Google и Яндекс поддерживают оба формата для кириллических адресов, кодированный и обычный. То же самое с IDN-доменами, можно использовать обычный формат и Punycode. Однако, для совместимости вашего sitemap.xml с различными поисковыми системами и сервисами, рекомендуется следовать протоколу, кириллические домены кодировать в Punycode-формат (используйте этот конвертер), и использовать маскирование для кириллических адресов страниц.

Необходимо использовать:
https://xn--80abucjiibhv9a.xn--p1ai/%D1%84%D0%BE%D1%82%D0%BE

Sitemap мультиязычного и мультирегионального сайта

Если ваш сайт является мультиязычным или мультирегиональным, то Google поддерживает разметку hreflang непосредственно в sitemap.xml. Для этого в карте необходимо использовать дополнительные теги xhtml:link с указанием hreflang.

Пример. Сайт использует два языка: русский и украинский. В таком случае sitemap.xml для одной из страниц будет выглядеть следующим образом.

Как видите, каждый языковый или региональный URL должен быть представлен в отдельном теге url. Чем больше языков на сайте, тем больше будет разрастаться этот sitemap.

Если у сайта имеется множество поддоменов, то каждый поддомен, как отдельный сайт, должен содержать свой sitemap.xml. В этом один из недостатков поддоменной структуры сайта.

Поиск ошибок в карте сайта

При создании XML карты сайта вебмастерами часто допускаются следующие ошибки:

  • URL ведет на страницу, http-код статуса которой отличный от 200 (например, страницы не существует или она редиректит на другую страницу). Необходимо оставить в sitemap.xml только существующие страницы.
  • URL ведет на страницу, которая закрыта от индексации в файле robots.txt. Здесь необходимо разобраться, ошибка в robots.txt или в sitemap.xml.
  • URL ведет на страницу, которая закрыта тегом meta-robots noindex. Ссылки в карте сайта должны вести только на страницы, которые доступны к индексации.
  • Ошибки, касающиеся ограничений или несоответствию стандартному протоколу.

Самый простой способ проверки сайтмапа — использовать Screaming Frog в режиме списка (меню «Mode» — «List»). Загружаете sitemap и программа сама проверит все урлы, в отчетах будет видно, какие отдаются коды статусов и закрыты ли адреса от индексации.

Также можно использовать анализатор файлов Sitemap от Яндекса. Здесь полезно проверять свои карты перед тем, как добавить их в панель для вебмастеров. А после добавления карты в панель поисковые системы будут сообщать о наличии дополнительных ошибок уже после того, как просканируют урлы.

Рекомендуемый алгоритм проверки на ошибки:

  • Просканировать XML Sitemap с помощью Screaming Frog, избавиться от всех ошибок.
  • Протестировать карту сайта через инструмент Яндекса или в Google Search Console.
  • Добавить ссылку на карту в robots.txt и в панель для вебмастеров Яндекса и Google Search Console.
  • Периодически мониторить раздел в панели с XML картой.

Sitemap.xml при переходе сайта на HTTPS

При переходе сайта на HTTPS меняется главное зеркало и необходимо проверить, что у вас соблюдаются следующие правила:

  • Новый sitemap.xml содержит адреса с префиксом HTTPS.
  • Все старые сайтмапы удалены из панелей для вебмастеров и файла robots.txt прежней версии сайта.
  • Sitemap.xml на http-версии сайта редиректит 301 кодом статуса на новый sitemap.xml на https-версии.
  • На сайте настроен постраничный 301 редирект на новую версию.

Разница поддержки XML Sitemap в Google и Яндексе

Возможности Google Яндекс
Максимальный размер sitemap.xml 50 Мб 10 Мб
Максимальная длина URL 2048 симв. 1024 симв.
Поддержка Sitemap для изображений и видео есть нет
Новостной Sitemap есть нет
Использование кириллических урлов можно можно
Разметка языковых версий страниц есть нет
Поддержка RSS/Atom фидов есть нет

Если это руководство не дало ответ на ваш вопрос, задайте его в комментариях.

Какие действуют ограничения на Google Maps API?

Если конкретнее — количество загрузок АПИ самих карт и количество обращений к серверам геокодинга. Раньше помниться в документации (где-то месяца полтора назад) читал что лимиты при использовании JS Библиотеки считаются на клиента, а не для хоста в целом. Сейчас же не могу этого найти.

Вообще интересует личный опыт, насколько хватает выделенного количества запросов для ваших ресурсов?

  • Вопрос задан более трёх лет назад
  • 8357 просмотров

Библиотеки считаются на клиента, а не для хоста в целом.

Странно, но в использовании карты говорится о сайте, а не о клиенте: «For-profit web sites are permitted to generate up to 25 000 map loads per day using the Google Maps JavaScript API v3». К тому же нужно быть ну очень настойчивым пользователем чтобы загрузить карту 25000 раз.

К сожалению в лимит я еще не упирался, но теоретически возможно это можно проверить: открываем 10 вкладок на тестовом хосте и на js раз в 10 секунд перегружаем странцу с картой: приблизительно за 6 часов вы достигните лимита, если Вас не посчитают ботом или лимит на текущий дент не сбросится.

Вот в том то и дело, что раньше лимиты были вроде бы намного более мягкими — для геокодинга точно помню 2500 запросов в сутки от одного пользователя (что бы не допустить массовой обработки данных и т.д.)

Сейчас же судя по всему этот же лимит действует для одного хоста.

Просто на сервисе есть острая необходимость в geocoding api, но лимит в 2500 запросов это как-то уж сильно мало. Потому и интересуюсь реальным опытом использования подобных вещей на популярных сайтах.

Специалисты Google объяснили, почему не все URL из Sitemap индексируются

Наличие файла Sitemap не является гарантией того, что поисковая система проиндексирует все URL, находящиеся в нем. Объяснения по этому поводу были обнародованы в издании Search Engine Roundtable, пригласившем представителя Google Гэри Илльеса (Gary Illyes) прокомментировать вопросы вебмастеров по этому поводу.

Илльес взял в качестве примера вопрос отраслевого специалиста, заданный на специализированном форуме в Группах Google. Суть вопроса примерно такова:

Вебмастер создал файл Sitemap, но только незначительная часть внесенных в него URL-ов страниц была проиндексирована. В общей сложности в файле около 40 тысяч страниц, а поисковик проиндексировал лишь 100. Решив, что это случилось в результате какого-то сбоя, вебмастер повторно сообщил Google о наличии файла Sitemap, однако никаких изменений не последовало. Поскольку файл Sitemap создан корректно, у специалиста возникло недоумение, чем вызван «отказ» добавлять указанные страницы в индекс. Свой вопрос он опубликовал на странице.

В ответной публикации Гэри Илльес рассказал, что корректность составления файла Sitemap не является гарантией того, что все указанные в нем страницы попадут в индекс Google. Пользователи должны расценивать файл Sitemap, как вспомогательное средство, наличие которого позволяет ускорить обнаружение контента на сайте. Страницы будут проиндексированы и без файла Sitemap он необходим лишь для того, чтобы ускорить работу краулеров.

Другими словами, Sitemap лишь уменьшает время на индексирование алгоритмами сканирования Googlebot, но не задает им указание, какие URL-ы индексировать. Гэри Илльес подчеркнул, что алгоритмы поисковика могут «отсеять» некоторые страницы, внесенные в файл Sitemap. Специалист Google не предоставил подробного объяснения, по какому принципу отбраковываются адреса, но указал, что обычно исключаются страницы, содержащие малозначительный контент.

К этому можно добавить, что специалисты поисковой службы Яндекс также выступили с подобным заявлением. В нем утверждается, что Яндекс использует примерно такой же подход, как в Google. Яндекс учитывает файл Sitemap, но его наличие не гарантирует добавление в индекс поисковика всех адресов, указанных в нем.

К этому стоит добавить, что с апреля 2013 года Яндекс предоставил для веб-мастеров сервис для работы с файлами Sitemap, а также возможность просматривать историю индексирования сайтов. Для ознакомления с этой услугой можно перейти на страницу API Яндекс.Вебмастера, расположенную по адресу

sitemaps.org

Вопрос. Как представить URL-адрес в файле Sitemap?

В XML-файлах для всех значений данных (включая URL-адреса) маскирование принято использовать для следующих символов: амперсанд (&), одинарная кавычка (‘), двойная кавычка («), знак «меньше» ( ). Кроме того, Вы должны убедиться в том, что все URL-адреса соответствуют стандарту RFC-3986 для URI, стандарту RFC-3987 для IRI и XML-стандарту. Если для создания URL-адресов используются сценарии, маскирование символов в URL-адресе обычно является частью этого сценария. Однако для них все равно необходимо применять маскирование символов. Например, следующий сценарий «python» использует маскирование http://www.primer.ru/view?w >2

В приведенном выше примере результирующим является следующий URL-адрес:

Вопрос. Имеет ли значение метод кодирования символов, который используется для создания моих файлов Sitemap?

Да. Для файлов Sitemap должна использоваться кодировка UTF-8.

Вопрос. Как указать время?

Используйте кодировку W3C Datetime для меток времени «lastmod» и всех других дат и времен в этом протоколе. Например, 2004-09-22T14:12:14+00:00.

Эта кодировка позволяет опустить сегмент времени формата ISO8601; например, использование формата 22-09-2004 также допустимо. Однако, если Ваш сайт часто изменяется, рекомендуется включить сегмент времени, чтобы сканеры получили более полную информацию о Вашем сайте.

Вопрос. Как рассчитать дату последнего изменения?

Для статических файлов это фактическая дата обновления файла. Для получения этой даты можно использовать команду «UNIX date»:

Для многих динамических URL-адресов можно легко рассчитать дату последнего изменения на основе даты изменения исходных данных или с помощью приближения на основе периодических обновлений (если применимо). Даже использование приблизительной даты или отметки времени может помочь сканерам избежать сканирования URL-адресов, которые не были изменены. Это позволяет снизить требования, предъявляемые к пропускной способности канала и к процессорам веб-серверов.

Вопрос. Куда поместить мой Sitemap?

Настоятельно рекомендуется поместить файл Sitemap в корневой каталог на Вашем HTML-сервере по адресу http://primer.ru/sitemap.xml.

Возможно, в некоторых случаях нужно будет создать несколько файлов Sitemap для различных путей на Вашем сайте, — например, если полномочия доступа в Вашей организации установлены таким образом, что доступ с правом записи к различным каталогам предоставляется отдельно.

Если у Вас есть разрешение на загрузку файла http://primer.ru/path/sitemap.xml, то предполагается, что у Вас также имеется разрешение размещать отчеты по метаданным по адресу http://primer.ru/path/.

Все URL-адреса, указанные в том или ином файле Sitemap, должны размещаться на том же хосте, что и файл Sitemap. Например, если файл Sitemap расположен по адресу http://www.primer.ru/sitemap.xml, в нем могут быть указаны URL-адреса из субдомена http://subdomen.primer.ru. Если файл Sitemap расположен по адресу http://www.primer.ru/mojapapka/sitemap.xml, в нем могут быть указаны URL-адреса из субдомена http://www.primer.ru.

Вопрос. Какой размер файла Sitemap является допустимым?

Размер файлов Sitemap не должен превышать 50 МБ (52428800 байт), и эти файлы не должны включать более 50000 URL. Эти ограничения помогают исключить остановки веб-сервера при размещении очень больших файлов. Это означает, что если Ваш сайт содержит более 50000 URL или размер файла Sitemap превышает 50 МБ, необходимо создать несколько файлов Sitemap и использовать файл индекса Sitemap. Необходимо использовать файл индекса Sitemap даже для небольшого сайта, если предполагается, что количество URL превысит 50000 или размер файла будет больше 50 МБ. В файле индекса Sitemap может быть перечислено не более 50000 файлов Sitemap. Размер этого файла не может превышать 50 МБ. Кроме того, для сжатия файлов Sitemap можно использовать архиватор gzip.

Вопрос. На моем сайте десятки миллионов URL-адресов, можно ли передать только те из них, которые были изменены недавно?

Можно перечислить часто изменяемые URL-адреса лишь в некоторых файлах Sitemap, а затем использовать тег lastmod в файле индекса Sitemap для идентификации этих файлов Sitemap. После этого поисковые системы могут последовательно сканировать только измененные файлы Sitemap.

Вопрос. Что нужно делать после создания файла Sitemap?

После создания файла Sitemap сообщите о нем поисковым системам, передав его напрямую, проверив связь с ними или добавив местоположение файла Sitemap в файл robots.txt.

Вопрос. Необходимо ли полностью указывать URL-адреса в Sitemap?

Да. Необходимо включить протокол (например, HTTP) в Ваш URL-адрес. Кроме того, необходимо включить концевую косую черту, если этого требует Ваш веб-сервер. Например, адрес http://www.primer.ru/ является допустимым URL-адресом для файла Sitemap, а адрес www.primer.ru — нет.

Вопрос. В URL-адресах моего сайта используются оба префикса «http» и «https». Нужно ли перечислять оба варианта?

Нет. Укажите в своих файлах Sitemap только одну версию URL-адреса. Добавление нескольких версий URL-адреса может привести к неполному сканированию Вашего сайта.

Вопрос. URL-адреса на моем сайте включают идентификаторы сеанса. Нужно ли удалять эти идентификаторы?

Да. Включение идентификаторов сеансов в URL-адреса может привести к неполному и излишнему сканированию Вашего сайта.

Вопрос. Влияет ли положение URL-адреса в файле Sitemap на его использование?

Нет. Положение URL в файле Sitemap не влияет на то, как он будет использоваться или рассматриваться поисковыми системами.

Вопрос. На некоторых станицах моего сайта используются фреймы. Нужно ли включать URL-адреса набора фреймов или URL-адреса содержания фреймов?

Включите оба URL-адреса.

Вопрос. Можно ли использовать архиватор zip для моих файлов Sitemap, или их можно сжимать только с помощью архиватора gzip?

Используйте архиватор gzip для сжатия файлов Sitemap. Помните, что размер файла Sitemap (как в сжатом, так и в несжатом виде) не должен превышать 50 МБ.

Вопрос. Будет ли параметр приоритетности в XML-файле Sitemap влиять на рейтинг моих страниц в результатах поиска?

Параметр «приоритетность» в файле Sitemap используется для того, чтобы определить очередность обработки URL в пределах Вашего собственного сайта и не влияет на рейтинг страниц в результатах поиска.

Вопрос. Существует ли XML-схема, по которой можно проверить мой XML-файл Sitemap?

Да. XML-схема для файлов Sitemap приведена на странице http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd, а схема для файлов индекса Sitemap — на странице http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd. Дополнительную информацию о проверке файлов Sitemap см. здесь.

Вопрос. Куда мне обратиться, если у меня возникли другие вопросы по поводу использования протокола или процедуры отправки сведений о размещении файла Sitemap?

Обратитесь к доступной документации поисковых систем, чтобы получить дополнительную информацию относительно отправки сведений о размещении файла и о работе с файлами Sitemaps.

Ограничение размера файла Sitemap google sitemap.xml

может ли кто-нибудь сообщить мне ограничение памяти (МБ) размера файла Sitemap google sitemap.xml.

Согласно последнему обновлению: 01 января 2020 г.

Файл любого файла Sitemap ограничен 50 МБ (несжатым) с максимальным 50 000.

И файл индекса Sitemap (не путать с файлом Sitemap) может включать до 50 000.

Таким образом, для одного файла индексации файла максимальная емкость URL-адресов и хранилища может быть рассчитана следующим образом:

в терминах URL-адресов:

50 000 sitemaps = (50 000 * 50 000) URL = 2 500 000 000 URL

Примечание. Google поддерживает несколько форматов Sitemap, но все форматы ограничивают одну карту сайта 10 МБ (без сжатия) и 50 000 URL-адресов. Пожалуйста, также ссылайтесь на схему файла индекса sitemap как на здесь.

50 MB + ( 50 000 sitemaps * 50 MB) = 2500 050 MB = > 2.3 ТБ

Таким образом, мы можем иметь максимальные 2500 миллионов URL-адресов, отправив один индексный файл карты сайта, и мы можем иметь около 2 ТБ для хранения всех файлов Sitemap, которые включены в индексном файле карты сайта.

Так как мы можем предоставить до 500 файлов с файлами sitemap в Google см. здесь, вывод следующий:

(500 * 2,500) миллионы URL-адресов ограничены размером ( 500 * 2) TB

Справка:

Схема файлов индекса Sitemap

Google поддерживает несколько форматов Sitemap, таких как XML, RSS, mRSS, Atom 1.0 и Text.

Все форматы ограничивают одну карту сайта 10 МБ (без сжатия) и 50 000. Если у вас есть больший файл или больше URL-адресов, вам придется разбивать список на несколько файлов Sitemap. Вы можете при необходимости создать файл индекса sitemap (файл, который указывает на список файлов Sitemap) и отправить этот единственный файл индекса в Google. Вы можете отправить в Google несколько файлов Sitemap и/или файлов Sitemap.

Насколько большой может быть мой Sitemap?: Sitemaps.org

Файлы Sitemap должны быть не более 50 МБ (52 428 800 байт) и могут содержать максимум 50 000. Эти ограничения помогают гарантировать, что ваш веб-сервер не увязнет, ​​обслуживая очень большие файлы. Это означает, что если ваш сайт содержит более 50 000 URL-адресов или ваш файл Sitemap больше 50 МБ, вы должны создать несколько файлов Sitemap и использовать файл индекса Sitemap. Вы должны использовать файл индекса Sitemap, даже если у вас есть небольшой сайт, но планируете увеличивать более 50 000 URL-адресов или размер файла 50 МБ. Файл индекса Sitemap может содержать до 50 000 файлов Sitemap и не должен превышать 50 МБ (52 428 800 байт). Вы также можете использовать gzip для сжатия файлов Sitemap.

Карта сайта (Sitemap) для Google и Яндекс

Привет, коллеги! В этом посте я расскажу вам как создать и настроить Sitemap (карта сайта) для WordPress, для поисковых систем таких как Яндекс, Google, Bing, Поиск@Mail.Ru. Не нужно путать XML с HTML. Первый подходит для поисковиков, а второй предназначен преимущественно для пользователей. Что представляет из себя карта сайта XML вы наверное уже знаете.

Плагин Google XML Sitemaps для WordPress

Напомню : это список страниц вашего сайта/блога, который не видят ваши посетители, а хорошо видна только поисковым системам. XML файл Sitemap позволяет сообщить Google и Yandex о страницах вашего сайта, чтобы они гарантированно попали в индекс поисковых систем.

XML Sitemaps может помочь поисковикам определить местонахождение страниц сайта, блога, время их последнего обновления, частоту обновления и важность относительно других страниц веб-ресурса для того, чтобы поисковая машина смогла более разумно индексировать сайт.

Что такое Sitemap?

Карта сайта — это способ организации веб-сайта с указанием URL-адресов и данных в каждом разделе. Документ XML содержит инструкции для роботов поисковых систем.

Sitemap — XML-файлы с информацией для поисковых систем (таких как Google, Яндекс, Bing, Поиск@Mail.Ru) о страницах веб-сайта, которые подлежат индексации. Проще говоря, это URL-адреса сайта, отправляемые вами поисковикам.

Яндекс поддерживает форматы XML и TXT. Формат XML позволяет передавать дополнительную информацию.

Как создать файлы Sitemap для сайта WordPress?

Создать карту блога или сайта на WordPress нам поможет плагин Google XML Sitemaps. Который генерирует XML файл, обновляет его и так далее. Вам достаточно плагин установить, настроить его и можно о нём забыть. Установка Google XML Sitemaps стандартная.

Плагин Google XML Sitemaps Вордпресс

Один из лучших плагинов WP. Он будет предоставлять полную XML-карту сайта для поисковых систем. Его установили уже более 24 243 146 раз.

Плагин Google XML Sitemaps

Используйте этот плагин, он значительно улучшит SEO. Он создаст специальную XML-карту сайта и поможет таким поисковым системам, как Google, Bing, Яндекс и Мейл ру лучше индексировать ваш веб — ресурс. С такой картой сайта сканерам намного проще увидеть полную структуру вашего сайта и извлечь ее более эффективно. Плагин поддерживает все виды страниц, сгенерированных WordPress, а также пользовательские URL.

Кроме того, он уведомляет все основные поисковые системы каждый раз, когда вы создаете сообщение о новом контенте. Модуль совершенно бесплатен и переведён на русский язык (правда не полностью, но самое важное переведено).

Установите плагин обычным способом, используя функцию Плагины — Добавить новый. В поле поиска введите его название Google XML Sitemaps:

Установка плагина из админ панели

Настройка XML Sitemaps

После успешной установки и активации плагина, его нужно настроить. В разделе «Настройки» нажмите на XML-Sitemap :

Настройки xml sitemap

Откроется страница: Генератор XML-карты сайта для WordPress, где вам нужно её настроить. На этой странице, в самом вверху, вы увидите ссылку на вашу карту:

Ссылка на xml карту вашего сайта

Вы можете на неё нажать и посмотреть как она родная выглядит:

XML-карта сайта для поисковых систем

Важные настройки на нашем родном и могучем русском языке, поэтому вам не составит ни какого труда во всем разобраться. Какие настройки можно произвести? Разработчик плагина указывает что, значения по умолчанию подходят для большинства сайтов. Но всё же, каждый пользователь должен решить сам. Указать какие категории исключить из карты, содержание карты сайта, приоритеты, частоту изменений и так далее. Примерно, вот так, должно быть:

Настройки для своего сайта карты xml

Архивы, метки и страницы авторов включать в карту сайта не надо. Хотя я лично теги/метки в карте использую.

После всех настроек обязательно нажмите «Обновить параметры». Готово. Дальнейшее действие это — добавить файл Sitemap в вебмастере поисковых систем, чтобы ускорить индексирование сайта вордпресс. А также прописать ссылку на карту в robots.txt.

Итак, какие именно страницы необходимо включить в карту? По соображениям SEO рекомендуется включать лишь те страницы, которые хотелось бы видеть в поиске.

Теперь при написание статьи, плагин будет сообщать поисковым системам (не всем, а только Гугле, Bing, Yahoo и Ask.com) об обновление вашего блога. Плагин автоматически обновит вашу карту сайта, если вы опубликуете сообщение, так что больше ничего не нужно делать

Для остальных поисковых систем делать нужно вот это — читайте здесь.

Обратите внимание, друзья, функция XML Sitemaps есть в SEO плагинах All in One SEO Pack и Yoast SEO.

Всего доброго и до новых встреч. Пока, пока!

Топ-пост этого месяца:  MongoDB. Урок 1. Установка MongoDB
Добавить комментарий