Webarchive — веб-архив всего интернета и сайтов или машина времени на archive.org


Содержание материала:

Что такое веб-архив

21 октября 2020 года. Опубликовано в разделах: Азбука терминов. 29545

Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA

Это настоящая библиотека, в которой каждый желающий может открыть интересующий его веб-ресурс, и посмотреть на его содержимое, на ту дату, в которую вебархив посетил сайт и сохранил копию.

Знакомство с archive org или как Валерий нашел старые тексты из веб-архива
В 2010-м году, Валерий создал сайт, в котором он писал статьи про интернет-маркетинг. Одну из них он написал о рекламе в Гугл (AdWords) в виде краткого конспекта. Спустя несколько лет ему понадобилась эта информация. Но страница с текстами, некоторое время назад, была им ошибочно удалена. С кем не бывает.

Однако, Валерий знал, как выйти из ситуации. Он уверенно открыл сервис веб-архива, и в поисковой строке ввел нужный ему адрес. Через несколько мгновений, он уже читал нужный ему материал и еще чуть позже восстановил тексты на своем сайте.

История создания Internet Archive

В 1996 году Брюстер Кайл, американский программист, создал Архив Интернета, где он начал собирать копии веб-сайтов, со всей находящейся в них информацией. Это были полностью сохраненные в реальном виде страницы, как если бы вы открыли необходимый сайт в браузере.

Данными веб-архива может воспользоваться каждый желающий совершенно бесплатно. Создавая его, у Брюстера Кайла была основная цель – сохранить культурно-исторические ценности интернет-пространства и создать обширную электронную библиотеку.

В 2001 году был создан основной сервис Internet Archive Wayback Machine, который и сегодня можно найти по адресу https://archive.org . Именно здесь находятся копии всех веб-сервисов в свободном доступе для просмотра.

Чтобы не ограничиваться коллекцией сайтов, в 1999 году начали архивировать тексты, изображения, звукозаписи, видео и программные обеспечения.

В марте 2010 года, на ежегодной премии Free Software Awards, Архив Интернета был удостоен звания победителя в номинации Project of Social Benefit.

С каждым годом библиотека разрастается, и уже в августе 2020 года объем Webarchive составил 502 миллиарда копий веб-страниц. Все они хранятся на очень больших серверах в Сан-Франциско, Новой Александрии и Амстердаме.

Все про archive.org: как пользоваться сервисом и как достать сайт из веб-архива

Брюстер Кайл создал сервис Internet Archive Wayback Machine, без которого невозможно представить работу современного интернет-маркетинга. Посмотреть историю любого портала, увидеть, как выглядели определенные страницы раньше, восстановить свой старый веб-ресурс или найти нужный и интересный контент — все это можно сделать с помощью Webarchive.

Как на archive.org посмотреть историю сайта

Благодаря веб-сканеру, в библиотеке веб-архива, хранится большая часть интернет-площадок со всеми их страницами. Также, он сохраняет все его изменения. Таким образом, можно просмотреть историю любого веб-ресурса, даже если его уже давно не существует.

Для этого, необходимо зайти на https://web.archive.org/ и в поисковой строке ввести адрес веб-ресурса.

После, некоторого времени, веб-архив выдаст календарь с датами изменений данной страницы и информацию о его создании и количестве изменений за весь период.

Согласно полученной информации, можно узнать, что главная страница нашего сайта была впервые найдена сервисом 24 мая 2014 года. И, с этого времени, по сегодняшний день, ее копия сохранялась 38 раз. Даты изменений на странице отмечены на календаре голубым цветом. Для того, чтобы посмотреть историю изменений и увидеть как выглядел определенный участок веб-ресурса в интересующий вас день, следует выбрать нужный период в ленте с предыдущими годами, и дату в календаре из тех, что предлагает сервис.

Через мгновение, веб-архив откроет запрашиваемую версию на своей платформе, где можно увидеть как выглядел наш сайт в самом первоначальном виде.

Далее, с помощью календаря со стрелками, в самом верху экрана, можно перелистывать страницы, по хронологии их изменений, чтобы отследить, как изменялся внешний вид и их содержание.

Таким образом, можно нырнуть в прошлое и увидеть все его перемены, которые с ним происходили за все время его существования.

Почему вы можете не узнать на Webarchive, как выглядел сайт раньше
Случается такое, что веб-площадка не может быть найден с помощью сервиса Internet Archive Wayback Machine. И происходит это по нескольким причинам:

  • правообладатель решил удалить все копии;
  • веб-ресурс закрыли, согласно закону о защите интеллектуальной собственности;
  • в корневую директорию интернет-площадки, внесен запрет через файл robots.txt

Для того, чтобы сайт в любой момент был в веб-архиве, рекомендуется принимать меры предосторожности и самостоятельно сохранять его в библиотеке Webarchive. Для этого в разделе Save Page Now введите адрес веб-ресурса, который нужно заархивировать, нажмите кнопку Save Page.

Таким образом, для безопасности и сохранности всей информации, необходимо такую процедуру повторять с каждым изменением. Это даст 100% гарантию сохранения ваших страниц на долгое время.

Как недействующий сайт восстановить из веб-архива

Бывают разные ситуации, когда браузер выдает, что такого-то веб-сервиса больше нет. Но данные нужно извлечь. Поможет Webarchive.

И для этого существует два варианта. Первый подходит для старых площадок небольшого размера и хорошо проиндексированных. Просто извлеките данные нужной версии. Далее просматривается код страницы и дошлифовываются вручную ссылки. Процесс несколько трудозатратный по времени и действиям. Поэтому существует другой, более оптимальный способ.

Второй вариант идеален для тех, кто хочет сэкономить время и решить вопрос скачивания, максимально быстро и легко. Для этого нужно открыть сервис восстановления сайта из Webarchive – RoboTools. Ввести доменное имя интересующего портала и указать дату сохраненной его версии. Через некоторое время, задача будет выполнена в полном объеме, с наполнением всех страниц.

Как найти контент из веб-архива

Webarchive является замечательным источником для наполнения полноценными текстами веб-ресурсов. Есть множество площадок, которые по ряду причин прекратили свое существование, но содержат в себе полезную и нужную информацию. Которая не попадает в индексы поисковых систем, и по сути есть неповторяющейся.

Так, существует свободные домены, которые хранят много интересного материала. Все что нужно, это найти подходящее содержание, и проверить его уникальность. Это очень выгодно, как финансово – ведь не нужно будет оплачивать работу авторов, так и по времени – ведь весь контент уже написан.

Как посмотреть на сайт в прошлом: инструмент + способ восстановления

Сервис, который может показать, как выглядели сайты в прошлом, напоминает своеобразную машину времени в интернете. С его помощью можно перенестись на год, два или двадцать лет назад и увидеть, какими ресурсы были тогда. Зачем может понадобиться эта информация и как воспользоваться данным сервисом?

Для чего нужно искать старые версии сайтов

Причины, по которым может быть необходимо посмотреть сайт в прошлом времени, могут быть абсолютно разными. Часто это желание погрузиться в приятную ностальгию. Например, посмотреть, как раньше выглядели популярные площадки и соцсети. Или же посмотреть, как выглядел собственный сайт несколько лет назад. К счастью, существует инструмент, который позволяет это сделать, даже если сам ресурс уже давно не доступен.

Как это возможно? Если сайт существует в интернете хотя бы пару дней, он попадает в веб-архив. Инструмент сохраняет его код, благодаря чему, можно увидеть, как он выглядел даже много лет назад.

Причины, по которым возникает необходимость посмотреть порталы в прошлом времени:

  1. Отслеживание истории изменений. Такая потребность может возникать у копирайтеров или журналистов для подготовки нового контента. Также это может быть нужно для анализа конкурентов: можно проследить путь их развития и увидеть допущенные ошибки.
  2. Восстановление ресурса. Если пользователь забыл продлить домен или не сделал бэкап, веб-архив будет отличным вариантом восстановления.
  3. Поиск уникального контента. Если площадка больше не доступна, её контент становится уникальным. Можно использовать его полностью или частично, предварительно проверив уникальность.
  4. Увидеть необходимый контент, если страница уже недоступна. Например, пользователь добавил площадку в закладки, а через время оказалось, что её больше нет. Тогда посмотреть её содержимое можно только с помощью веб-архива.

Как узнать прошлое веб-ресурса с помощью archive.org

Чтобы узнать, как выглядел конкретный веб-ресурс ранее, можно воспользоваться сайтом для просмотра страниц в прошлом – a rchive.org. Для этого нужно выполнить следующее:

  1. Пройти по ссылке https://archive.org/.
  2. Ввести URL-адрес и нажать кнопку «Go».
  1. Выбрать интересующий период времени. Затем с помощью календаря найти нужную дату, навести на нее курсор мыши и выбрать время сохранения копии (в списке может быть как одна, так и несколько ссылок).

После этого откроется главная страница в том виде, какой она была в выбранный период.

Учитывайте, что кликабельными в календаре являются только дни, помеченные синим или зеленым цветом. Посмотреть, как выглядел сайт в даты без подсветки, не получится.

Если это страница Вконтакте

Аналогичным образом можно узнать содержимое страницы ВКонтакте. Достаточно указать на нее ссылку в соответствующем поле.

По сравнению с новостными или другими веб-ресурсами здесь будет меньше подсвеченных дат с сохранённым содержимым. Количество дат зависит от популярности страницы: у обычных пользователей их будет немного, в то время как у известных медиа-личностей – на порядок больше.

Дальнейшие действия такие же: надо выбрать любую из подсвеченных дат и перейти по кликабельной ссылке. В этой же вкладке откроется страница в ВКонтакте с актуальным на тот момент содержимым.

Как выглядели культовые сайты раньше

Для примера посмотрим, как выглядели популярные ресурсы раньше, а именно Яндекс, Google, YouTube, Википедия и VK. Все из них с течением времени претерпели кардинальные изменения в дизайне.

Поисковик Яндекс

Поисковую систему Яндекс официально анонсировали 23 сентября 1997 года. С тех прошло более 20 лет, и сегодня это одна из самых популярных поисковых систем в мире.

В веб-архиве первая сохраненная копия датируется 6 декабря 1998 года.

На тот момент выглядел Яндекс вот так:

Поисковик Google

Поисковая система Google была основа чуть позже – в 1998 году. Сейчас это самая популярная поисковая система в мире.

Первые сохраненные копии появились в веб-архиве в конце 1998 года. Например, 2 декабря Гугл выглядел вот так:

YouTube

Youtube начал свою работу в феврале 2005 года. Первые сохраненные в веб-архиве копии появились в конце апреля 2005 года. На то время сервис имел минималистичный дизайн, и видно, что он являлся не более, чем видеохостингом:

Википедия

Википедия появилась 15 января 2001 года. Сегодня она является наиболее крупным и популярным справочником в интернете и содержит более 40 миллионов статей, которые доступны на 301 языке.

В веб-архиве первая сохраненная копия Википедии датируется 27 июля 2001 года:

ВКонтакте

Популярная в России и других странах социальная сеть ВКонтакте была создана 10 октября 2006 года.

В веб-архиве первая сохраненная копия сайта датируется 8 ноября 2006 года. На нём видно, что сайт изначально был ориентирован на студентов и выпускников.


Можно ли восстановить сайт из вебархива?

При потере данных, восстановить свой сайт можно с помощью сайта https://webarchiveorg.ru/. Для этого нужно:

  • ввести URL-адрес;
  • выбрать нужный год, месяц и число;
  • нажать кнопку «Восстановить сайт».

Услуга является платной, поэтому перед восстановлением рекомендуется ознакомиться с тарифами. Точная стоимость зависит от количества сайтов и его страниц.

Выводы

С помощью веб-архива можно посмотреть, какой дизайн и контент были у сайтов раньше, что может быть необходимо для восстановления данных, анализа конкурентов, поиска интересного контента с исчезнувших ресурсов или просто ради интереса.

Руководство по Восстановлению сайта из Вебархива

Еще не зарегистрированы?

Восстановление из Webarchive — инструмент, который позволяет скачать полностью сайт из Вебархива (web.archive.org) за любую дату в формате HTML. Все картинки, стили и скрипты также будут сохранены (кроме подгружаемых с других ресурсов). Есть возможность выбирать даты для каждой конкретной страницы с предпросмотром.

Создание проекта

Вводим название проекта и переходим на следующий шаг к настройкам сбора. Тут есть чекбокс “Выбрать период”, чтобы скачать документы по установленной дате. Если чекбокс не будет активирован — система скачает документ по последней доступной дате.

Рекомендуем не включать этот чекбокс, если вы точно не знаете за какую дату вам нужна копия. Если домен, например, старый и вы точно знаете, за какую дату нужна копия, тогда просто выбираете в календаре:

Чекбоксы “Сделать пути относительными” и “Удалить счетчики статистики” рекомендуется всегда оставлять включенными — они помогут избежать различных проблем при переносе копии сайта на ваш сервер.

Далее, переходим на третий шаг и вводим адрес домена (без http и www), который нужно восстановить и после этого жмем “Добавить домен”:

Важно: на данный момент поддерживаются только проекты по 1 домену, поэтому если вам надо восстановить несколько сайтов, придется создать несколько проектов.

Далее нажимаем “Создать новый проект” и подтверждаем запуск.

Топ-пост этого месяца:  Нестандартные чекбоксы и радиокнопки на CSS3

Работа с результатами

После запуска, проект появится на листинге в разделе “Восстановление из Вебархива”. Вы можете проследить за статусом его выполнения. Когда проект будет готов появится кнопка “Скачать”, с помощью которой вы сможете скачать ZIP-архив с копией сайта на свой компьютер и потом загрузить его на хостинг.

Чтобы перейти в проект и просмотреть результаты, просто нажмите на название проекта. Перед вами откроется список скачанных файлов со столбцами:

  • Название файла
  • Тип файлов
  • Дата сохранения
  • Действия

Этот список вы можете отсортировать по любому столбцу. Также присутствует форма поиска по названию файла. Вы можете воспользоваться пагинацией или указать сколько результатов выводить на странице.

Вы можете кликнуть по URL-адресам выгруженных файлов — они доступны для просмотра и открываются в новой вкладке (откроется уже сохраненная на нашем сервере копия).

Если какие-то страницы скачались неправильно или не те, то для каждой из них можно выбрать другую дату копии, для этого нужно нажать в колонке “Действия” на иконку редактирования. Чуть подождав, откроется окно с выбором дат, за которые в Вебархиве есть копии. Нужно всего лишь установить чекбокс на дату, которая интересует:

Если других дат нет — значит в Вебархиве не содержится дополнительных копий выбранной страницы.

Дальше, чтобы восстановить сайт на своем сервере скачиваем ZIP-архив c проекта, просматриваем его и распаковываем по FTP в корневую директорию своего домена на хостинге:

После запуска сайта внимательно просмотрите как он работает, пройдитесь по всем страницам, проверьте работоспособность всех ссылок, кнопок, отображение стилей и картинок, так как бывает что в Вебархиве присутствуют не все страницы сайта и нужно что-то подправить.

Использование веб-архива и просмотр истории сайта

Webarchive – история всего интернета на одном сайте

Сайт web.archive.org имеет за собой большую и почти невыполнимую миссию – сохранить всю историю интернета. Причем информация в архиве выглядит как стандартная веб-страница. Данный ресурс может сохранить большое количество копий одного сайта за все время его существования. Так что по амбициям этот ресурс не уступает знаменитой Википедии.

Практическое использование веб-архива

В первую очередь данный архив интернета полезен тем, кто по каким-либо причинам не сделал копию собственного ресурса. В таком случае при непредвиденных обстоятельствах сохранится возможность восстановить свой сайт только с помощью веб-архива. Для этого необходимо будет отменить все ссылки от привязки к веб-архиву и сделать их прямыми для вашего сайта.

Также web.archive.org может быть полезен тем, кто ищет некий уникальный контент. Поскольку за время существования интернета «умерло» великое множество разнообразных страниц, на просторах архива можно будет отыскать действительно полезную информацию, которая с легкостью сможет пройти проверку на уникальность. Основная проблема заключается в том, что отыскать нужный контент в огромных «дебрях» archive.org довольно трудно. Необходимо четко представлять, что и где искать.

Очевидно, что через веб архив сайтов возможно пройти по «мертвым» ссылкам, даже если они уже исчезли из кеша Гугла или Яндекса.

Ну и для любителей поностальгировать существует возможность узнать, как менялась история любого сайта, который существовал за время работы web.archive.org. Ведь archive.org – это своеобразная «машина времени», в которой доступна история всего интернета. Своеобразный взгляд в прошлое.

История web.archive.org

Данный сервис начал свое существование в 1996 году. Но, что интересно, сам себя archive.org внес в базу лишь в последующем году.

Так выглядела стартовая страница ресурса в то время

Архив использует невероятный объем памяти (больше тысячи терабайт), включая аудио- и видеофайлы, а также страницы отсканированных книг. Можно отыскать не только веб-страницы ресурсов (которых уже насчитывается больше ста миллиардов), но и просмотреть телепередачи, которых уже давно нет в эфире. Такая функция называется «Waybackmachine»

Как попасть в веб-архив

Фактически попасть в базу данных этого ресурса очень просто. Сайт не должен содержать в своем файле robot.txt запрет на его индексацию роботом архива. Чаще всего такой запрет отображается так:

Также некоторые сайты archive.org может попросту не найти, поскольку они отсутствуют в базах данных. Чтобы повысить вероятность попадания в них, ссылки на ваш сайт должны быть размещены на других ресурсах, которые уже есть в базе данных архива.

Открытие мертвых ссылок

Веб архив не учитывает прямые изменения на сайте, поскольку он делает слепки любого ресурса беря за основу собственные таймеры и алгоритмы. Именно поэтому использовать сервис как доступ к временно неработающим ссылкам бесполезно. Тем более, что как Google, так и Yandex предоставляет возможность просмотра сохраненной копии из кеша.

Данный сервис представляет ценность именно для тех людей, которые хотят посмотреть уже несуществующую страницу.

Восстановление сайта без «бэкапа» и поиск нужного архива

По архивам можно перемещаться с помощью календарного меню вверху страницы. Синим кружком помечены даты, когда сделаны слепки. Нажав на него, можно увидеть точное время создания слепка и их количество в заданный день. Эта делается во избежание потери информации, поскольку данные в хранилищах со временем могут испортиться, а также отдельные копии могут быть битыми.

Нажав на просмотр любого слепка, вы перейдете на полностью рабочую страницу ресурса. То есть, все внутренние ссылки будут работать. Однако, сервис может неидеально воспроизвести оформление, а также могут исчезнуть некоторые элементы меню. Паниковать не стоит, поскольку код страницы идентичен вашему. Но простым копированием кода восстановить утерянную информацию не удастся. Поскольку веб хранилище само генерирует ссылки внутри каждого слепка, иначе вы бы перешли на актуальную версию, а не на историю сайта.

Чтобы заставить все работать, нужно удалить вступительную часть ссылки. Однако, во избежание рутинной работы сервис имеет инструмент замены внутренних ссылок на оригинальные. Чтобы воспользоваться им, нужно скопировать веб-адрес страницы с нужным слепком и в конце даты добавить конструкцию «id_».

Адрес должен иметь такой вид

Вставляем конструкцию «id_»

Далее возвращаем веб-адрес в строку и нажимаем Enter. Очевидно, что восстановление ресурса таким образом займет просто невероятное количество времени. Но когда выхода нет – выбирать не приходится. Чтобы никогда не пользоваться таким неудобным способом восстановления – лучше делайте бэкапы своего сайта по несколько раз в день. Это поможет уберечь ваши нервы от лишнего стресса.

Если вам нужно отобразить все страницы необходимого сайта, введите такой веб-адрес в строку браузера:

На странице, которая открылась, существует возможность отфильтровать файлы по разным форматам.

Уникальный контент из «мертвых» сайтов

Каждый день из интернета исчезают десятки и даже сотни разнообразных сайтов. Стоит отметить, что абсолютное большинство не представляет особой ценности, но в каждой реке можно найти много крупинок золота. Главное, чтобы полезные сайты имели хотя бы один работающий слепок в archive.org.

Поскольку информация из умерших сайтов поступенно перестает индексироваться поисковыми системами, такой контент становится уникальным (конечно, если он не был «сплагиачен» до этого). Выставив эту информацию на свой ресурс, вы станете ее правообладателем или первоисточником для поисковых систем. Главное, предварительно проверить ее на уникальность, чтобы не нарушить ничей копирайт. Но как именно отыскать подобные ресурсы среди гор мусора?

К счастью, существует один способ.

С помощью регистратора домена nic.ru можно получить список доменов, которые освободились или освободятся в скором времени. В таком списке можно увидеть количество архивов в Archive.org для каждого исчезнувшего домена, однако проверить наличие домена можно и в нескольких онлайн-сервисах. Например, в этом, http://www.seogadget.ru/wa или этом http://r-tools.org/page/tools/webarchive_checker.

Проверить наличие домена иностранного веб-адреса можно, скачав файл по ссылке: http://www.pool.com/Downloads/PoolDeletingDomainsList.zip

После этого нужно всего лишь просматривать информацию Webarchive с каждого ресурса, который вас заинтересовал. Безусловно, такой метод предполагает наличие внимательности, а также терпения, поскольку качество большинства данного контента будет низкопробным.

Web Archive: как посмотреть, как выглядел сайт раньше?

Интернет в привычном для нас виде появился 36 лет назад — за это время он развивался семимильными шагами, а сайты тысячи раз меняли свой дизайн и контент. Web archive представляет собой своеобразную машину времени, которой может воспользоваться каждый пользователь.

Что такое Web Archive?

Это бесплатный сервис, где собраны истории многих интернет ресурсов — их архивные копии. Причем речь идет не о скриншотах, а о полноценных страницах с изображениями, рабочими ссылками и стилевым оформлением.

Получение информации о том или ином домене предполагает не только интересное времяпровождение с отслеживанием эволюции веб-проекта, но еще и возможность:

  • узнать тематику сайта — архив интернета демонстрирует содержимое, благодаря чему легко определить нишу проекта;
  • посмотреть, как выглядел сайт раньше — это находка для охотников за б/у доменами;
  • определить, регистрировался ли до этого анализируемый домен — полезный инструмент для тех, кому принципиальна «стерильность» домена или для того чтобы избежать санкций поисковиков;
  • восстановить свой сайт, если вы почему-то не сделали резервное копирование.
  • отыскать уникальный контент — трудоемкая задача, которая может подарить вам десятки бесплатных статей;
  • увидеть удаленный текст из закладок — шансы найти нужную страницу достаточно высоки.

История создания архива интернета

Wayback Machine является одним из двух главных проектов archive.org. Этот некоммерческий сервис был создан в 1996 году Брюстером Кейлом. Машина времени сайтов имеет четкую цель: сбор и хранение копий ресурсов вместе со всем контентом для возможности свободного просмотра несуществующих или неподдерживающихся страниц в будущем. С 1999-го робот стал фиксировать еще и аудио, видео, иллюстрации, программное обеспечение.

База современного архива собиралась в течение 20 лет, у нее не существует аналогов. Статистика впечатляет: на сегодняшний день в сервисе находится 279 миллиардов страниц, 11 миллионов книг и статей, 100 тысяч программ и миллион картинок.


А знаете ли вы? Веб-архив сайтов часто имеет проблемы на законодательном уровне из-за нарушения авторских прав. По требованию правообладателей библиотека удаляет материалы из публичного доступа.

Как пользоваться веб-архивом?

Сервис очень удобный в применении. Пошаговая инструкция такова:

  1. Зайдите на главную страницу платформы.
  2. Введите в поле название интересующего вас сайта и нажмите Enter (в нашем случае это https://livepage.pro).
  3. Под указанным доменным именем демонстрируется основная информация: когда начинается история проекта, сколько слепков имеет сайт. В примере видно, что ресурс был впервые архивирован 30 сентября 2020 года, библиотека хранит его 43 архивные копии.
  4. Дальше мы обращаем внимание на календарь — голубым цветом в нем отмечены даты создания слепков. Каждый из них доступен для просмотра: нужно лишь выбрать год, месяц и день сохранения. Мы хотим посмотреть, как выглядел сайт раньше: допустим, 3 февраля текущего года. Наводим курсор на голубой кружок и жмем на время сохранения. Проще не бывает!
  5. При желании можно получить общие данные о web-проекте — надо нажать на кнопку Summary над хронологической таблицей и календарем или же ознакомиться с картой сайта (кнопка Site Map).

Алгоритм действий можно сократить. Для работы с сервисом напрямую, введите в строке своего браузера

В нашем случае это

Как восстановить сайт из веб-архива?

Плохая новость для тех, кто планирует просто найти архив сайта и скачать его привычным способом: страницы имеют вид статических html-файлов, к тому же их слишком много для того, чтобы заниматься этим вручную. Решить проблему можно при помощи специальных программ, к примеру, приложения на ruby. Необходимо лишь установить все на сервер и запустить восстановление страниц.

apt-get install ruby

  • Добавьте саму программу, необходимую для работы.

gem install wayback_machine_downloader

  • Запустите выкачивание сайта из web archive.

wayback_machine_downloader http://www.site.ru -timestamp 20131209110704

Для удобства можно указать отметку снапшота — утилита определит число страниц и выведет выкачиваемые файлы на консоль. После скачивания и сохранения мы получим набор статических данных.

  • Разместите файлы в выбранной папке. Подойдет rsync:

rsync -avh./websites/www.site.com/ /var/www/site.com/

  • Создайте конфигурацию в nginx и дождитесь обновления dns. На этом все!

Как восстановить сайт без бэкапа?

Вернуть ресурс из небытия можно даже без резервного копирования.

  • Как уже говорилось раньше, можно восстановить сайт из веб-архива https://archive.org. Чтобы получить все страницы, введите в специальное поле имя ресурса с добавлением /* (https://livepage.pro/*). Здесь же предусмотрена возможность фильтрации файлов по подстроке в URL. Для скачивания файлов подойдут многие программы, например, Teleport Pro.
  • Страницы интернет-проектов часто хранятся в кэше поисковых систем. По причине того что у каждого поисковика свои параметры, для лучшего эффекта промониторьте не только Google и Яндекс, но и Bing, Rambler:

Войдите в режим расширенного поиска и укажите имя сайта. Получив результаты, кликайте по ссылкам «cached» или «копия».

  • Если вы отдаете полный RSS, тогда стоит проверить еще и ридеры, агрегаторы.

Учтите!

Нужный вам проект может и не входить в архив сайтов интернета. Если вы его не нашли в библиотеке — значит, правообладатель потребовал удаления копий или же ресурс закрыли в соответствии с законом о защите интеллектуальной собственности. Возможен и другой вариант: через файл robots.txt был банально внесен соответствующий запрет.

Как найти уникальный контент из веб-архива для вашего сайта?

Статьи, расположенные на заброшенных ресурсах, обычно не представляют никакой ценности для их бывших владельцев. А ведь в мир иной ежедневно уходят десятки сайтов. И среди кучи хлама, выброшенного на помойку истории, можно найти настоящие самородки — приличные тексты, которые достанутся вам бесплатно.

Поисковики хорошо относятся к любому актуальному и уникальному контенту — можно не бояться попасть в их немилость только из-за того, что статьи взяты из веб-архива чужого сайта.

Итак, последовательность действий следующая:

  1. Найдите подходящие вам блоги. Для этого следует зайти на Reg.ru и скачать оттуда список недавно освободившихся доменов.
  2. Посетите архив интернета с целью поиска сохраненных копий.
  3. Проверьте понравившиеся тексты через антиплагиат (контент может быть уже скопирован на другие сайты).
  4. Опубликуйте уникальные статьи на своем ресурсе.

При разумном подходе такой способ пополнения сайта контентом можно поставить на поток. Поиски материалов на мертвых блогах оправданы экономией времени на написание текстов и денег, которые бы вам пришлось заплатить авторам.

Как сделать так, чтобы сайт не попал в библиотеку веб-архива?

Если вы дорожите контентом и не хотите видеть свою онлайн-площадку в электронной библиотеке, пропишите запретную директиву в файле robots.txt:

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver-web.archive.org
Disallow: /

После изменения в настройках веб-сканер перестанет создавать архивные копии вашего сайта, к тому же удалит уже сделанные слепки. Однако учтите, что ваш запрет действует лишь до тех пор, пока доступен robots.txt — когда закончится срок регистрации доменного имени, машина времени сайтов станет демонстрировать статьи всем желающим.

Важно! Если вы, наоборот, желаете активно пользоваться веб-архивом, введите соответствующий запрос на главной странице сервиса. Просто укажите адрес проекта в разделе Save Page Now, после чего нажмите кнопку Save Page. Повторяйте процедуру после внесения любых правок.

Аналоги Webarchive

Альтернативой рассматриваемой в обзоре электронной библиотеке может стать:

Сохранить копию сайта в веб архив Internet archive Wayback Machine

В интернете существует очень интересный и полезный проект — веб архив, полностью — Internet archive Wayback Machine.

В веб архиве, расположенным по адресу: http://archive.org/web/, сохраняется прошлое сайтов в виде полноценных и работающих страниц, со всеми ссылками, изображениями, видео. В общем можно увидеть, какой был сайт в прошлом на дату формирования копии.

Топ-пост этого месяца:  Верстка сайта колонками способы и их реализация

Боты архив-машины самостоятельно сканируют сайты и формируют их копии, каков их алгоритм — не известно. Поэтому в архиве можно найти много копий своего сайта со всеми страницами или всего одну, да и то искажённую.

Предположить, в каком виде загрузится и отобразится тот или иной сайт — невозможно. Но как правило, машина периодически сохраняет полноценные копии всего сайта и даже может выдать страницы, которых у вас не было никогда.

Если вы не хотите отдавать судьбу своего сайта в руки ботов ресурса, то можно самостоятельно занести страницу в архив, и в случае непредвиденных случайностей, найти и восстановить её.

Как увидеть архив своего сайта

Откройте Internet archive и в строке поиска введите адрес сайта, далее нажмите « browse history »

Здесь будет показано, сколько копий, в каком году и в каком месяце сохранено в архиве.

Выбрав дату и нажав на эти кнопки, можно увидеть копию сайта на тот момент времени.

Как занести сайт в архив

Для этого откройте главную страницу Internet archive Wayback Machine: http:// archive.org/web/.

Далее в рубрике Save Page Now введите адрес архивируемой страницы и нажмите «SAVE PAGE». Через несколько секунд копия буде сохранена.

Как запретить архивировать мой сайт

Что за дело, кто без моего спроса меня сосчитал? Если вы так думаете, то можно запретить веб-машине сохранять копии вашего сайта

Как работать с WebArchive: инструкция

Интернет появился около 37 лет назад, за этот период он все время менялся — что-то совершенствовалось, что-то убиралось, а что-то наоборот появлялось. Сайты постоянно меняли оформление, контент, кнопки и т.д. Для того, чтобы отследить эти изменения в целом или же какой-то конкретной нише, просмотреть сайт конкурентов, который уже не ведется или просмотреть историю интересующего вас сайта/домена — существует Web Archive.

Что такое Web Archive

WebArchive — бесплатный сервис, так называемая машина времени, которая ориентирована исключительно на сайты. Данный сервис хранит архивные данные с историей каждого ресурса, которые включают в себя целые страницы с контентом, заголовками, ссылками, изображениями и т.д.

Отслеживание истории домена необходимо не только в целях интересного времяпровождения, но и позволит вам узнать необходимую для продвижения вашего сайта информацию, такую как:

  • Возраст домена, здесь мы уже описывали зачем вам нужны эти данные;
  • Тематичность домена — WebArchive позволит вам узнать, не менялась ли тематика данного домена за время его существования, а если менялась, то когда и на какую;
  • Увидеть, как сайт выглядел раньше — такая информация будет полезна при покупке б/у доменов;
  • Просмотреть удаленный контент на сайте;
  • Проверить домен на “чистоту” перед покупкой;
  • Восстановить сайт, если до этого вы не сделали резервную копию;
  • Отыскать уникальный контент с ресурсов в необходимой для вас нише.

О проекте

Машина времени сайтов (англ. Wayback Machine) — один из главных проектов archive.org. Данный сервис не является коммерческим и был создан в 1996 году американским программистом Брюстером Кейлом. Архив сайтов имеет четкую цель — искать и собирать копии ресурсов вместе с изображениями, ссылками и контентом для дальнейшей возможности свободного просматривания информации любыми пользователями.


База web archive собиралась на протяжении 20 лет, в ней находится 280 миллиардов страницы, 12 миллионов статей и книг, миллион картинок, а также 100 тысяч программ.

Как пользоваться WebArchive

Сервис крайне прост и удобен в использовании. Приведем пошаговую инструкцию:

1. Заходим на главную страницу сайта — https://web.archive.org/

2. Введите в поиск интересующий вас сайт или же ключевое слово в нужном вам нише и нажмите Enter(подойдет для тех, кто хочет просмотреть все сайты, которые подходят для введенного КС)

3. Появится информация о ресурсе: сколько было сделано резервных копий сайта и с какой даты хранится информация о данном сайте

4. Внизу также будет календарь с отметками по годам, вы можете выбрать интересующий вас год

Проверьте позиции своего сайта прямо сейчас!

После этого на календаре голубым цветом будут выделены отметки, которые указывают на создание копий, вы можете выбрать любую из этих отметок.

5. После выбора отметки вас перебросит на копию сайта в выбранную вами дату. Например, вот так выглядел ресурс Liveinternet 27 марта 2012 года

6. Также вы можете получить общие статистические данные о нужном вам проекте. Для этого под строкой ввода нужно нажать Summary of

7. Еще вы можете ознакомиться с картой сайта, для этого необходимо нажать на кнопку Site Map под строкой ввода сайта

Алгоритм действий прост, а работа с сайтом не займет более 10-ти минут.

Как исключить свой сайт из WebArchive

Если вы по определенным причинам не хотите, чтобы ваш сайт попал в веб архив, то можно прописать запретную директиву в robots.txt вашего сайта, она должна выглядеть так:

После изменений в robots.txt машина времени перестанет делать резервные копии на ваш сайт, а уже имеющиеся сохранения будут удалены. Однако не забывайте, что данные изменения работают только тогда, когда есть доступ к robots.txt вашего сайта и если вы не будете продлевать использование вашего домена, то все изменения будут аннулированы и ваш сайт снова появится на WebArchive для просмотра всех желающих.

Похожие статьи

Где брать ссылки под бурж: качественные ресурсы для улучшения SEO

В 2020 году существует множество ресурсов где брать ссылки под бурж. Некоторые из них достаточно надежные, но многие — возможно, большинство — классифицируются как спам. Они нарушают правила Google и несут только вред. Сегодня рассмотрим основные, качественные ресурсы для получения ссылок.

«Под капотом» Screaming Frog SEO Sp > Taras 27 окт., 2020

Screaming Frog SEO Spider 12.0 — внутреннее кодовое название Element 115.

В 11 версии была введена проверка структурированных данных – впервые среди SEO краулеров. При разработке 12, по словам команды, они прислушались к фидбеку от пользователей, улучшили функции из прошлых версий и добавили несколько новых.

Черное vs Белое SEO: в чем разница и что лучше использовать

Быстрое продвижение сайта в поисковиках – это то, к чему стремятся все веб-специалисты. Однако, существует ряд методик, а именно черное vs белое SEO, которые помогают достичь результата. Что же лучше и все ли нужно использовать? Именно об этом сегодня и поговорим.

Справочная: “Архив Интернета” — история создания, миссия и дочерние проекты

Вероятно, на Хабре не так много пользователей, кто никогда не слышал об «Архиве Интернета» (Internet Archive), сервисе, который занимается поиском и сохранением важных для всего человечества цифровых данных, будь то интернет-странички, книги, видео или информация иного типа.

Кто управляет Интернет-архивом, когда он появился и какова его миссия? Об этом читайте в сегодняшней «Справочной».

Зачем вообще нужен «Архив»?

Это далеко не только развлечение. Миссия организации — всеобщий доступ ко всей информации. «Интернет-архив» стремится бороться с монополией на предоставление информации со стороны как телекоммуникационных компаний (Google, Facebook и т.п.), так и государств.

При этом «Архив» является законопослушной организацией. Если по закону США какую-то информацию необходимо удалить, организация это делает.

«Архив Интернета» также служит инструментом работы ученых, спецслужб, историков (например, археографов) и представителей многих других сфер, не говоря уже об отдельных пользователях.

Когда появился «Интернет-архив»?

Создатель «Архива» — американец Брюстер Кейл, который создал компанию Alexa Internet. Оба его сервиса стали чрезвычайно популярными, оба они процветают и сейчас.

«Интернет-архив» начал архивировать информацию с сайтов и хранить копии веб-страниц, начиная с 1996 года. Штаб-квартира этой некоммерческой организации располагается в Сан-Франциско, США.

Правда, в течение пяти лет данные были недоступны для общего доступа — данные хранились на серверах «Архива», и это все, просмотреть старые копии сайтов могла лишь администрация сервиса. С 2001 года администрация сервиса решила предоставить доступ к сохраненным данным всем желающим.

В самом начале «Интернет-архив» был лишь веб-архивом, но затем организация начала сохранять книги, аудио, движущиеся изображения, ПО. Сейчас «Интернет-архив» выступает хранилищем для фотографий и других изображений НАСА, текстов Open Library и т.п.

На что существует организация?

«Архив» существует на добровольные пожертвования — как организаций, так и частных лиц. Можно предоставить поддержку и в биткоинах, кошелек 1Archive1n2C579dMsAu3iC6tWzuQJz8dN. Этот кошелек, кстати, за все время существования получил 357.47245492 BTC, это примерно $2,25 миллиона по текущему курсу.

Как работает «Архив»?

Большинство сотрудников заняты в центрах по сканированию книг, выполняя рутинную, но достаточно трудоемкую работу. У организации три дата-центра, расположенных в Калифорнии, США. Один — в Сан-Франциско, второй — Редвуд Сити, третий — Ричмонде. Для того, чтобы избежать опасности потери данных в случае природной катастрофы или других катаклизмов, у «Архива» есть запасные мощности в Египте и Амстердаме.

«Миллионы людей потратили массу времени и усилий, чтобы разделить с другими то, что мы знаем в виде интернета. Мы хотим создать библиотеку для этой новой платформы для публикаций», — заявил основатель Архива интернета Брюстер Кале (Brewster Kahle)

Насколько велик сейчас “Архив”?

У «Интернет-архива» есть несколько подразделений, и у того, которое занимается сбором информации с сайтов, есть собственное название — Wayback Machine. На момент написания «Справочной» в архиве хранилось 339 миллиардов сохраненных веб-страниц. В 2020 году в «Архиве» хранилось 30 петабайт информации, это примерно 300 млрд веб-страниц, 12 млн книг, 4 млн аудиозаписей, 3,3 млн видеороликов, 1,5 млн фотографий и 170 тыс. различных дистрибутивов ПО. Всего за год сервис заметно «прибавил в весе», теперь «Архив» хранит 339 млрд веб-страниц, 19 млн книг, 4,5 млн видеофайлов, 4,7 млн аудиофайлов, 3,2 млн изображений разного рода, 381 тыс. дистрибутивов ПО.

Как организовано хранение данных?

Информация хранится на жестких дисках в так называемых «дата-нодах». Это серверы, каждый из которых содержит 36 жестких дисков (плюс два диска с операционными системами). Дата-ноды группируются в массивы по 10 машин и представляют собой кластерное хранилище. В 2020 году «Архив» использовал 8-терабайтными HDD, сейчас ситуация примерно такая же. Получается, что одна нода вмещает около 288 терабайт данных. В целом, еще используются жесткие диски и других размеров: 2, 3 и 4 ТБ.

В 2020 году жестких дисков было около 20 000. Дата-центры «Архива» оснащены климатическими установками для поддержания микроклимата с постоянными характеристиками. Одно кластерное хранилище из 10 нод потребляет около 5 кВт энергии.

Структура Internet Archive представляет собой виртуальную «библиотеку», которая поделена на такие секции, как книги, фильмы, музыка и т.п. Для каждого элемента есть описание, внесенное в каталог — обычно это название, имя автора и дополнительная информация. С технической точки зрения элементы структурированы и находятся в Linux-директориях.

Общий объем данных, хранимых «Архивом» составляет 22 ПБ, при этом сейчас есть место еще для 22 ПБ. «Потому, что мы параноики», — говорят представители сервиса.

Посмотрите на скриншот содержимого директории — там есть файл с названием, оканчивающимся на «_files.xml». Это каталог с информацией обо всех файлах директории.

Что будет с данными, если выйдет из строя один или несколько серверов?

Ничего страшного не произойдет — данные дублируются. Как только в библиотеке «Архива» появляется новый элемент, он тут же реплицируется и размещается на различных жестких дисках на разных серверах. Процесс «зеркалирования» контента помогает справиться с проблемами вроде отключения электричества и сбоях в файловой системе.

Если выходит из строя жесткий диск, его заменяют на новый. Благодаря зеркалируемой и редуплицируемой структуре данных новичок сразу же заполняется данными, которые находились на старом HDD, вышедшем из строя.

У «Архива» есть специализированная система, которая отслеживает состояние HDD. В день приходится заменять 6-7 вышедших из строя накопителей.

Что такое Wayback Machine?

Это лишь один из сервисов «Интернет-архива», который специализируется на сохранении веб-страниц. У сервиса есть собственный «паук», который регулярно обследует все доступные в сети сайты и сохраняет их на специализированных серверах. Чем популярнее веб-сайт, тем чаще робот копирует его содержимое. Если администратор ресурса не желает, чтобы информация сайта копировалась ботом, достаточно прописать запрет в файле robots.txt.

Популярные ресурсы копируются часто — практически ежедневно. Wayback Machine индексирует даже социальные сети, включая Twitter, Facebook

В 2020 году «Архив» запустил обновленный сервис Wayback Machine, пообещав более удобный доступ к сохраненным веб-страницам. Сервис был написан если не с нуля, то здорово переработан. Теперь он поддерживает ряд форматов файлов, которые ранее просто не сохранялись В том же 2020 году организация заявила, что каждую неделю ее сервера сохраняют около 1 млрд веб-страниц.

Так выглядел Twitter в 2007 году

Что еще можно найти в базе «Интернет-архива»?

Книги. Коллекция организации огромна, она включает оцифрованные книги, как распространенные, так и очень редкие издания. Книги сохраняются не только англоязычные, но и на многих других языках. У «Архива» есть специализированные центры по сканированию книг, всего таких центров 33, расположены они в пяти странах по всему миру.

В день сотрудники центров сканируют около 1000 книг. В базе сервиса содержатся миллионы изданий, работа по их оцифровке финансируется как обычными людьми, так и различными организациями, включая библиотеки и фонды.

С 2007 года «Интернет-архив» сохраняет в своей базе общедоступные книги из Google Book Search. После запуска, база книг быстро разрослась — в 2013 году насчитывалось уже более 900 тысяч книг, сохраненных из сервиса Google.

Один из сервисов «Архива» также предоставляет доступ к книгам, которые полностью открыты, таковых насчитывается уже более миллиона. Называется этот сервис Open Library.

Видео. Сервис хранит 4,5 млн роликов. Они разбиты по тематикам и имеют самую разную направленность. На серверах «Архива» хранятся фильмы, документальные фильмы, записи спортивных соревнований, ТВ-шоу и многие другие материалы.

В 2015 году «Архив» дал начало масштабному проекту — оцифровке видеокассет. Сначала речь шла о 40 тысячах кассет из архива Мэрион Стоукс, женщины, которая в течение многих десятилетий записывала на кассеты новости. Затем добавились и другие видеокассеты, которые присылали «Архиву» поклонники идеи оцифровки данных, важных для человечества.

Аудио. Аналогично видео, «Архив» хранит и аудиофайлы, которые также разбиты по тематикам. В прошлом году «Архив» начал реализовывать свой новый проект — расшифровку шеллачных пластинок, старейшего формата аудиозаписей. Звук сохранялся на пластинках из шеллака — природной смолы, которую выделяют самками червецов. Всего в архиве Great 78 Project несколько сотен тысяч пластинок.

Программное обеспечение. Конечно, хранить все созданное человечеством ПО просто невозможно, даже для «Архива». На серверах хранится винтаж — например, программы для Macintosh, ПО под DOS и прочий софт. В 2020 году сотрудники «Архива» выложили 1500+ программ под Windows 3.1, работать можно прямо в браузере. В 2020 Internet Archive выпустил архив софта для первых Macintosh.

Игры. Да, «Архив» предоставляет доступ к огромному количеству игр. В некоторые из них можно поиграть в среде браузерного эмулятора. Игры хранятся самые разные, в том числе, и с портативных аналогово-цифровых приставок. Есть игры под MS-DOS и консольные игры для Atari и ColecoVision.

Топ-пост этого месяца:  Замена ссылок в постах

Впервые архив старых игр организация выложила еще в 2013 году. Речь идет о тайтлах 30–40 летней давности, в которые можно было играть прямо в браузере. Это игры для приставок Atari 2600 (1977 года выпуска), Atari 7800 (1986 г.), ColecoVision (1982 г.), Philips Videopac G7000 (1978 г.) и Astrocade (1983 г.). Самое интересное, что Internet Archive добился того, что играть можно вполне легально. Сейчас коллекция насчитывает уже более 3400 игр и продолжает пополняться.

Поиск текстов на web.archive.org

Знаменитый Веб Архив (archive.org, web.archive.org) – некоммерческая онлайн библиотека, включающая в себя 85 миллиардов веб-страниц, графические материалы, а также видео и аудио, была создана с целью хранения и архивирования имеющей ценность информации, которая доступна для изучения и скачивания всем желающим.

Несмотря на то, что большинство пользователей знает об этом web-ресурсе лишь понаслышке, данный сервис является крайне интересным и полезным для тех, кто хотя бы немного интересуется историей и развитием интернета.


К сожалению, большинство web-мастеров и seo-оптимизаторов рассматривают archive.org исключительно как источник бесплатного контента для автоматического наполнения своих «сайтов» или же для возрождения старых проектов с целью дальнейшей продажи на них ссылок в биржах. В действительности же, информация, которую можно найти в Веб Архиве может быть интересна не только создателям сателлитов и сплогов. Archive.org хранит в себе массу полезных сведений, определенной части которых уже нет в интернете.

В данной статье вы рассмотрим, чем именно Веб архив может быть полезен web-мастеру, seo-оптимизатору и даже копирайтеру.

Archive.org или архив интернета: The Wayback Machine

Одним из основных сервисов Веб Архива является The Wayback Machine, представляющий собой огромный архив сохраненных страниц, которые были обнаружены ботом в то или иное время. В результате копия каждого сохраненного сайта хранится в веб архиве в нескольких экземплярах, что позволяет увидеть, как выглядел тот или иной web-ресурс в определенный период времени.

Работа бота The Wayback Machine не подчиняется никаким правилам, поэтому, просматривая хранящиеся там страницы можно легко столкнуться с тем, что некоторые сайты сохранены только частично, и самая интересная их часть осталась не проиндексированной, тогда как в архиве сохранились только служебные страницы (карта сайта, календарь, списки последних статей). Кроме того, в Веб архиве имеется множество страниц, сохраненных в момент, когда сайт был недоступен, взломан или закрыт на техническое обслуживание. Поэтому в Веб Архиве, к сожалению, имеется множество страниц, сохранившихся в виде заглушки.

Некоторые сайты имеют в архиве несколько копий за каждый год, что позволяет просмотреть историю изменений ресурса, другие проекты и вовсе не попадают в базу. Таким образом, предсказать, в каком виде сохранен в web.archive.org тот или иной сайт, невозможно – каждый ресурс следует просматривать отдельно.

Поиск по столь огромной базе страниц возможен только по названию домена. Для этого откройте адрес http://archive.org/web/, введите искомый домен в поисковую строку и нажмите кнопку BROWSE HISTORY.

Перед вами откроется страница с календарем, где вы можете выбрать наиболее интересную вам дату скриншота документа и, кликнув по ней, посмотреть, как выглядел сайт несколькими годами ранее.

Запретить сканирование web-сайта боту The Wayback Machine можно при помощи команды в robots.txt.

User-agent: ia_archiver
Disallow: /

Для чего нужен web.archive.org?

В первую очередь, Веб Архив предназначен для пользователей, которые хотят просмотреть информацию с «мертвого» web-сайта, пропавшего из Сети по тем или иным причинам. В некоторых случаях web.archive.org помогает даже восстановить проект, который был утерян из-за не продленного во время хостинга или домена.

Нередко посетители, привыкшие к общению и обмену информацией на определенном сайте, сами восстанавливают полюбившийся ресурс на новом домене, копируя туда статьи из архива.

Кроме того, Веб Архив – это прекрасная возможность изучения истории того или иного сайта или домена. Иногда в истории web.archive.org сохраняются поистине удивительные «приключения» домена, когда за время его существования на нем несколько раз создается новый web-проект совершенно новой тематики.

Некоторые web-мастера считают Веб Архив удивительным по своей легкости и доступности сервисом для заработка, ведь хранящийся там контент не только уникален, но и бесплатен.

Итак, как заработать с помощью web.archive.org?

  1. Зарегистрировать освободившийся домен с тИЦ и PR и залить на него спарсенный из Веб Архива сайт, находящийся на нем когда-то.
  2. Использовать найденный уникальный контент для наполнения MFA, сплогов и даже СДЛ. Кроме того, найденные тексты можно использовать для размещения через биржи статей с целью продвижения вашего сайта.
  3. И наконец, самый простой способ – продать найденные уникальные статьи на биржах текстов, выдав их за свои.

Важно. Многие web-мастера, не желающие иметь проблем, связанных с нарушением авторского права, почему-то уверены в том, что парсинг Веб Архива является абсолютно безопасным. Дескать, если сайт умер, то принадлежность размещенных на нем когда-то статей доказать невозможно. Однако не стоит забывать, что на найденном в archive.org «мертвом» сайте также могут находиться отсканированные статьи, принадлежащие конкретному автору, который при необходимости сможет легко доказать, что размещенные на вашем сайте статьи – не ваши. Поэтому будьте крайне внимательны и осторожны.

Как искать уникальный контент в Веб архиве: поиск «мертвых» сайтов

Основной вопрос новичков, которые собираются парсить уникальный контент из Веб архива: где находить адреса доменов, где когда-то располагались web-проекты с качественными и интересными статьями? Однозначного ответа на этот вопрос не существует, особенно если учесть, что Веб Архив ежедневно изучают сотни web-мастеров, ищущих ту самую «золотую жилу» — страницы с уникальными и интересными текстами, в результате чего хранящиеся в web.archive.org статьи быстро распространяются по Сети.

Приведем лишь несколько способов искать домены в Веб Архиве, каждый из которых имеет свои преимущества и недостатки.

Анализ списка освобождающихся доменов

Скачиваем список освобождающихся доменных имен со страницы https://www.nic.ru/auction/forbuyer/download_list.shtml. Открываем файл формата . TSV в Excel или любой другой аналогичной программе. Находим там домены, которые, предположительно, могут быть нам интересны. К примеру, имена, в состав которых входит слово seo, скорее всего, использовались для создания блога о раскрутке сайтов. Проверять все домены из списка подряд, не имея соответствующего софта, бессмысленно, так как это приведет к значительным потерям времени. Гораздо менее затратным будет даже самостоятельное написание статей, а не их поиск.

К недостаткам этого способа относится его значительные временные затраты: на изучение большого количества доменов может уйти немало времени.

Анализ конкурентных ресурсов

Неплохим решением может быть специальное отслеживание ряда конкурентных сайтов, которые по своим признакам и параметрам являются явными кандидатами попадания под фильтр АГС. К примеру, вы можете спарсить выдачу Google по важному для вас запросу, а затем вручную просмотреть сайты конкурентов. Если на этих проектах активно размещаются вечные внешние ссылки, в результате чего сайт быстро заспамливается, это явный признак того, что в скором времени владелец откажется от своего сайта, просто не продлив домен. Весь контент этого сайта в скором времени вылетит из индекса.

Способ подходит лишь тем, кто не жалеет времени на анализ конкурентных ресурсов.

Изучение старых каталогов ссылок и статей

Хороший список «мертвых» ресурсов можно найти в старых каталогах ссылок, прогон по которым осуществлялся несколько лет назад. Способ несколько нудный и муторный, зато позволяет быстро находить сайты определенной тематики.

The Wayback Machine: стоит ли овчинка выделки

Как видим, поиск уникального контента в Веб Архиве может потребовать у вас немало времени. Скорее всего, затраченное время намного выгодней было бы потратить на написание или заказ статей. Поиск в web.archive.org можно порекомендовать лишь тем, кто или твердо знает, что именно он ищет (читай: имеет список конкретных «мертвых» сайтов, которые хочет проверить), либо тем, кто испытывает культурологическое удовольствие от изучения сайтов прошлых лет.

Не забудьте и о том, что в случае вашего небрежного отношения к сайту и его техническому обеспечению, благодаря Веб Архиву, и ваш ресурс может возродиться под чужим руководством, спустя некоторое время после «виртуальной» смерти.

Как скачать сайт из вебархива

Обращаю ваше внимание на то, что все операции производятся в операционной системе Ubuntu (Linux). Как все это провернуть на Windows я не знаю. Если хотите все проделать сами, а у вас Windows, то можете поставить VirtualBox, а на него установить ту же Ubuntu. И приготовьтесь к тому, что сайт будет качаться сутки или даже двое. Однажды один сайт у меня скачивался трое суток.

По сути, на текущий момент мы имеем два сервиса с архивом сайтов. Это российский сервис web-archiv.ru и зарубежный archive.org. Я скачивал сайты с обоих сервисов. Только вот в случае с первым, тут не все так просто. Для этого был написан скрипт, который требует доработки, но поскольку мне он более не требуется, соответственно я не стал его дорабатывать. В любом случае его вполне достаточно на то, что бы скачать страницы сайта, но приготовьтесь к ошибкам, поскольку очень велика вероятность появления непредусмотренных особенностей того или иного сайта.

Первым делом я расскажу о том, как скачать сайт с web.archive.org, поскольку это самый простой способ. Вторым способом имеет смысл воспользоваться если по каким-то причинам копия сайта на web.archive.org окажется неполной или её не окажется совсем. Но скорее всего вам вполне хватит первого способа.

Принцип работы веб-архива

Прежде чем пытаться восстанавливать сайт из веб-архива, необходимо понять принцип его работы, который является не совсем очевидным. С особенностями работы сталкиваешься только тогда, когда скачаешь архив сайта. Вы наверняка замечали, попадая на тот или иной сайт, сообщение о том, что домен не продлен или хостинг не оплачен. Поскольку бот, который обходит сайты и скачивает страницы, не понимает что подобная страница не является страницей сайта, он скачивает её как новую версию главной страницы сайта.

Таким образом получается если мы скачаем архив сайта, то вместо главной страницы будем иметь сообщение регистратора или хостера о том, что сайт не работает. Чтобы этого избежать, нам необходимо изучить архив сайта. Для этого потребуется просмотреть все копии и выбрать одну или несколько где на главной странице страница сайта, а не заглушка регистратора или хостера.

Качаем сайт с web.archive.org

Процесс восстановления сайта из веб-архива я покажу на примере сайта 1mds.ru. Я не знаю что это за сайт, я всего лишь знаю что у него в архиве много страниц, а это значит что сайт не только существовал, но с ним работали.

Для того, что бы открыть архив нужного сайта, нам необходимо пройти по такой вот ссылке:

На 24 ноября 2020 года, при открытии этой ссылки я обнаружил вот такую картину:

Как видите на главной зафиксировались результаты экспериментов с программной частью. Если мы просто скачаем сайт как есть, то в качестве главной будет именно эта страница. нам необходимо избежать попадания в архив таких страниц. Как это сделать? Довольно просто, но для начала необходимо определить когда последний раз в архив добавлялась главная страница сайта. Для этого нам необходимо воспользоваться навигацией по архиву сайта, которая расположена вверху справа:

Кликаем левую стрелку ибо правая все равно не активна, и кликаем до тех пор, пока не увидим главную страницу сайта. Возможно кликать придется много, бывает домены попадаются с весьма богатым прошлым. Например сайт, на примере которого я демонстрирую работу с архивом, не является исключением.

Вот мы можем видеть что 2 мая 2020-го бот обнаружил сообщение о том, что домен направлен на другой сайт:

Классика жанра, регистрируешь домен и направляешь его на существующий дабы не тратить лимит тарифа на количество сайтов.

А до этого, 30 марта, там был вообще блог про шитье-вязание.

Долистал я до 23 октября 2020-го и вижу уже другое содержимое:

Тут мы видим уже материалы связанные с воспитанием ребенка. Листаем дальше, там вообще попадается период когда на домене была всего одна страница с рекламой:

А вот с 25 апреля 2011 по 10 сентября 2013-го там был сайт связанный с рекламой. В общем нам нужно определиться какой из этих периодов мы хотим восстановить. К примеру я хочу восстановить блог про шитье-вязание. Мне необходимо найти дату его появления и дату когда этот блог был замечен там последний раз.

Я нашел последнюю дату, когда блог был на домене и скопировал ссылку из адресной строки:

  • http://web.archive.org/web/ 20200330034350 /http://1mds.ru:80/

Мне нужны цифры после web/, я их выделил красным цветом. Это временная метка, когда была сделана копия. Теперь мне нужно найти первую копию блога и также скопировать из URL временную метку. Теперь у нас есть две метки с которой и до которой нам нужна копия сайта. Осталось дело за малым, установить утилиту, которая поможет нам скачать сайт. Для этого потребуется выполнить пару команд.

  • sudo apt install ruby
  • sudo gem install wayback_machine_downloader

После чего останется запустить скачивание сайта. Делается это вот такой командой:

  • wayback_machine_downloader -f20201223224600 -t20200330034350 1mds.ru

Таким образом мы скачаем архив с 23/12/2020 по 30/03/2020. Файлы сайта будут сохранены в домашней директории в папке «websites/1mds.ru». Теперь остается закинуть файлы на хостинг и радоваться результату.

Качаем сайт с web-arhive.ru

Это самый геморройный вариант ибо у данного сервиса нет возможности скачать сайт как у описанного выше. Соответственно пользоваться этим вариантом есть смысл пользоваться только в случае если нужно скачать сайт, которого нет на web.archive.org. Но я сомневаюсь что такое возможно. Этим вариантом я пользовался по причине того, что не знал других вариантов,а поискать поленился.

В итоге я написал скрипт, который позволяет скачать архив сайта с web-arhive.ru. Но велика вероятность того, что это будет сопровождаться ошибками, поскольку скрипт сыроват и был заточен под скачивание определенного сайта. Но на всякий случай я выложу этот скрипт.

Пользоваться им довольно просто. Для запуска скачивания необходимо запустить этот скрипт все в той же командной строке, где в качестве параметра вставить ссылку на копию сайта. Должно получиться что-то типа такого:

  • php get_archive.php “http://web-arhive.ru/view2?time=20200320203021&url=http%3A%2F%2Fremontistroitelstvo.ru%2F”

Заходим на сайт web-arhive.ru, в строке указываем домен и жмем кнопку «Найти». Ниже должны появится года и месяцы в которых есть копии.

Обратите внимание на то, что слева и справа от годов и месяцев есть стрелки, кликая которые можно листать колонки с годами и месяцами.

Остается найти дату с нужной копией, скопировать ссылку из адресной строки и отдать её скрипту. Не забывает помещать ссылку в кавычки во избежание ошибок из-за наличия спецсимволов.

Мало того, что само скачивание сопровождается ошибками, более того, в выбранной копии сайта может не быть каких-то страниц и придется шерстить все копии на предмет наличия той или иной страницы.

Помощь в скачивании сайта из веб-архива

Если у вас вдруг возникли трудности в том, что бы скачать сайт, можете воспользоваться моими услугами. Буду рад помочь. Для начала заполните и отправьте форму ниже. После этого я с вами свяжусь и мы все обсудим.

Добавить комментарий