Logiss.ru

Ваша компьютерная помощь
8 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Архив Интернета что это и как им пользоваться (Wayback Machine)

Справочная: “Архив Интернета” — история создания, миссия и дочерние проекты

Вероятно, на Хабре не так много пользователей, кто никогда не слышал об «Архиве Интернета» (Internet Archive), сервисе, который занимается поиском и сохранением важных для всего человечества цифровых данных, будь то интернет-странички, книги, видео или информация иного типа.

Кто управляет Интернет-архивом, когда он появился и какова его миссия? Об этом читайте в сегодняшней «Справочной».

Зачем вообще нужен «Архив»?

Это далеко не только развлечение. Миссия организации — всеобщий доступ ко всей информации. «Интернет-архив» стремится бороться с монополией на предоставление информации со стороны как телекоммуникационных компаний (Google, Facebook и т.п.), так и государств.

При этом «Архив» является законопослушной организацией. Если по закону США какую-то информацию необходимо удалить, организация это делает.

«Архив Интернета» также служит инструментом работы ученых, спецслужб, историков (например, археографов) и представителей многих других сфер, не говоря уже об отдельных пользователях.

Когда появился «Интернет-архив»?

Создатель «Архива» — американец Брюстер Кейл, который создал компанию Alexa Internet. Оба его сервиса стали чрезвычайно популярными, оба они процветают и сейчас.

«Интернет-архив» начал архивировать информацию с сайтов и хранить копии веб-страниц, начиная с 1996 года. Штаб-квартира этой некоммерческой организации располагается в Сан-Франциско, США.

Правда, в течение пяти лет данные были недоступны для общего доступа — данные хранились на серверах «Архива», и это все, просмотреть старые копии сайтов могла лишь администрация сервиса. С 2001 года администрация сервиса решила предоставить доступ к сохраненным данным всем желающим.

В самом начале «Интернет-архив» был лишь веб-архивом, но затем организация начала сохранять книги, аудио, движущиеся изображения, ПО. Сейчас «Интернет-архив» выступает хранилищем для фотографий и других изображений НАСА, текстов Open Library и т.п.

На что существует организация?

«Архив» существует на добровольные пожертвования — как организаций, так и частных лиц. Можно предоставить поддержку и в биткоинах, кошелек 1Archive1n2C579dMsAu3iC6tWzuQJz8dN. Этот кошелек, кстати, за все время существования получил 357.47245492 BTC, это примерно $2,25 миллиона по текущему курсу.

Как работает «Архив»?

Большинство сотрудников заняты в центрах по сканированию книг, выполняя рутинную, но достаточно трудоемкую работу. У организации три дата-центра, расположенных в Калифорнии, США. Один — в Сан-Франциско, второй — Редвуд Сити, третий — Ричмонде. Для того, чтобы избежать опасности потери данных в случае природной катастрофы или других катаклизмов, у «Архива» есть запасные мощности в Египте и Амстердаме.

«Миллионы людей потратили массу времени и усилий, чтобы разделить с другими то, что мы знаем в виде интернета. Мы хотим создать библиотеку для этой новой платформы для публикаций», — заявил основатель Архива интернета Брюстер Кале (Brewster Kahle)

Насколько велик сейчас “Архив”?

У «Интернет-архива» есть несколько подразделений, и у того, которое занимается сбором информации с сайтов, есть собственное название — Wayback Machine. На момент написания «Справочной» в архиве хранилось 339 миллиардов сохраненных веб-страниц. В 2017 году в «Архиве» хранилось 30 петабайт информации, это примерно 300 млрд веб-страниц, 12 млн книг, 4 млн аудиозаписей, 3,3 млн видеороликов, 1,5 млн фотографий и 170 тыс. различных дистрибутивов ПО. Всего за год сервис заметно «прибавил в весе», теперь «Архив» хранит 339 млрд веб-страниц, 19 млн книг, 4,5 млн видеофайлов, 4,7 млн аудиофайлов, 3,2 млн изображений разного рода, 381 тыс. дистрибутивов ПО.

Как организовано хранение данных?

Информация хранится на жестких дисках в так называемых «дата-нодах». Это серверы, каждый из которых содержит 36 жестких дисков (плюс два диска с операционными системами). Дата-ноды группируются в массивы по 10 машин и представляют собой кластерное хранилище. В 2016 году «Архив» использовал 8-терабайтными HDD, сейчас ситуация примерно такая же. Получается, что одна нода вмещает около 288 терабайт данных. В целом, еще используются жесткие диски и других размеров: 2, 3 и 4 ТБ.

Читайте так же:
Плагин загружен, но не создаются объекты

В 2016 году жестких дисков было около 20 000. Дата-центры «Архива» оснащены климатическими установками для поддержания микроклимата с постоянными характеристиками. Одно кластерное хранилище из 10 нод потребляет около 5 кВт энергии.

Структура Internet Archive представляет собой виртуальную «библиотеку», которая поделена на такие секции, как книги, фильмы, музыка и т.п. Для каждого элемента есть описание, внесенное в каталог — обычно это название, имя автора и дополнительная информация. С технической точки зрения элементы структурированы и находятся в Linux-директориях.

Общий объем данных, хранимых «Архивом» составляет 22 ПБ, при этом сейчас есть место еще для 22 ПБ. «Потому, что мы параноики», — говорят представители сервиса.

Посмотрите на скриншот содержимого директории — там есть файл с названием, оканчивающимся на «_files.xml». Это каталог с информацией обо всех файлах директории.

Что будет с данными, если выйдет из строя один или несколько серверов?

Ничего страшного не произойдет — данные дублируются. Как только в библиотеке «Архива» появляется новый элемент, он тут же реплицируется и размещается на различных жестких дисках на разных серверах. Процесс «зеркалирования» контента помогает справиться с проблемами вроде отключения электричества и сбоях в файловой системе.

Если выходит из строя жесткий диск, его заменяют на новый. Благодаря зеркалируемой и редуплицируемой структуре данных новичок сразу же заполняется данными, которые находились на старом HDD, вышедшем из строя.

У «Архива» есть специализированная система, которая отслеживает состояние HDD. В день приходится заменять 6-7 вышедших из строя накопителей.

Что такое Wayback Machine?

Это лишь один из сервисов «Интернет-архива», который специализируется на сохранении веб-страниц. У сервиса есть собственный «паук», который регулярно обследует все доступные в сети сайты и сохраняет их на специализированных серверах. Чем популярнее веб-сайт, тем чаще робот копирует его содержимое. Если администратор ресурса не желает, чтобы информация сайта копировалась ботом, достаточно прописать запрет в файле robots.txt.


Популярные ресурсы копируются часто — практически ежедневно. Wayback Machine индексирует даже социальные сети, включая Twitter, Facebook

В 2017 году «Архив» запустил обновленный сервис Wayback Machine, пообещав более удобный доступ к сохраненным веб-страницам. Сервис был написан если не с нуля, то здорово переработан. Теперь он поддерживает ряд форматов файлов, которые ранее просто не сохранялись В том же 2017 году организация заявила, что каждую неделю ее сервера сохраняют около 1 млрд веб-страниц.


Так выглядел Twitter в 2007 году

Что еще можно найти в базе «Интернет-архива»?

Книги. Коллекция организации огромна, она включает оцифрованные книги, как распространенные, так и очень редкие издания. Книги сохраняются не только англоязычные, но и на многих других языках. У «Архива» есть специализированные центры по сканированию книг, всего таких центров 33, расположены они в пяти странах по всему миру.

В день сотрудники центров сканируют около 1000 книг. В базе сервиса содержатся миллионы изданий, работа по их оцифровке финансируется как обычными людьми, так и различными организациями, включая библиотеки и фонды.

С 2007 года «Интернет-архив» сохраняет в своей базе общедоступные книги из Google Book Search. После запуска, база книг быстро разрослась — в 2013 году насчитывалось уже более 900 тысяч книг, сохраненных из сервиса Google.

Один из сервисов «Архива» также предоставляет доступ к книгам, которые полностью открыты, таковых насчитывается уже более миллиона. Называется этот сервис Open Library.

Видео. Сервис хранит 4,5 млн роликов. Они разбиты по тематикам и имеют самую разную направленность. На серверах «Архива» хранятся фильмы, документальные фильмы, записи спортивных соревнований, ТВ-шоу и многие другие материалы.

Читайте так же:
Скачать драйвер Рутокен для КриптоПро

В 2015 году «Архив» дал начало масштабному проекту — оцифровке видеокассет. Сначала речь шла о 40 тысячах кассет из архива Мэрион Стоукс, женщины, которая в течение многих десятилетий записывала на кассеты новости. Затем добавились и другие видеокассеты, которые присылали «Архиву» поклонники идеи оцифровки данных, важных для человечества.

Аудио. Аналогично видео, «Архив» хранит и аудиофайлы, которые также разбиты по тематикам. В прошлом году «Архив» начал реализовывать свой новый проект — расшифровку шеллачных пластинок, старейшего формата аудиозаписей. Звук сохранялся на пластинках из шеллака — природной смолы, которую выделяют самками червецов. Всего в архиве Great 78 Project несколько сотен тысяч пластинок.

Программное обеспечение. Конечно, хранить все созданное человечеством ПО просто невозможно, даже для «Архива». На серверах хранится винтаж — например, программы для Macintosh, ПО под DOS и прочий софт. В 2016 году сотрудники «Архива» выложили 1500+ программ под Windows 3.1, работать можно прямо в браузере. В 2017 Internet Archive выпустил архив софта для первых Macintosh.

Игры. Да, «Архив» предоставляет доступ к огромному количеству игр. В некоторые из них можно поиграть в среде браузерного эмулятора. Игры хранятся самые разные, в том числе, и с портативных аналогово-цифровых приставок. Есть игры под MS-DOS и консольные игры для Atari и ColecoVision.

Впервые архив старых игр организация выложила еще в 2013 году. Речь идет о тайтлах 30–40 летней давности, в которые можно было играть прямо в браузере. Это игры для приставок Atari 2600 (1977 года выпуска), Atari 7800 (1986 г.), ColecoVision (1982 г.), Philips Videopac G7000 (1978 г.) и Astrocade (1983 г.). Самое интересное, что Internet Archive добился того, что играть можно вполне легально. Сейчас коллекция насчитывает уже более 3400 игр и продолжает пополняться.

Как пользоваться сервисом Wayback Machine: 10 советов для интернет-маркетологов

Как пользоваться сервисом Wayback Machine: 10 советов для интернет-маркетологов

Мария Журавлева Редакция «Текстерры»

Wayback Machine – это широко известный и полезный сервис, позволяющий увидеть сайты в том виде, в котором они существовали в прошлом, но это не единственная полезная функция Wayback Machine – сервис можно использовать и в интернет-маркетинге.

1. Отслеживание изменений сайта

Это основная функция Wayback Machine. Снимки сайта (snapshots) Wayback Machine можно использовать для сравнения вида сайта в разное время, чтобы посмотреть, что изменилось.

Даже если у Wayback Machine мало снимков сайта (обычно такое случается с не очень популярными сайтами), вы все равно можете определить дату внесения изменений. Это полезно, если вы считаете, что изменения могли быть причиной падения сайта в поисковой выдаче, посмотрите на версию страницы того времени, после которого произошло падение и узнаете, что за негативные изменения ее вызвали. Используйте эти данные, чтобы исправить проблему.

Сайт «Текстерры» в январе 2010 года

2. Знакомство с сайтом

Когда вы работаете с новым клиентом, важно быть ознакомленным с его сайтом и разбираться в тонкостях его бренда. Wayback Machine вам в этом поможет. Вы можете посмотреть, как сайт менялся с годами и насколько изменилась политика бренда. Согласуйте с клиентом изменения: «Раньше вы утверждали одно, а теперь другое, так ведь?».

3. Поиск прежних редиректов

Один из хороших способов использовать Wayback Machine – поиск URL, на которые через какое-то время повесили редиректы. Такое часто бывает с крупными брендами, сайты которых начинали работу в 90 или начале 2000, а потом были переделаны в соответствии с требованиями поисковых систем. Чтобы найти более ранние версии ссылок и проверить их код состояния, используйте Wayback Machine в паре с Screaming Frog.

4. Поиск старой структуры URL

Иногда структура URL сайтов меняется, а старая теряется. Если вы знаете приблизительную дату изменения структуры ссылки, то можете использовать Wayback Machine, чтобы выяснить, когда именно были внесены изменения и как выглядела прежняя структура. Затем вы можете сравнить более новые версии ссылки с предыдущими. Эта функция полезна, если контент сайта был реорганизован или подразделы были переименованы.

Читайте так же:
Скачать АИМП 5 бесплатно на русском языке

«Твиттер» в октябре 2007

5. Изучение Robots.txt

Wayback Machine индексирует все, что находит на сайте, в том числе и файлы robots.txt. И это здорово: если у вашего сайта есть технические уязвимости, вы сможете узнать, когда именно были внесены изменения в документе robots.txt, приведшие к этим уязвимостям. Все, что надо сделать – это найти документ robots.txt и сравнивать срезы данных страниц за разные даты до тех пор, пока не найдете причину уязвимостей.

6. Проверка работы счетчика аналитики

Wayback Machine индексирует исходный код страниц и позволяет отследить изменения, которые были в него внесены. Введите URL страницы, выберите дату и снимки сайта, которые вам нужны, и кликните на просмотр исходного кода и оцените, насколько правильно он сделан.

7. Анализ пути клиента

Если вы хотите провести полный анализ пути клиента, то с этим вам также может помочь Wayback Machine. Используя этот сервис, вы сможете сравнить текущую длину пути с тем, который был в прошлом, чтобы определить, какие стадии изменились с течением времени. Также Wayback Machine открывает способы повысить конверсию. Если конверсия на вашем сайте была высокой в определенной время, то можно посмотреть на предыдущее оформление, кнопки и ссылки на странице, чтобы определить, как они повлияли на конверсию.

«Яндекс» в мае 2001

8. Определение структуры сайта

Wayback Machine показывает, как в прошлом выглядела иерархическая структура сайта. Иногда разделы могут объединять или наоборот разбивать на несколько штук. Если вы посмотрите на то, какой была структура сайта в прошлом, вы сможете сказать, какие страницы были недавно объединены в одну категорию или разделены на самостоятельные.

9. Поиск старого контента

Wayback Machine поможет найти старый контент, который был утерян или случайно удален. Достаточно открыть страницу, на которой находился контент, на более ранней дате.

«Вконтакте» в октябре 2007

10. Проведение смешанного маркетингового анализа

С помощью Wayback Machine можно анализировать рост трафика посадочных страниц. Предположим, что в прошлом году контекст работал хорошо, но результат в этом году далеко не такой впечатляющий. Посмотрите на ваши посадочные страницы с помощью Wayback Machine, чтобы выяснить, какие ключевые слова приносили результат, и что изменилось на посадочных страницах и привело к снижению эффективности этих ключевиков.

Назад в будущее

На первый взгляд, Wayback Machine – это просто сервис, показывающий более раннюю версию сайтов, действительно «машина времени» интернета. Однако, его функции могут быть полезны и в сфере интернет-маркетинга. А какие способы использования Wayback Machine приходят в голову вам? Поделитесь в комментариях.

Веб-архив сайта

Создание и наполнение онлайн-ресурса — это многоэтапный системный процесс. Контент фирменного сайта, интернет-магазина, лэндинга или портала должен постоянно обновляться с учетом целей и задач компании, изменений предпочтений целевой аудитории и алгоритмов поисковых систем. Но иногда старые тексты могут пригодиться, и тогда их можно найти на веб-архивах.

Интернет-архив

Что такое веб-архив

Веб-архив (web archive, internet archive) — это онлайн-платформа Wayback Machine, созданная в 1996 году. Здесь хранятся копии контента сайтов, интернет-магазинов, блогов, информационных и развлекательных порталов и других интернет-ресурсов, которые разрешены для сохранения. Это бесплатная онлайн-библиотека web.archive.org, где можно найти разные версии всех веб-ресурсов и просмотреть, как выглядел их контент, сохраненный на дату посещения сайта роботом сервиса.

Со времени создания веб-архива, здесь накопилось и на данный момент хранится больше 330 миллиардов файлов:

  • интернет-страниц;
  • аудио;
  • видео;
  • электронных книг и пр.

WaybackMachine

Зачем нужен web archive и как его можно использовать

Веб-архивирование нужно для того, чтобы можно было восстановить важную утерянную информацию с сайта, которая может не сохраниться из-за технических проблем или повреждения вирусом.

Читайте так же:
Программы для переноса программ на другой диск

цифровой череп

Например, владелец сайта создал его и наполнил описанием продукции, полезными статьями и изображениями по тематике. Через время веб-ресурс был обновлен и тексты заменены на новые. А еще через время понадобились именно старые тексты. В таких случаях и нужен открытый интернет-архив, в котором можно найти десятки сохраненных версий сайта на разные даты.

  • Возможность восстановления собственного контента в случае повреждения или удаления старых текстов и изображений.
  • Просмотр старых файлов на других работающих веб-сайтах.
  • Анализ изменений наполнения онлайн-ресурсов (собственных и конкурентных).

газета и лупа

Сохранение авторского контента — это важная функция. Намного проще корректировать уже имеющиеся тексты, чем писать новые с нуля. Можно сделать рерайт (переписывание текста другим словами с сохранением смысла и структуры). Особенности использования резервных копий приведены в Табл. 1.

Табл. 1. Для каких целей можно использовать более ранний контент

ЦелиОсобенности применения
Восстановление сайтаБывают случаи непоправимого повреждения онлайн-ресурса — из-за вирусов, хакерских атак. Если не было проведено резервное копирование на своем хостинге, то можно будет найти свои тексты в веб-архиве
Наполнение сайта по похожей тематикеСтарый экспертный текст по своей тематике может понадобиться при создании лэндинга, вспомогательного онлайн-ресурса. Если тексты неуникальны, их нужно рерайтить
Ведение блогаДля привлечения трафика на профильный сайт нужно вести блог с текстами узкой тематики. Это могут быть советы по выбору товаров, использованию продукции и другой контент. Для написания таких текстов может потребоваться информация со старых копий веб-ресурса
Публикации на странице в социальных сетяхБизнес-аккаунт в соцсетях помогает поднять узнаваемость бренда и компании, привлечь новых покупателей, расширить рынки сбыта. Для постов в социальных сетях можно использовать тексты, которые ранее были опубликованы на сайте (если они не дублируются с новыми)

вкладки браузера

Как просмотреть старые версии сайтов на Wayback Machine

Если вам необходимо найти старую версию страниц какого-либо веб сайта, выполните следующие действия:

  1. Наберите в поисковой строке адрес https://web.archive.org/.
  2. С главной страницы архива сайтов перейдите по ссылке на нужный раздел (файлы, видео, изображения и пр.), укажите адрес домена и нажмите «BROWSE HISTORY».
  3. Во временной шкале будут отображены все копии сайтов. Словно с помощью машины времени, здесь можно найти любую созданную ранее архивную копию и даже скачать ее при помощи специальных инструментов.
  4. В открывшемся календаре можно выбрать дату, отмеченную зеленым или голубым кружком (диаметр этого кружка зависит от числа обращений робота сервиса к онлайн-проекту в указанный день). Зеленым кружком обозначены редиректы.

календарь WaybackMachine

Важно! Если веб-страницу через некоторое время не удается просмотреть, это может быть вызвано несколькими причинами:

  • Правообладатель обратился на платформу архива интернета с требованием удалить копии.
  • Сам веб-проект был закрыт из-за нарушения авторских прав и закона об использовании интеллектуальной собственности.
  • Разработчики закрыли страницы своего онлайн-ресурса от индексации роботами поисковых систем.

Если вы хотите посмотреть, как выглядел веб-сайт, но на сохраненной копии нет изображений или других элементов дизайна (иногда они не сохраняются), нужно открыть другую версию, которую веб-архив сохранил в другой день.

версия WaybackMachine

Как добавить современную версию сайта в веб-архив Wayback Machineи выполнить другие действия

Онлайн-платформа по веб-архивированию сайтов предоставляет множество возможностей разработчикам и владельцам ресурсов (Табл. 2).

Табл. 2. Как работать с веб-архивом

ВозможностиОсобенности выполнения
Сохранение нужной версии сайта на платформе интернет-архиваНужно самостоятельно инициировать сохранение. В разделе платформы «Save Page Now» нужно забить домен онлайн-ресурса и нажать «Save page». Такую процедуру рекомендуется повторять каждый раз, когда в контент были внесены исправления или дополнения
Запрет на добавление интернет-ресурса в память веб-архиваДля запрета добавления нужно прописать это в файле robots.txt. В панелях хостеров есть корневой каталог, в котором предусмотрена возможность редактирования файлов. При введении кода User-agent: ia_archiverDisallow: /User-agent: ia_archiver-web.archive.orgDisallow: / файл будет скрыт от копирования. При введении такого кода из веб-архива удаляется и текущая версия сайта и не осуществляется системное копирование (до тех пор, пока в файле robots.txt есть такие настройки или пока не закончится срок регистрации домена)
Восстановление веб-сайта из интернет-архиваЕсли сайт был поврежден вирусами или есть другие технические проблемы, из-за которых контент был нарушен, можно восстановить файлы из онлайн-хранилища. Для этого применяются специальные сервисы. Есть платные и бесплатные варианты, которые выбираются с учетом количества страниц для восстановления
Читайте так же:
Скачать MTK Droid Tools 2.5.3

новые URL в WaybackMachine

Уникальный контент из веб-архива

Многие коммерческие сайты через некоторое время существования закрываются. Если на них был опубликован полезный контент (экспертные статьи, аналитические обзоры и другая важная информация), то после закрытия первоисточника они могут быть востребованными. То есть, сайт уже не работает и ранее написанные статьи могут использоваться на информационных порталах (если они уникальны).

Веб-архив является очень полезным сервисом, который может пригодиться в различных ситуациях. Быстрое восстановление потерянных данных может значительно сэкономить время и финансы, если сайт подвергнется хакерской атаке или же перестанет работать из-за серьезной технической проблемы. Веб-архив дает возможность не только просматривать старые версии своего сайта, но и анализировать контент конкурентов, сохраненный в разные периоды времени.

Wayback Machine что это за сервис?

Ежедневно в интернете появляются тысячи различных веб-сайтов, наполненных всевозможной информацией. Естественно, все эти данные требуется где-то хранить. Именно с этой целью и был создан Wayback Machine. На сегодняшний день уже достаточно сложно представить количество хранившихся на нем ресурсов, но отсчет идет даже не с миллионных чисел.

Что такое Wayback-Machine

Зачем нужен Wayback Machine

Этот сервис предназначен для сохранения информации, находящейся на просторах интернета. Данные записываются абсолютно в любых форматах, будь это текстовые документы, музыка или фильмы. Доступ к файлам является свободным, то есть получить их может абсолютно любой заинтересованный пользователь.

Wayback Machine регулярно обновляется новыми сайтами, а так же отслеживает редактирование ранее созданных ресурсов. Сложный алгоритм работы стал возможен благодаря использованию специальных мини-программ, которые регулярно мониторят сеть на наличие новых появившихся ресурсов. В зависимости от популярности сайта и множества других критериев роботы посещают страницы с разной частотой.

Главная страница Интернет Архива

Все что требуется от пользователя – ввести поисковый запрос в пустую строку сервиса и ознакомиться с имеющейся информацией, выданной по ключевым словам. Здесь вы можете использовать специальные фильтры, которые позволяют отсортировать результаты согласно заданным вами критериям.

Немаловажным является то, что сервис сохраняет информацию не только о рабочих сайтах, а и о тех, которые уже не используются. Это может быть весьма полезным, при поиске специфической или не популярной информации.

Как работать с Wayback Machine

Сразу же после открытия основной страницы проекта вы увидите пустую графу поиска. Она собственно и носит название, которому просвещена эта статья. Введите интересующие вас ключевые слова и запустите поисковый процесс.

После обработки запроса вы увидите несколько ссылок с изображением искомого ресурса в разный период времени. Для открытия сайта достаточно выбрать дату, однако не следует забывать, что копии ресурса делаются не регулярно, и зависят от множества различных факторов.

Иногда информация, имеющаяся на сайте, может очень отличаться в различные временные интервалы. Это вызвано тем, что основной домен мог принадлежать ранее какой-либо другой компании, специализирующейся на какой-то другой тематике.

Отображение информации по сайту в Интернет Архиве

Этот сервис выполняет крайне важную функцию, позволяя отслеживать изменения, внесенные на сайты в разное время. Наиболее актуально это для пользователей, желающих приобрести какой-либо домен, и заинтересованных предварительно ознакомиться с историей адреса, но и просто случайный посетитель проекта сможет найти для себя много интересного.

Ссылка на основную публикацию
Adblock
detector