Для чего нужен веб-архив Wayback Machine

Фото из сети Интернет

Более 50 лет существования интернета подарили огромный объем контента, размещенного на страницах сайтов. Несмотря на то, что многие уже не существуют, сегодня можно получить доступ к информации, которая содержалась на веб-ресурсах много лет назад. Это становится возможным благодаря архивации данных на открытой платформе, которая называется Wayback Machine. Сервис использует для хранения данных более 750 выделенных серверов, установленных в четырех дата-центрах, на которых сейчас заархивировано около 625 млрд страниц контента. Сегодня интернет-архив позволяет проникнуть в прошлое и узнать, какой контент и дизайн страниц были популярны в разные периоды.

Интересным веб-архивом будет и для простых пользователей. Хотите узнать о том, как выглядела поисковая система Google или соцсеть Facebook на начальном этапе создания? Отправиться в прошлое интернет и увидеть, каким он был 15-20 лет назад? Это доступно любому, кто имеет компьютер и подключение к сети.

Но прежде чем использовать веб-архив Wayback Machine, следует поговорить об истории создания самого инструмента .

Как была разработана программа Wayback Machine

Проблема хранения информации в интернете беспокоила изобретателей веб-архива Кале и Джиллиата с конца 90-х годов прошлого века. Это связано с тем, что контент на сайтах исчезает, когда владелец больше не может оплачивать домен и хостинг, или по каким-то причинам решил удалить веб-ресурс. Книги, фильмы или газеты могут храниться в библиотечных архивах, ведь носят материальный характер, однако доступ к онлайн-информации на тот момент был возможен только в режиме реального времени.

В начале двухтысячных лет энтузиастами была создана компания Internet Archive, преследовавшая большую цель — осуществить архивирование информации по всему интернету. Некоммерческая организация была зарегистрирована в 2001 году, при этом за 5 лет до этого уже существовал проект поиска и хранения информации под названием Wayback Machine. На момент торжественного открытия компании учредителям уже было что показать общественности.

После пяти лет функционирования Wayback Machine насчитывал более 10 млрд. страниц, а после 2020 года наполнение архива пересекло отметку в 70 петабайдов. К примеру, в одном петабайте содержатся 1024 терабайта информации. Зачем нужен интернет-архив

Этот инструмент очень полезен для веб-специалистов. В веб-архив дополнительно разработан специальный поисковый робот, автоматически просматривающий страницы сайтов и хранящий материалы.

Сканирование краулера Wayback Machine осуществляется по своему графику и косвенно зависит от регулярности и количества обновлений информации на веб-ресурсах. Чем чаще обновляется контент, тем чаще на сайт будет заходить краулер.

Для чего нужен архив Wayback Machine:

веб-архивом следует воспользоваться перед заказом доменного имени. При регистрации домена владелец не знает, было ли это имя в использовании до того. Но эта информация открыта — с помощью сервиса Whois можно узнать время создания домена, а в веб-архиве — увидеть контент, который был размещен на нем раньше. Это очень ценная информация, ведь история домена влияет на его продвижение.
для проверки доменов-доноров перед получением бэклинков с целью развития ссылочного профиля своего сайта. Сотрудничество с веб-ресурсами, имеющими хорошую историю, может значительно усилить позиции в поисковике. При этом ссылка из старых трастовых доменов Google оценивает выше, чем из молодых.
с целью получения информации об истории развития интернета. Общая задача веб-архива — это исследование. Wayback Machine является очень большим источником информации, в который входят наиболее актуальные данные не только прошлого, но и настоящего. Например, можно посмотреть, какой дизайн имели сайты на рассвете своего существования или найти удаленный контент.

Как работать с Wayback Machine

В первую очередь нужно перейти на главный сайт веб-архива web.archive.org. Использование сервиса достаточно просто: необходимо только ввести адрес сайта, который вы планируете исследовать, в поисковую форму.

Результатом выдачи станет информация о графике активности краулера, размещенной в верхней части сайта. Несколько ниже пользователь сможет увидеть календарь, в котором отмечены данные о фиксации снапшотов (снимков системы файлов). Информация о сайте доступна только за дни, отмеченные кругами синего и зеленого цвета. Для получения более подробной информации о состоянии веб-ресурса необходимо выбрать один снапшот и кликнуть на него. Например, так выглядит календарь активности краулера на страницах Facebook в 2022 году.

На сохраненных сайтах функционирует вся навигация, поэтому можно походить по страницам и посмотреть функционал и наполнение старой версии.

Прочие материалы в Internet Archive

Стоит отметить, что Web-archive является частью крупного проекта Internet archive. Платформа хранит не только информацию с сайтов, но и другие материалы, когда-либо публиковавшиеся в сети. Это так называемые «цифровые артефакты», к которым относятся видео, текст, аудио, приложения и картинки.

Интернет-архив позволяет ознакомиться с таким контентом как аудиокниги (преимущественно на английском языке), документальные фильмы, радиопередачи, архивные новости из газет и телевидения, музыкальные записи и другие данные, которые могут заинтересовать любого исследователя. Очень познавательный раздел с программным обеспечением, в котором можно найти старые игры и программы, которые еще устанавливались с дискет. , 4 млн картинок, почти 8 миллионов программ, 14 млн аудиофайлов и более 7 млн видео.

Но в архиве можно увидеть не только старые данные возрастом в 10 , 20 или даже 100 лет, но и современные материалы. Ведь проект и разор продолжает развиваться и сохранять терабайты информации, которая в будущем также станет историей.

Василь Блажко

Редактор отдела – магистр агроном Национальный Аграрный университет (2014 год). Опыт работы в журналистике 7 лет, с 2014 года работаю на Суперсадовнике