Фото из сети Интернет
Более 50 лет существования интернета подарили огромный объем контента, размещенного на страницах сайтов. Несмотря на то, что многие уже не существуют, сегодня можно получить доступ к информации, которая содержалась на веб-ресурсах много лет назад. Это становится возможным благодаря архивации данных на открытой платформе, которая называется Wayback Machine. Сервис использует для хранения данных более 750 выделенных серверов, установленных в четырех дата-центрах, на которых сейчас заархивировано около 625 млрд страниц контента. Сегодня интернет-архив позволяет проникнуть в прошлое и узнать, какой контент и дизайн страниц были популярны в разные периоды.
Но прежде чем использовать веб-архив Wayback Machine, следует поговорить об истории создания самого инструмента .
Как была разработана программа Wayback Machine
Проблема хранения информации в интернете беспокоила изобретателей веб-архива Кале и Джиллиата с конца 90-х годов прошлого века. Это связано с тем, что контент на сайтах исчезает, когда владелец больше не может оплачивать домен и хостинг, или по каким-то причинам решил удалить веб-ресурс. Книги, фильмы или газеты могут храниться в библиотечных архивах, ведь носят материальный характер, однако доступ к онлайн-информации на тот момент был возможен только в режиме реального времени.
В начале двухтысячных лет энтузиастами была создана компания Internet Archive, преследовавшая большую цель — осуществить архивирование информации по всему интернету. Некоммерческая организация была зарегистрирована в 2001 году, при этом за 5 лет до этого уже существовал проект поиска и хранения информации под названием Wayback Machine. На момент торжественного открытия компании учредителям уже было что показать общественности.
После пяти лет функционирования Wayback Machine насчитывал более 10 млрд. страниц, а после 2020 года наполнение архива пересекло отметку в 70 петабайдов. К примеру, в одном петабайте содержатся 1024 терабайта информации. Зачем нужен интернет-архив
Этот инструмент очень полезен для веб-специалистов. В веб-архив дополнительно разработан специальный поисковый робот, автоматически просматривающий страницы сайтов и хранящий материалы.
Сканирование краулера Wayback Machine осуществляется по своему графику и косвенно зависит от регулярности и количества обновлений информации на веб-ресурсах. Чем чаще обновляется контент, тем чаще на сайт будет заходить краулер.
Для чего нужен архив Wayback Machine:
Как работать с Wayback Machine
В первую очередь нужно перейти на главный сайт веб-архива web.archive.org. Использование сервиса достаточно просто: необходимо только ввести адрес сайта, который вы планируете исследовать, в поисковую форму.
Результатом выдачи станет информация о графике активности краулера, размещенной в верхней части сайта. Несколько ниже пользователь сможет увидеть календарь, в котором отмечены данные о фиксации снапшотов (снимков системы файлов). Информация о сайте доступна только за дни, отмеченные кругами синего и зеленого цвета. Для получения более подробной информации о состоянии веб-ресурса необходимо выбрать один снапшот и кликнуть на него. Например, так выглядит календарь активности краулера на страницах Facebook в 2022 году.
На сохраненных сайтах функционирует вся навигация, поэтому можно походить по страницам и посмотреть функционал и наполнение старой версии.
Прочие материалы в Internet Archive
Стоит отметить, что Web-archive является частью крупного проекта Internet archive. Платформа хранит не только информацию с сайтов, но и другие материалы, когда-либо публиковавшиеся в сети. Это так называемые «цифровые артефакты», к которым относятся видео, текст, аудио, приложения и картинки.
Интернет-архив позволяет ознакомиться с таким контентом как аудиокниги (преимущественно на английском языке), документальные фильмы, радиопередачи, архивные новости из газет и телевидения, музыкальные записи и другие данные, которые могут заинтересовать любого исследователя. Очень познавательный раздел с программным обеспечением, в котором можно найти старые игры и программы, которые еще устанавливались с дискет. , 4 млн картинок, почти 8 миллионов программ, 14 млн аудиофайлов и более 7 млн видео.
Но в архиве можно увидеть не только старые данные возрастом в 10 , 20 или даже 100 лет, но и современные материалы. Ведь проект и разор продолжает развиваться и сохранять терабайты информации, которая в будущем также станет историей.
Компания AMAZONE с радостью сообщает, что при условии официального одобрения бразильский производитель распределителей удобрений MP…
28-29 мая в Киеве состоится крупнейший в Украине двухдневный форум в отраслях выращивания, хранения, переработки,…
ALFA Smart Agro – среди первых компаний, которые присоединились к новому сервису для аграриев WEAGRO.…
С июля 2023 года на рынке земель сельскохозяйственного назначения наблюдается устойчивая тенденция роста количества сделок…
Приглашаем присоединиться к Полевому Дню Регенеративного Земледелия, организованного YouTube каналом No-Tiller. Это будет эксклюзивное мероприятие…