Проект Internet Archive сообщил о символическом рубеже: в его коллекции появилась триллионная сохранённая веб-страница. На этот результат ушло почти 30 лет – архив начали создавать в 1996 году, пишет Popular Science.

Достижение выглядит особенно весомо на фоне того, что сам интернет остаётся средой крайне нестабильной. Цифровой контент не имеет гарантированного срока жизни: сайт может закрыться, сервер – выйти из строя, компания – сменить курс. И тогда исчезают целые архивы информации.
Один из самых громких примеров произошёл в 2019 году. Платформа MySpace признала, что из-за ошибки при переносе данных были утрачены все пользовательские загрузки за 2003–2015 годы. В результате пропали около 50 миллионов музыкальных треков от 14 миллионов артистов.
Internet Archive пытается минимизировать такие потери. Организация использует веб-краулеры для сохранения публично доступных сайтов, а также принимает материалы от волонтёров – книги, аудио, редкие записи и другие форматы.
Сегодня в фондах архива – более 866 миллиардов веб-страниц, 41 миллион текстов и миллионы других цифровых объектов. Ежедневно добавляется около 500 миллионов новых страниц. Совокупный объём данных достиг примерно 100 000 терабайт – это сопоставимо с заполнением 50 тысяч флагманских смартфонов максимальной конфигурации.
При этом будущее цифрового архивирования становится сложнее. Технологические компании активно собирают интернет-данные для обучения систем искусственного интеллекта. На этом фоне ряд крупных медиа – в том числе The New York Times, The Guardian и USA Today/Gannett – ограничивают доступ к своему новому контенту для Archive, чтобы предотвратить его использование в генеративных ИИ-моделях.
Internet Archive основан в 1996 году предпринимателем Брюстером Кейлом. Самый известный сервис проекта – Wayback Machine, позволяющий просматривать архивные версии сайтов разных лет.