Wayback Machine Downloader — Скачиваем сайты бесплатно

Содержание страницы

Однажды потребовалось скачать сайт с web.archive.org. Archivarix.com и r-tools.org не нужны, так как это тот же Wayback Machine Downloader, только платные и работают только через веб-морду. В 2024 году. Некоторые читатели попытались обвинить меня в предвзятости, мотивируя тем, что Архиварикс — лучший инструмент для восстановления сайтов. Всё аргументы были в сторону cms Архиварикса. И те о том, что она удобная. Поднять отдельный фронтенд для редактирования html-файлов — топ, консоль — слишком сложно.

Я пошёл сложным путём, го со мной.

Wayback Machine Downloader

Чтобы скачивать сайты с Вебархива бесплатно воспользуемся бесплатной консольной утилитой Wayback Machine Downloader. Я ставил под macOS, мануал будет под неё же.

Установка Wayback Machine Downloader

Открываем терминал и вводим команду:

sudo gem install wayback_machine_downloader

Как скачать сайт с Вебархива бесплатно

После установки Wayback Machine Downloader вводите команду:

wayback_machine_downloader http://example.com

Где http://example.com — сайт, который нужно скачать.

Параметры для скачивания

  • -d, –directory PATH: Категория для сохранения загруженных файлов. По умолчанию это ~/websites/ плюс имя домена;
  • -s, –all-timestamps: Скачать все снимки для данного сайта;
  • -f, –from TIMESTAMP: Скачать только файлы в указанный момент времени или после него (например 20060716231334);
  • -t, –to TIMESTAMP: Скачать только файлы в указанной временной метке или до нее (например 20100916231334);
  • -e, –exact-url: Загружать только указанный url, а не полный сайт;
  • -o, –only ONLY_FILTER: Ограничить загрузку только теми адресами, которые соответствуют данному фильтру. (используйте нотацию //, чтобы фильтр рассматривался как regex);
  • -x, –exclude EXCLUDE_FILTER: Пропустить загрузку ссылок, соответствующих этому фильтру (используйте // обозначения для фильтра, чтобы он рассматривался как регекс);
  • -a, –all: Скачивать файлы ошибок (40x и 50x) и перенаправления (30x);
  • -c, –concurrency NUMBER: Во сколько потоков скачивать сайт (по умолчани работает в 1 поток);
  • -p, –maximum-snapshot NUMBER: Максимальное количество снапшотов (по умолчанию 100);
  • -l, –list: Вывести список адресов файлов в формате JSON с архивными метками времени, ничего не скачивая;
  • -v, –version: Показать версию Wayback Machine Downloader.

Вопросы в файлах

Всё идеально, только у файлов в заголовке иногда сохраняются get-запросы. Был style.css, стал style.css?ver=666, а у вас в консоли ошибки. Для исправления запустите эту команду, находясь в директории со слитым сайтом.

find . -type f -name '*\?*' -exec sh -c 'mv "$0" "${0%%\?*}"' {} \;

У меня не работает/ошибки, что делать?

Не знаю. И по почте не проконсультирую, даже не ждите ответа.