Однажды потребовалось скачать сайт с web.archive.org. Archivarix.com и r-tools.org не нужны, так как это тот же Wayback Machine Downloader, только платные и работают только через веб-морду. В 2023 году.

Некоторые читатели попытались обвинить меня в предвзятости, мотивируя тем, что Архиварикс — лучший инструмент для восстановления сайтов. Всё аргументы были в сторону cms Архиварикса. И те о том, что она удобная. Поднять отдельный фронтенд для редактирования html-файлов — топ, консоль — слишком сложно.

Кстати, в чём разница между java и javascript? 🤔 🤔 🤔

Преимущества Архиварикса

Наверное случайная опечатка висит так много лет.

Рекомендую пойти чуть более сложным, но более гибким способом.

Если вам нужно слить большой сайт с Вебархива, есть терминал и 5 минут на настройку — можно обойтись без сторонних сервисов + бесплатно.

Wayback Machine Downloader

Чтобы скачивать сайты с Вебархива бесплатно воспользуемся бесплатной консольной утилитой Wayback Machine Downloader. Я ставил под macOS, мануал будет под неё же.

Установка Wayback Machine Downloader

Открываем терминал и вводим команду:

sudo gem install wayback_machine_downloader

Как скачать сайт с Вебархива бесплатно

После установки Wayback Machine Downloader вводите команду:

wayback_machine_downloader http://example.com

Где http://example.com — сайт, который нужно скачать.

Параметры для скачивания

  • -d, —directory PATH: Категория для сохранения загруженных файлов. По умолчанию это ~/websites/ плюс имя домена;
  • -s, —all-timestamps: Скачать все снимки для данного сайта;
  • -f, —from TIMESTAMP: Скачать только файлы в указанный момент времени или после него (например 20060716231334);
  • -t, —to TIMESTAMP: Скачать только файлы в указанной временной метке или до нее (например 20100916231334);
  • -e, —exact-url: Загружать только указанный url, а не полный сайт;
  • -o, —only ONLY_FILTER: Ограничить загрузку только теми адресами, которые соответствуют данному фильтру. (используйте нотацию //, чтобы фильтр рассматривался как regex);
  • -x, —exclude EXCLUDE_FILTER: Пропустить загрузку ссылок, соответствующих этому фильтру (используйте // обозначения для фильтра, чтобы он рассматривался как регекс);
  • -a, —all: Скачивать файлы ошибок (40x и 50x) и перенаправления (30x);
  • -c, —concurrency NUMBER: Во сколько потоков скачивать сайт (по умолчани работает в 1 поток);
  • -p, —maximum-snapshot NUMBER: Максимальное количество снапшотов (по умолчанию 100);
  • -l, —list: Вывести список адресов файлов в формате JSON с архивными метками времени, ничего не скачивая;
  • -v, —version: Показать версию Wayback Machine Downloader.

Вопросы в файлах

Всё идеально, только у файлов в заголовке иногда сохраняются get-запросы. Был style.css, стал style.css?ver=666, а у вас в консоли ошибки. Для исправления запустите эту команду, находясь в директории со слитым сайтом.

find . -type f -name '*\?*' -exec sh -c 'mv "$0" "${0%%\?*}"' {} \;

У меня не работает/ошибки, что делать?

Не знаю. И по почте не проконсультирую, даже не ждите ответа.