Wayback Machine Downloader — Скачиваем сайты бесплатно
- EN
- RU
Содержание страницы
Однажды потребовалось скачать сайт с web.archive.org. Archivarix.com и r-tools.org не нужны, так как это тот же Wayback Machine Downloader, только платные и работают только через веб-морду. В 2024 году. Некоторые читатели попытались обвинить меня в предвзятости, мотивируя тем, что Архиварикс — лучший инструмент для восстановления сайтов. Всё аргументы были в сторону cms Архиварикса. И те о том, что она удобная. Поднять отдельный фронтенд для редактирования html-файлов — топ, консоль — слишком сложно.
Я пошёл сложным путём, го со мной.
Wayback Machine Downloader
Чтобы скачивать сайты с Вебархива бесплатно воспользуемся бесплатной консольной утилитой Wayback Machine Downloader. Я ставил под macOS, мануал будет под неё же.
Установка Wayback Machine Downloader
Открываем терминал и вводим команду:
sudo gem install wayback_machine_downloader
Как скачать сайт с Вебархива бесплатно
После установки Wayback Machine Downloader вводите команду:
wayback_machine_downloader http://example.com
Где http://example.com — сайт, который нужно скачать.
Параметры для скачивания
- -d, –directory PATH: Категория для сохранения загруженных файлов. По умолчанию это ~/websites/ плюс имя домена;
- -s, –all-timestamps: Скачать все снимки для данного сайта;
- -f, –from TIMESTAMP: Скачать только файлы в указанный момент времени или после него (например 20060716231334);
- -t, –to TIMESTAMP: Скачать только файлы в указанной временной метке или до нее (например 20100916231334);
- -e, –exact-url: Загружать только указанный url, а не полный сайт;
- -o, –only ONLY_FILTER: Ограничить загрузку только теми адресами, которые соответствуют данному фильтру. (используйте нотацию //, чтобы фильтр рассматривался как regex);
- -x, –exclude EXCLUDE_FILTER: Пропустить загрузку ссылок, соответствующих этому фильтру (используйте // обозначения для фильтра, чтобы он рассматривался как регекс);
- -a, –all: Скачивать файлы ошибок (40x и 50x) и перенаправления (30x);
- -c, –concurrency NUMBER: Во сколько потоков скачивать сайт (по умолчани работает в 1 поток);
- -p, –maximum-snapshot NUMBER: Максимальное количество снапшотов (по умолчанию 100);
- -l, –list: Вывести список адресов файлов в формате JSON с архивными метками времени, ничего не скачивая;
- -v, –version: Показать версию Wayback Machine Downloader.
Вопросы в файлах
Всё идеально, только у файлов в заголовке иногда сохраняются get-запросы. Был style.css, стал style.css?ver=666, а у вас в консоли ошибки. Для исправления запустите эту команду, находясь в директории со слитым сайтом.
find . -type f -name '*\?*' -exec sh -c 'mv "$0" "${0%%\?*}"' {} \;
У меня не работает/ошибки, что делать?
Не знаю. И по почте не проконсультирую, даже не ждите ответа.