Maxim Filimonov пишет:
On Sat, 25 Oct 2008 19:42:48 -0400
Nicholas <[EMAIL PROTECTED]> wrote:
Evgeniy M. Solodookhin wrote:
надо скачать сайт, который остался в кеше archive.org:
http://web.archive.org/web/20050822225400/http://www.ancient.ru/
внутри документов все ссылки неверные, типа:
"http://www.ancient.ru.way_back_stub/topics/data/index.htm"
но дукументы можно увидеть изменяя ссылки вот так:
http://web.archive.org/web/20050822225400/http://www.ancient.ru/topics/data/index.htm
скачать as is и прогнать через sed?
Ну так вам и предлагают скачать документ, прогнать его sed'ом, тем самым
превратив нерабочие ссылки в рабочие, и отдать получившийся документ вгету,
который уже получит рабочие ссылки.
Таким образом скачается лишь одна страница. И ссылок на ней может быть
мало. И таких страниц - куча. Каждую скачивать вручную и седом править
ссылки? Зачем тогда wget??
Я как-то качал оттуда. НО, насколько увидел, внутри ссылки меняются на
локальные, типа
http://web.archive.org/web/20050822225400/http://www.ancient.ru/topics/data/index.htm
где /20050822225400/ - дата создания копии. Можно просто скачать. Я в
httrack`е задавал шаблон типа
http://web.archive.org/web/20050822225400/http://www.ancient.ru/* -
что-то скачивалось... но не все, что хотелось - archive.org отдает
медленно, чуть ли не одним потоком (как понимаю, там не любят роботов),
и ссылка все время скидывалась к виду
http://web.archive.org/web/20050822225400/ - плюс, не все старницы сайта
оказались скопированы сервисом.
Как вариант - дать адрес первой страницы wget`у, скачать, передать на
вход sed`a, обработать - после обработанное снова передать на вход
wget`а с соотв. опциями. Т.е. чтобы wget не сразу шел по ссылкам, а
предварительно обрабатывалось в sed`e. После чего запускался отдельный
экземпляр wget`a с указанием скачать конкретную ссылку или группу
ссылок. Скрипт.
--
С наилучшими,
Константин
--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]