Re: Хитрый вопрос про wget:

Constantine Sat, 25 Oct 2008 19:02:53 -0700

Maxim Filimonov пишет:

On Sat, 25 Oct 2008 19:42:48 -0400
Nicholas <[EMAIL PROTECTED]> wrote:

Evgeniy M. Solodookhin wrote:

надо скачать сайт, который остался в кеше archive.org:
http://web.archive.org/web/20050822225400/http://www.ancient.ru/
внутри документов все ссылки неверные, типа:
"http://www.ancient.ru.way_back_stub/topics/data/index.htm";
но дукументы можно увидеть изменяя ссылки вот так:
http://web.archive.org/web/20050822225400/http://www.ancient.ru/topics/data/index.htm

скачать as is и прогнать через sed?

Ну так вам и предлагают скачать документ, прогнать его sed'ом, тем самым 
превратив нерабочие ссылки в рабочие, и отдать получившийся документ вгету, 
который уже получит рабочие ссылки.

Таким образом скачается лишь одна страница. И ссылок на ней может бытьмало. И таких страниц - куча. Каждую скачивать вручную и седом правитьссылки? Зачем тогда wget??

Я как-то качал оттуда. НО, насколько увидел, внутри ссылки меняются налокальные, типаhttp://web.archive.org/web/20050822225400/http://www.ancient.ru/topics/data/index.htmгде /20050822225400/ - дата создания копии. Можно просто скачать. Я вhttrack`е задавал шаблон типаhttp://web.archive.org/web/20050822225400/http://www.ancient.ru/* -что-то скачивалось... но не все, что хотелось - archive.org отдаетмедленно, чуть ли не одним потоком (как понимаю, там не любят роботов),и ссылка все время скидывалась к видуhttp://web.archive.org/web/20050822225400/ - плюс, не все старницы сайтаоказались скопированы сервисом.

Как вариант - дать адрес первой страницы wget`у, скачать, передать навход sed`a, обработать - после обработанное снова передать на входwget`а с соотв. опциями. Т.е. чтобы wget не сразу шел по ссылкам, апредварительно обрабатывалось в sed`e. После чего запускался отдельныйэкземпляр wget`a с указанием скачать конкретную ссылку или группуссылок. Скрипт.


--
С наилучшими,
Константин


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]

Re: Хитрый вопрос про wget:

Ответить