Re: Parsing HTML stránek

Dušan Rychnovský Sat, 19 Feb 2011 05:57:58 -0800

Dobrý den,

zkoumal jsem trochu parser JTidy a zdá se být dobrý, ale chybí mi jedna věc.
Metoda pro parsování HTML stránky vrací objekt org.w3c.dom.Document, který
neimplementuje rozhraní Serializable.


Ve svém programu nad HTML stránkou vždy postavím DOM a následně si tvořím
pomocný strom, jehož vrcholy obsahují reference na některé uzly stromu DOM a
uchovávají o nich další informace. Celou tuto strukturu chci při ukončení
programu serializovat tak, aby se zachovaly vazby na uzly stromu DOM
(potažmo na příslušné tagy HTML stránky). Existuje nějaký způsob, jak
donutit  org.w3c.dom.Document k takovéto serializaci?

Tyto pomocné informace nemůžu ukládat do HTML stránky a DOM stavět vždy při
spuštění programu znovu, protože program má uchovávat několik desítek
stránek a jejich opětovné parsování při spuštění programu by bylo asi pomalé
(počítám, že deserializace struktury z disku bude o mnoho rychlejší).

Děkuju
Dušan Rychnovský

Dne 19. února 2011 11:15 Michal Bernhard <[email protected]> napsal(a):

> Muzete prosim vsichni, co jste tu psali, ze jste to taky resili, napsat
> konkretni usecase?
> Zajimalo by me proc vznikne takovy pozadavek a zaroven a jestli se to neda
> resit elegantneji treba kombinaci
> firefox/chrome + greasemonkey + treba jquery.
>
> Dekuji :)
>
> Michal
> http://twitter.com/#!/michalb_cz
>
> 2011/2/18 Lukas "lzap" Zapletal <[email protected]>
>
>
>> Presne tohle jsem resil zhruba pred 5 lety. A vyresil.
>>
>> Knihovna JTidy - umi zpracovat skoro vsechno. Je to "vsezravec". Funguje
>> tam, kde si ostatni parsery lamou doslova zuby.
>>
>> Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML nebo HTML5 take
>> nevim. Ale na mem projektu fungovala skvele (HTML 4).
>>
>> Napiste jak jste pochodil.
>>
>> LZ
>>
>> -----
>> Later,
>>  Lukas
>> --
>> View this message in context:
>> http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html
>> Sent from the konference java.cz mailing list archive at Nabble.com.
>>
>>
>

Re: Parsing HTML stránek

Odpovedet emailem