Dobrý den, zkoumal jsem trochu parser JTidy a zdá se být dobrý, ale chybí mi jedna věc. Metoda pro parsování HTML stránky vrací objekt org.w3c.dom.Document, který neimplementuje rozhraní Serializable.
Ve svém programu nad HTML stránkou vždy postavím DOM a následně si tvořím pomocný strom, jehož vrcholy obsahují reference na některé uzly stromu DOM a uchovávají o nich další informace. Celou tuto strukturu chci při ukončení programu serializovat tak, aby se zachovaly vazby na uzly stromu DOM (potažmo na příslušné tagy HTML stránky). Existuje nějaký způsob, jak donutit org.w3c.dom.Document k takovéto serializaci? Tyto pomocné informace nemůžu ukládat do HTML stránky a DOM stavět vždy při spuštění programu znovu, protože program má uchovávat několik desítek stránek a jejich opětovné parsování při spuštění programu by bylo asi pomalé (počítám, že deserializace struktury z disku bude o mnoho rychlejší). Děkuju Dušan Rychnovský Dne 19. února 2011 11:15 Michal Bernhard <mbernh...@atlas.cz> napsal(a): > Muzete prosim vsichni, co jste tu psali, ze jste to taky resili, napsat > konkretni usecase? > Zajimalo by me proc vznikne takovy pozadavek a zaroven a jestli se to neda > resit elegantneji treba kombinaci > firefox/chrome + greasemonkey + treba jquery. > > Dekuji :) > > Michal > http://twitter.com/#!/michalb_cz > > 2011/2/18 Lukas "lzap" Zapletal <luka...@zapletalovi.com> > > >> Presne tohle jsem resil zhruba pred 5 lety. A vyresil. >> >> Knihovna JTidy - umi zpracovat skoro vsechno. Je to "vsezravec". Funguje >> tam, kde si ostatni parsery lamou doslova zuby. >> >> Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML nebo HTML5 take >> nevim. Ale na mem projektu fungovala skvele (HTML 4). >> >> Napiste jak jste pochodil. >> >> LZ >> >> ----- >> Later, >> Lukas >> -- >> View this message in context: >> http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html >> Sent from the konference java.cz mailing list archive at Nabble.com. >> >> >