Presne tohle jsem resil zhruba pred 5 lety. A vyresil.

Knihovna JTidy - umi zpracovat skoro vsechno. Je to "vsezravec". Funguje
tam, kde si ostatni parsery lamou doslova zuby.

Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML nebo HTML5 take
nevim. Ale na mem projektu fungovala skvele (HTML 4).

Napiste jak jste pochodil.

LZ

-----
Later,
 Lukas
-- 
View this message in context: 
http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html
Sent from the konference java.cz mailing list archive at Nabble.com.

Odpovedet emailem