Re: Parsing HTML stránek

Oto Buchta Sun, 20 Feb 2011 14:30:34 -0800

2011/2/20 Robert Novotny <[email protected]>:
> Preco si myslite, ze Java serializacia bude rychlejsia nez serializacia do
> textaku? (Ved prirodzenou
> formou serializacie XML je text)


Tady podle mne nejde ani tak o serializaci, jako spis deserializaci.

> Podla mna si urobte kratky test na velkej stranke (povedzme 10MB) a zistite,
> ci je to pomale
> alebo nie, lebo mam pocit, ze zatial riesite predcasnu optimalizaciu
> sposobom, ktory
> moze zredukovat pouzitelne technologie na prazdnu mnozinu :-)

Naprosty souhlas. Pokud nebude kazdou vterinu stovka pozadavku,
ale spis jeden za nekolik vterin, vubec bych to neresil.

> On 19. 2. 2011 14:58, Dušan Rychnovský wrote:
>
> Zkoumal jsem i http://about.validator.nu/htmlparser/ a zdá se, že
> serializaci rovněž nepodporuje.
>
> 2011/2/19 Dušan Rychnovský <[email protected]>
>>
>> Dobrý den,
>>
>> zkoumal jsem trochu parser JTidy a zdá se být dobrý, ale chybí mi jedna
>> věc. Metoda pro parsování HTML stránky vrací objekt org.w3c.dom.Document,
>> který neimplementuje rozhraní Serializable.
>> Ve svém programu nad HTML stránkou vždy postavím DOM a následně si tvořím
>> pomocný strom, jehož vrcholy obsahují reference na některé uzly stromu DOM a
>> uchovávají o nich další informace. Celou tuto strukturu chci při ukončení
>> programu serializovat tak, aby se zachovaly vazby na uzly stromu DOM
>> (potažmo na příslušné tagy HTML stránky). Existuje nějaký způsob, jak
>> donutit  org.w3c.dom.Document k takovéto serializaci?
>> Tyto pomocné informace nemůžu ukládat do HTML stránky a DOM stavět vždy
>> při spuštění programu znovu, protože program má uchovávat několik desítek
>> stránek a jejich opětovné parsování při spuštění programu by bylo asi pomalé
>> (počítám, že deserializace struktury z disku bude o mnoho rychlejší).
>> Děkuju
>> Dušan Rychnovský
>> Dne 19. února 2011 11:15 Michal Bernhard <[email protected]> napsal(a):
>>>
>>> Muzete prosim vsichni, co jste tu psali, ze jste to taky resili, napsat
>>> konkretni usecase?
>>> Zajimalo by me proc vznikne takovy pozadavek a zaroven a jestli se to
>>> neda resit elegantneji treba kombinaci
>>> firefox/chrome + greasemonkey + treba jquery.
>>> Dekuji :)
>>> Michal
>>> http://twitter.com/#!/michalb_cz
>>>
>>> 2011/2/18 Lukas "lzap" Zapletal <[email protected]>
>>>>
>>>> Presne tohle jsem resil zhruba pred 5 lety. A vyresil.
>>>>
>>>> Knihovna JTidy - umi zpracovat skoro vsechno. Je to "vsezravec". Funguje
>>>> tam, kde si ostatni parsery lamou doslova zuby.
>>>>
>>>> Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML nebo HTML5 take
>>>> nevim. Ale na mem projektu fungovala skvele (HTML 4).
>>>>
>>>> Napiste jak jste pochodil.
>>>>
>>>> LZ
>>>>
>>>> -----
>>>> Later,
>>>>  Lukas
>>>> --
>>>> View this message in context:
>>>> http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html
>>>> Sent from the konference java.cz mailing list archive at Nabble.com.
>>>>
>>>
>>
>
>
>



-- 
Oto 'tapik' Buchta, [email protected], http://tapikuv.blogspot.com

Re: Parsing HTML stránek

Odpovedet emailem