Dobrý den,

pro parse stránky používám metodu parseDOM třídy Tidy, která vrací instanci
org.w3c.dom.Document a s ní dále pracuju (obaluju některé části textových
řetězců elementy). Nakonec nechám metodou pprint dokument zapsat zpátky na
disk.

Nicméně kopii textového řetězce, který přidávám zpátky do elementů vnořených
do stránky, vytvářím (už proto, že obaluju jen některá slova, tj. původní
textový obsah musím rozdělit na podřetězce a teprve ty vkládám zpátky -
některé obalené, jiné ne).

Díky
Dušan Rychnovský

Dne 18. března 2011 11:50 Filip Jirsák <fi...@jirsak.org> napsal(a):

> Zdravím,
> počítáte s tím, že SAX parser vám jako text (metoda characters()) posílá
> pohled na živá data, tj. pokud s nimi chcete později pracovat, musíte si
> udělat kopii?
>
> S pozdravem
>
> Filip Jirsák
>
>
>
> 2011/3/18 Dušan Rychnovský <geraltzri...@gmail.com>
>
>> Dobrý den,
>>
>> snažím se do různých HTML stránek vkládat automaticky pomocí JTidy
>> elementy. Například chci určitý text obalit elementem span, takže text
>> odstraním a na jeho místo vložím span, kterému nastavím (jako
>> potomka) zpátky ten text.
>>
>> Bohužel u složitějších webů (například http://www.akcie.cz/) dostávám
>> při následném uložení změněného dokumentu na disk (pomocí pprint)
>> StringIndexOutOfBoundsException. Pokud soubor zparsuju a beze změny
>> jej zase uložím pomocí pprint, chybu nedostávám. Nemyslím si ale, že
>> je chyba byla v mém kódu (navíc u jednodušších stránek proces funguje
>> správně).
>>
>> Máte s tímto někdo zkušenost nebo víte kde by mohla být chyba?
>>
>> Děkuju
>> Dušan Rychnovský
>>
>
>

Odpovedet emailem