Pred x lety jsem si pro sebe vytvoril nastroj na automaticke stahovani inzeratu o autech z jednoho velkeho inzertniho serveru :-)

Na stahovani a nacteni tech spravnych odstavcu textu jsem pouzil HTTPUnit. Ten umi vyplnovat formulare a klikat na tlacitka, takze se dalo prochazet i vic stranek s vysledky. Fungovalo to dost slusne. Pomoci regularnich vyrazu se z holeho textu inzeratu daly vyextrahovat dalsi udaje o aute: znacka, typ, rok vyroby, cena, telefon/email na prodejce apod. To jsem pak ukladal do SQL databaze. Pomoci SQL pak slo zjistit jak pada cena daneho auta (nebo obecne modelu) a jestli je to nabidka soukromnika nebo bazaru (kdyz pro jedno telefonni cislo existovalo treba 50 inzeratu na ruzna auta).

Petr

On 19.02.2011 17:39, Robert Novotny wrote:
Typicka uloha: na serveri stahujete periodicky HTML stranky
a automaticky z nich extrahujete relevantne udaje.

Technologie prehliadaca vam v tom nepomozu, lebo
to neviete automatizovat a na strane servera si to zrejme nespustite.

RN

On 19. 2. 2011 11:15, Michal Bernhard wrote:
Muzete prosim vsichni, co jste tu psali, ze jste to taky resili,
napsat konkretni usecase?
Zajimalo by me proc vznikne takovy pozadavek a zaroven a jestli se to
neda resit elegantneji treba kombinaci
firefox/chrome + greasemonkey + treba jquery.

Dekuji :)

Michal
http://twitter.com/#!/michalb_cz <http://twitter.com/#%21/michalb_cz>

2011/2/18 Lukas "lzap" Zapletal <luka...@zapletalovi.com
<mailto:luka...@zapletalovi.com>>


    Presne tohle jsem resil zhruba pred 5 lety. A vyresil.

    Knihovna JTidy - umi zpracovat skoro vsechno. Je to "vsezravec".
    Funguje
    tam, kde si ostatni parsery lamou doslova zuby.

    Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML nebo HTML5
    take
    nevim. Ale na mem projektu fungovala skvele (HTML 4).

    Napiste jak jste pochodil.

    LZ

    -----
    Later,
     Lukas
    --
    View this message in context:
    
http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html
    Sent from the konference java.cz <http://java.cz> mailing list
    archive at Nabble.com.



Odpovedet emailem