Hi,

On 10/14/20 11:17 AM, Ondrej Beranek wrote:
> toliko novinky. Děláte někdo na něčem ?
Ano, jako obvykle na softwaru, a jako obvykle mi chybí hardware... :-)

Pro https://www.hlidacstatu.cz/ stahuju majetková přiznání veřejných činitelů z 
https://cro.justice.cz/ (což není takový problém) obohacené z 
https://www.wikidata.org/wiki/Wikidata:Main_Page (což je výzva, protože na 99% 
tam ty osoby prostě nejsou, a když už jsou, je ten graf dost velký, složitý, 
chybný a nestabilní), a jak tak přidávám nové a nové dotazy, trvá mi teď jeden 
run (cca. 5e4 přiznání + 1e5 dynamických dotazů) 4 dny, což směřuje mé myšlenky 
k optimalizaci... Bottleneck je patrně hledání ve wikidatech (na objem se 
stahuje jen pár mega); jeho zjevnou optimalizací je paralelizace, kterou ovšem 
wikidata nerada vidí (HTTP 429) - takže je otázkou viděla-li by paralelizaci 
přes více IP, které ovšem nemám...

Uvažoval jsem o cloudu, ale moje poslední pokusy na AWS vedly akorát k výdajům 
za nezrušené předplatné, takže přemýšlím o komunitnějších variantách - nenašlo 
by se v Brmlabu pár linuxových VPN s veřejnými adresami, na kterých by se dal 
můj crawler zprovoznit? Multi-host setup je už téměř implementován... :-)

  Bye
    Vašek
_______________________________________________
Brmlab mailing list
Brmlab@brmlab.cz
https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab

Odpovedet emailem