Ahoj,

mirne offtopic, ale pokud muzu komentovat tu cast kde budes bombardovat to
API, tak bych zvazil https://scrapy.org/ On si clovek casto nemysli ze neco
takovyho potrebuje, az kdyz do toho zabredne a trva to misto tri dnu mesic,
tak si uvedomi, ze misto requests mohl pouzit nejaky framework.

Honza

On Thu, Nov 29, 2018 at 8:19 PM Stanislav Vasko <stanislav.va...@gmail.com>
wrote:

> Díky za info. Jen zopakuji, že počet dotazů je pro Heureku skoro nic,
> proti jiným partnerům. Současné scrapování mám nejen povolené, ale hlavně
> tuto novou aplikaci budu napojovat (základní skripty jsou už hotové) přes
> API, které Heureka nedávno uvolnila, zpoplatnila přístup a je na toto přímo
> postaveno.
>
> JSON soubory mně také napadly, vlastně bych mohl ukládat přímo odpovědi z
> API (je to JSON RPC), ale nevím jak praktické to je pro další zpracování.
> Musel bych pravidelně robotem tahat aktuální data denně vypočítat pak
> dlouhodobé statistiky, ale něco takového mně u DB řešení čeká asi také.
> Ještě mně napadlo, zda by nebylo efektivnější pro tyto účely využít nějaký
> skripty přímo v DB, tuším, že některé mají přímo "udělátka" na vypočítání
> dat, virtuálních tabulek apod. To by mi možná ušetřilo práci a vyřešilo
> nutnost neustále o data nějak pečovat.
>
> Kibana vypadá zajímavě, ale přiznám se, že o ní slyším poprvé a vůbec
> nevím jak to v tomto pojetí uchopit. Zkusím si něco nastudovat, ale raději
> bych se držel něčeho co zná každý a kdokoliv případně i poradí.
>
> Díky!
>
> On Thursday, 29 November 2018 20:05:21 UTC+1, Messa wrote:
>>
>> Ahoj,
>>
>> tohle scrapování určitě vidí Heureka strašně ráda. Ale to je tvůj boj :)
>>
>> 60 tisíc záznamů denně? Hm, na to by stačil i JSON soubor. Paradoxně by
>> jeho zpracování mohlo být i rychlejší, než ze špatně navržené databáze.
>>
>> Což ostatně není špatný nápad, si ta data vylít a zpracovávat mimo. Je to
>> celkem častý postup (oddělení analytické db od transakční). Koneckonců i
>> ten Dashboard může být generovaná statická webovka.
>>
>> Honzovo tip s Kibanou se mi taky líbí.
>>
>> Zkratka, podle mě tento objem ještě nijak neomezuje výběr technologie :)
>> (Doufám teda, že sqlite zvládá paralelní read.)
>>
>> Petr Messner
>>
>> 29. 11. 2018 v 12:59, Stanislav Vasko <stanisl...@gmail.com>:
>>
>> Zdravím,
>>
>> pár let si v Django píšu menší aplikace pro svou práci a napsal jsem pár
>> řešení pro své klienty. Pro tyto účely používám SQLite a nikdy jsem
>> nenarazil na problém, navíc si mohu DB se zdrojákem snadno verzovat v GITu.
>> Nyní ale chci jeden ze svých projektů (analýza produktů na Heureka.cz)
>> zásadně rozšířit a rád bych si od začátku zvolil vhodný DB podvozek. Budu
>> 3x denně stahovat údaje o produktech (je jich asi 10 tisíc) přes Heureka
>> API. Kromě aktuální ceny produktu ještě budu potřebovat uložit data o
>> nabídkách jednotlivých e-shopů (cca 20 e-shopů na produkt, ukládat se bude
>> aktuální cena, pozice, skladovost a několik dalších parametrů). Tedy denně
>> 10.000 (produktů) x 3 (denně stahovat nabídky) x 20 (údajů o nabídce
>> konkrétního eshopu) záznamů. K tomu se určitě ještě něco přidá. Tato data
>> potřebuji dále zpracovávat. Typicky Dashboard s reportem aktuálně produktů
>> prodávaných pod určitou cenou, report firem prodávajících pod cenou nebo
>> náhled detailu produktu s historií průměrné a minimální ceny apod.
>>
>> Chtěl bych se zeptat zkušenějších programátorů na čem (případně navést i
>> detailněji) postavit DB podvozek. Problém asi není ani tak v tom data
>> uložit, ale hlavně abych z nich byl schopen v reálném čase něco sestavit.
>> Asi bude třeba vytvořit i nějaké roboty, kteří z dat za daný den/měsíc
>> připraví nějaká mezidata, vypočtou dashboard, protože přímé realtime
>> zpracování by bylo příliš pomalé. Nebo se mýlím?
>>
>> Díky za každý tip na DB, případně budu rád i za navedení na nějaký
>> relevantní zdroj informací o tom jakou a proč DB zvolit, případně kde mají
>> limity. Osobně studuji a váhám mezi SQLite, MySQL a PostgreSQL.
>>
>> Díky, Standa
>>
>> --
>> --
>> E-mailová skupina djan...@googlegroups.com
>> Správa: http://groups.google.cz/group/django-cs
>> ---
>> Tuto zprávu jste obdrželi, protože jste přihlášeni k odběru skupiny
>> „django-cs“ ve Skupinách Google.
>> Chcete-li zrušit odběr skupiny a přestat dostávat e-maily ze skupiny,
>> zašlete e-mail na adresu django-cs+...@googlegroups.com.
>> Chcete-li tuto diskusi zobrazit na webu, navštivte
>> https://groups.google.com/d/msgid/django-cs/7c78faf6-54b8-4130-95bb-293f6199f14e%40googlegroups.com
>> <https://groups.google.com/d/msgid/django-cs/7c78faf6-54b8-4130-95bb-293f6199f14e%40googlegroups.com?utm_medium=email&utm_source=footer>
>> .
>> Další možnosti najdete na https://groups.google.com/d/optout.
>>
>> --
> --
> E-mailová skupina django-cs@googlegroups.com
> Správa: http://groups.google.cz/group/django-cs
> ---
> Tuto zprávu jste obdrželi, protože jste přihlášeni k odběru skupiny
> „django-cs“ ve Skupinách Google.
> Chcete-li zrušit odběr skupiny a přestat dostávat e-maily ze skupiny,
> zašlete e-mail na adresu django-cs+unsubscr...@googlegroups.com.
> Chcete-li tuto diskusi zobrazit na webu, navštivte
> https://groups.google.com/d/msgid/django-cs/d47d668b-4d47-4964-9f61-a96a6f0c9ef0%40googlegroups.com
> <https://groups.google.com/d/msgid/django-cs/d47d668b-4d47-4964-9f61-a96a6f0c9ef0%40googlegroups.com?utm_medium=email&utm_source=footer>
> .
> Další možnosti najdete na https://groups.google.com/d/optout.
>

-- 
-- 
E-mailová skupina django-cs@googlegroups.com
Správa: http://groups.google.cz/group/django-cs
--- 
Tuto zprávu jste obdrželi, protože jste přihlášeni k odběru skupiny django-cs 
ve Skupinách Google.
Chcete-li zrušit odběr skupiny a přestat dostávat e-maily ze skupiny, zašlete 
e-mail na adresu django-cs+unsubscr...@googlegroups.com.
Chcete-li zobrazit tuto diskusi na webu, navštivte 
https://groups.google.com/d/msgid/django-cs/CAPAmg-c%3DumEvwD9ozq%3DcDCTWu%2BPOngV7%2BFiNE4sjwWiV8gqJ0A%40mail.gmail.com.
Další možnosti najdete na adrese https://groups.google.com/d/optout.

Reply via email to