Ciao Massimiliano.

2017-07-31 10:53 GMT+02:00 Massimiliano Modena <xam...@gmail.com>:

> Il mio programma prende circa 300.000 voci gia' classificate (300 per ogni
> categoria) e crea un file di apprendimento (che persisto con pickle).
>
> Stando alla documentazione di NLTK su windows dice esplicitamente AVOID
> Python 64 bit. Il problema e' che (provando comunque col 64 bit) raggiungo
> un utilizzo di ram di circa 7Gb (che col 32 bit sono ovviamente un
> problema).
>
> Esiste qualche workaround o qualche ottimizzazione possibile, che voi
> sappiate?
>
il workaround è evitare pickle :)
Perché non utilizzare un altro formato ? Ad esempio, HDF5:
http://www.h5py.org
Oppure: se capisco bene quello che persisti è l'oggetto "classificatore" -
aka: oggetto Python con i parametri risultanti dal training.
Cosa più leggera potrebbe essere salvarti esclusivamente i valori dei
parametri e ogni volta ricreare oggetto con i parametri giusti.. per questo
basterebbe un formato qualsiasi a tua scelta.. da csv a JSON a whatever ;)

HTH
Valerio
_______________________________________________
Python mailing list
Python@lists.python.it
https://lists.python.it/mailman/listinfo/python

Rispondere a