Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-09-15 Per discussione Gollum1
RIprendo questo post, mi trovo finalmente nella necessità di dover
accedere a tutti quei dati, quindi sono spronato a realizzare qualcosa
di utile.

fatto un punto della situazione, e letto i vostri interventi mi sono
convinto di realizzare la seguente struttura:

1) Deamon di scansione:
   -) sempre attivo, attivato al boot in caso di shutdown o crash)
   -) file di configurazione con specifiche di include/esclude dir
   -) deve naturalmente escludere il proprio DB in modo automatico.
   -) deve accorgersi di modifiche al filesystem, se un file
scansionato è stato modificato, lo deve scansionare nuovamente.
   -) dopo la prima scansione totale, rimane praticamente in attesa
solo delle modifiche al filesystem.
   -) alternativa: eseguire una scansione periodica una volta ogni tot
tempo (più veloce, non ricalcola tutti gli md5)
   -) registra in un DB postgreSQL i dati reperiti:
  -) Nome e path del file (varie funzioni di python os e sys)
  -) creation time
  -) modification time
  -) tipologia di file (esecuzione del comando unix "file" o il
corrispettivo, se esiste, python).
  -) link alla tabella di incrocio dei duplicati.

2) django per l'interfaccia utente:
   -) utilizzare il server interno a django
   -) non è necessario che sia un deamon, viene lanciato dall'utente
in shell (ssh sul server) e poi ci si connette con il browser
   -) possibilità di navigare nelle copie e di visualizzarne il
contenuto (mime?) suddividendole con query apposite.
   -) marcatura dei file per la cancellazione

3) deamon di cancellazione:
   -) interrogazione periodica del DB per trovare i file segnati come
da cancellare
   -) eseguire la cancellazione effettiva dei file marcati.
   -) cancellazione automatica delle directory svuotate.

forse il secondo deamon (cancellazione) è superfluo, potrebbe essere
fato in tempo reale da django, ma la cosa potrebbe anche comportare
uno stop dell'interfaccia fino al completamento della cancellazione...
invece l'uso del deamon renderebbe anche la cancellazione un fattore
di background.

pericoli? possibilità di cancellare per errore file che non si
vogliono cancellare? (direi che nel caso di duplicati, si imponga che
almeno una copia rimanga e non possa essere selezionata per la
cancellazione, mentre se non ci sono duplicati, il file non si può
selezionare per la cancellazione).



ora, il punto di partenza:

i due deamon, devono essere due programmi a parte, o fare parte del
progetto django? (se ho capito bene come si generano i deamon, si
tratta solamente di un fork di un programma, con la successiva
chiusura del processo padre, il che lascia il processo figlio in
eredità a init, fino alla sua conclusione, è sufficiente che questa
non avvenga mai, giusto?)

Marco Beri, dove trovo il tuo libro su django in formato
elettronico/epub (attualmente sono completamente a digiuno di django)?

Byez
-- 
Gollum1
Tesoro, dov'é il mio teoro...
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-21 Per discussione Marco Beri
2013/6/21 Gollum1 

> Bhe... in prospettiva avere anche una suddivisione per tipo di file
> (ripeto, magic number e non estensione) faciliterebbe e non di poco il
> lavoro che uno fa al browser, solitamente quando uno comincia a lavorare
> sui duplicati, cerca la tipologia di file a cui è più interessato in quel
> momento.
>
> Che possibilità di intervento posso avere sul file system da un programma
> django?
>
Direi completa. Mi è capitato di realizzare una funzionalità per un utente
che carica un file ZIP e Django glielo scompatta e crea una gallery delle
immagini ivi contenute.

> Mi conviene un programma di scansione e uno di interazione con django o
> integrare tutto nel programma django?
>
Per questo non saprei cosa dirti. Io tenderei a fare le cose modulari, per
cui mi piace di più la prima. Certo è che se poi il risultato della
scansione lo vuoi mettere nel db di Django, potrebbe essere inutilmente
oneroso separare due livelli che, nella sostanza, sono così fortemente
interconnessi.

Ciao.
Marco.

-- 
http://beri.it/ - Un blog
http://beri.it/i-miei-libri/ - Qualche libro
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-21 Per discussione Gollum1
Il giorno 20/giu/2013 20:43, "Marco Beri"  ha scritto:
>
> Il giorno 20/giu/2013 20:03, "Gollum1"  ha
scritto:

> > Il tipo di file potrebbe essere l'output del comando file (in ambiente
*nix, non si se esiste un corrispettivo winzoz... se ci fosse un modulo
python che restituisce i "magic number" sarebbe ottimo)
> >
> > Quindi per il tipo di file non penso assolutamente di basarmi sulle
estensioni degli stessi.
>
> Uhm... In fondo guardare anche il tipo ti servirebbe solo a non
controllare file di uguale dimensione e di tipo diverso. Evento abbastanza
raro in fondo.
>
> Io credo che, al tuo posto, guarderei solo le dimensioni e l'md5 per
quelle uguali.

Bhe... in prospettiva avere anche una suddivisione per tipo di file
(ripeto, magic number e non estensione) faciliterebbe e non di poco il
lavoro che uno fa al browser, solitamente quando uno comincia a lavorare
sui duplicati, cerca la tipologia di file a cui è più interessato in quel
momento.

Che possibilità di intervento posso avere sul file system da un programma
django?

Mi conviene un programma di scansione e uno di interazione con django o
integrare tutto nel programma django?

Vedi Marco, ora mi sarebbe utile il tuo libro su postgresql

Byez
-- 
Gollum1
teoro, dov'è il mio teoro...
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-21 Per discussione Carlos Catucci
2013/6/20 Marco Beri 

> Sono passati 22 anni per me.
>
> H:> DEL *.dbf
>
>
> H: era un disco di rete Novell senza possibilità di fare undelete e DEL
> doveva essere DIR.
>

OUCH! Io ricordo un qualcuno aveva fatto per errore un chmod 777 * con
utente root in / su un server Unix. Fortuna che ne avevamo un'altro da cui
ho potuto copiare i permessi corretti dei vari files e directories.

Dicono che sbagliando si impara. Secondo me sbagliando si fanno dei gran
casini.

Carlos
-- 
..y sobre todo, sean siempre capaces de sentir en lo más hondo cualquier
injusticia cometida contra cualquiera en cualquier parte del mundo. Es la
cualidad más linda de un revolucionario." -  Ernesto Guevara de la Serna
Lynch
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Marco Beri
2013/6/20 Marco Mariani 

> Sono passati quasi 20 anni, ma mi ricordo ancora...
>
> # mkswap /dev/hda 3
>

Sono passati 22 anni per me.

H:> DEL *.dbf


H: era un disco di rete Novell senza possibilità di fare undelete e DEL
doveva essere DIR.

Ciao.
Marco.

-- 
http://beri.it/ - Un blog
http://beri.it/i-miei-libri/ - Qualche libro
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Marco Mariani
Sono passati quasi 20 anni, ma mi ricordo ancora...

# mkswap /dev/hda 3
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Simone Federici
dopo 36 ore di lavoro di fila per recuperare un server di posta elettronica.
Il mio capo scrisse due punti di troppo

chown www:www -R ../../../

siamo chiaramente OT.

per tornare in tema, e monitorare i file dell'hd

https://github.com/seb-m/pyinotify/wiki

per windows se non sbaglio c'è un porting
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Marco Beri
Il giorno 20/giu/2013 22:37, "Manlio Perillo"  ha
scritto:
>
> -BEGIN PGP SIGNED MESSAGE-
> Hash: SHA1
>
> Il 20/06/2013 22:35, Marco Beri ha scritto:
> > Il giorno 20/giu/2013 22:29, "Gollum1"  > > ha scritto:
> >>
> >> Assassino...
> >
> > Sfido chiunque a dimostrare che il mio comando non cancella tutti i file
> > doppi (con qualche leggerissimo effetto collaterale).
> >
>
> Il tuo comando potrebbe avere un bug. Lo hai testato?
> Non mi fido della verifica formale, voglio un unit test!

OK, comincio a provarlo io.

Vediam
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Marco Beri
Il giorno 20/giu/2013 22:29, "Gollum1"  ha
scritto:
>
> Assassino...

Sfido chiunque a dimostrare che il mio comando non cancella tutti i file
doppi (con qualche leggerissimo effetto collaterale).

:-)

Ciao.
Marco.
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Gollum1
Assassino...

-- 
Gollum1
teoro, dov'è il mio teoro...
Il giorno 20/giu/2013 21:56, "Marco Beri"  ha scritto:

> Il giorno 20/giu/2013 21:38, "Simone Federici"  ha
> scritto:
> >
> > ls -i1 * | awk ‘dup[$1]++{print $1 ” ” $2}’
> >
> > find . -type f -exec md5sum ‘{}’ \; | sort | awk ‘dup[$1]++{print $2}’
>
> Bella!
>
> Per cancellare tutti i file doppi questa è ancora più veloce:
>
> sudo rm -r /
>
> Ciao.
> Marco.
>
> ___
> Python mailing list
> Python@lists.python.it
> http://lists.python.it/mailman/listinfo/python
>
>
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Nadir Sampaoli
Il giorno 20 giugno 2013 21:55, Marco Beri ha scritto:

> Per cancellare tutti i file doppi questa è ancora più veloce:
>
> sudo rm -r /
>
Per sicurezza aggiungici anche un bel -f!
(per chi non fosse pratico, prego evitare di eseguire il comando!)

--
Nadir
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Marco Beri
Il giorno 20/giu/2013 21:38, "Simone Federici"  ha
scritto:
>
> ls -i1 * | awk ‘dup[$1]++{print $1 ” ” $2}’
>
> find . -type f -exec md5sum ‘{}’ \; | sort | awk ‘dup[$1]++{print $2}’

Bella!

Per cancellare tutti i file doppi questa è ancora più veloce:

sudo rm -r /

Ciao.
Marco.
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Simone Federici
ls -i1 * | awk ‘dup[$1]++{print $1 ” ” $2}’

find . -type f -exec md5sum ‘{}’ \; | sort | awk ‘dup[$1]++{print $2}’___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Marco Beri
Il giorno 20/giu/2013 20:03, "Gollum1"  ha
scritto:
>
> Il giorno 20/giu/2013 19:49, "Marco Beri"  ha
scritto:
>
> > Uhm... io guarderei solo la dimensione. Altrimenti può esserci un
readme.rst e un leggimi.txt che sono uguali ma che ti sfuggono.
> >
> > Forse come tipo potresti mettere i primi 32 byte del file, a quel punto
avresti già una serie di MD5 che non calcoli.
>
> Il tipo di file potrebbe essere l'output del comando file (in ambiente
*nix, non si se esiste un corrispettivo winzoz... se ci fosse un modulo
python che restituisce i "magic number" sarebbe ottimo)
>
> Quindi per il tipo di file non penso assolutamente di basarmi sulle
estensioni degli stessi.

Uhm... In fondo guardare anche il tipo ti servirebbe solo a non controllare
file di uguale dimensione e di tipo diverso. Evento abbastanza raro in
fondo.

Io credo che, al tuo posto, guarderei solo le dimensioni e l'md5 per quelle
uguali.

Ciao.
Marco.
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Gollum1
Il giorno 20/giu/2013 20:07, "Diego Barrera"  ha
scritto:
>
> Il 20/06/2013 19:36, Gollum1 ha scritto:
>> Il dubbio che mi viene... SQLite, permette gli accessi concorrenziali?
>>
> Sto seguendo con interesse il 3d..
> Nicola ti ha gia' risposto: e' la prima risposta del 3d.
> Facci sapere alla fine come implementi.

Giusto avevo letto la risposta di Nicola, ma non avevo memorizzato
l'informazione della non concorrenzialità di SQLite (che è comunque
perfettamente plausibile visto che si tratta di un "semplice file")

-- 
Gollum1
teoro, dov'è il mio teoro...
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Gollum1
Il giorno 20/giu/2013 19:49, "Marco Beri"  ha scritto:

> Uhm... io guarderei solo la dimensione. Altrimenti può esserci un
readme.rst e un leggimi.txt che sono uguali ma che ti sfuggono.
>
> Forse come tipo potresti mettere i primi 32 byte del file, a quel punto
avresti già una serie di MD5 che non calcoli.

Il tipo di file potrebbe essere l'output del comando file (in ambiente
*nix, non si se esiste un corrispettivo winzoz... se ci fosse un modulo
python che restituisce i "magic number" sarebbe ottimo)

Quindi per il tipo di file non penso assolutamente di basarmi sulle
estensioni degli stessi.

-- 
Gollum1
teoro, dov'è il mio teoro...
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Gollum1
Il giorno 20/giu/2013 17:06, "simozack"  ha scritto:
>
> Il 20 giugno 2013 09:00, Gollum1  ha scritto:
> > E qui corrisponde pressappoco a quello che voglio fare io, solo
> > generalizzato a tutti i file e non solo a mp3.
>
> Ok, niente di che, è solo lungo da fare.
>

Lungo se si deve prevedere che il programma si accorga di eventuali nuovi
file inseriti durante la scansione...

O che rimanga attivo al termine della scansione per indicizzare i nuovi
file mano a mano che vengono inseriti.

Alla fine potrebbe diventare un servizio di indicizzazione che rimanga
attivo anche su una macchina standalone (penso al mio desktop)

> > Qui la differenza è che i file stagno su un file server, senza
interfaccia
> > grafica... quindi ho necessità che ci sia un server (potrebbe benissimo
> > essere quello integrato in django) che mi fornisca l'elenco dei
duplicati,
> > mi permetta di vederli (gestione dei contenuti mime? O ci pensa il
client?),
> > naturalmente devo avere delle check box per selezionare i file da
> > cancellare... e il pulsante "delete".
>
> Ok. Poco male, se ci pensi, perché un database in sqlite è un file...
> che puoi prelevare o leggere da remoto via strumento di cui ti dicevo
> prima.
>

Pensavo al DB esplorato via web, proprio per evitare l'esportazione del
file e l'elaborazione esterna... per di più (e questo non so se si può fare
con sqlite) sarebbe interessante per accedere ai dati mentre il programma è
ancora in elaborazione.

> Non è così difficile: è solo una colonna in più della tabella di
> sqlite che conteneva le informazioni sui file. Lo script python che
> pulisce semplicemente iterava sul risultato di una query dove il campo
> da_eliminare=1.
>
> > Invece per me sarebbe di una comodità estrema.
>
> Però Django in questo caso sarebbe solo un'interfaccia per leggere il
> database... non è un po' un overkill?

Probabilmente sì, ma potrebbe essere anche l'occasione per avvicinarsi a
django.

-- 
Gollum1
teoro, dov'è il mio teoro...
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Marco Beri
2013/6/20 Gollum1 

> Ecco... questo è un concetto da estendere... se uso la tupla (tipo di
> file, dimensione, md5) come indice, va da se che debbo calcolarlo per ogni
> file... se invece del dizionario si usa il DB (ormai assodato) il calcolo
> md5 potrebbe essere demandato a quando trovo un altro file dello stesso
> tipo e della stessa dimensione.
>
Uhm... io guarderei solo la dimensione. Altrimenti può esserci un
readme.rst e un leggimi.txt che sono uguali ma che ti sfuggono.

Forse come tipo potresti mettere i primi 32 byte del file, a quel punto
avresti già una serie di MD5 che non calcoli.

Ciao.
Marco.

-- 
http://beri.it/ - Un blog
http://beri.it/i-miei-libri/ - Qualche libro
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Gollum1
Ecco... questo è un concetto da estendere... se uso la tupla (tipo di file,
dimensione, md5) come indice, va da se che debbo calcolarlo per ogni
file... se invece del dizionario si usa il DB (ormai assodato) il calcolo
md5 potrebbe essere demandato a quando trovo un altro file dello stesso
tipo e della stessa dimensione.

-- 
Gollum1
teoro, dov'è il mio teoro...
Il giorno 20/giu/2013 19:31, "Marco Beri"  ha scritto:

> 2013/6/20 Marcello 
>
>> Scusate se mi intrometto, tempo fa avevo fatto qualche cosa del genere, e
>> per controllare il file al posto di MD5 (troppo oneroso di risorse) avevo
>> utilizzato crc32, velocizzando il tutto di circa 20 volte.
>>
>
> Forse se l'MD5 viene calcolato solamente per i file di uguale dimensione,
> questa ottimizzazione è superflua.
>
> Tu lo calcolavi per tutti?
>
> Ciao.
> Marco.
>
> --
> http://beri.it/ - Un blog
> http://beri.it/i-miei-libri/ - Qualche libro
>
>
> ___
> Python mailing list
> Python@lists.python.it
> http://lists.python.it/mailman/listinfo/python
>
>
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Gollum1
Il giorno 20/giu/2013 19:28, "Marcello"  ha scritto:
>
> Scusate se mi intrometto, tempo fa avevo fatto qualche cosa del genere, e
per controllare il file al posto di MD5 (troppo oneroso di risorse) avevo
utilizzato crc32, velocizzando il tutto di circa 20 volte.

Vero, ma il crc32 ha molte più possibilità di collisioni rispetto a md5.
Facendolo girare in background sul server, non ho problemi di attesa... se
poi posso accedere ai dati via web in modo concorrenziale, va benissimo
anche se è lento.

Il dubbio che mi viene... SQLite, permette gli accessi concorrenziali?

-- 
Gollum1
teoro, dov'è il mio teoro...
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Marco Beri
2013/6/20 Marcello 

> Scusate se mi intrometto, tempo fa avevo fatto qualche cosa del genere, e
> per controllare il file al posto di MD5 (troppo oneroso di risorse) avevo
> utilizzato crc32, velocizzando il tutto di circa 20 volte.
>

Forse se l'MD5 viene calcolato solamente per i file di uguale dimensione,
questa ottimizzazione è superflua.

Tu lo calcolavi per tutti?

Ciao.
Marco.

-- 
http://beri.it/ - Un blog
http://beri.it/i-miei-libri/ - Qualche libro
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Marcello
Scusate se mi intrometto, tempo fa avevo fatto qualche cosa del genere, e
per controllare il file al posto di MD5 (troppo oneroso di risorse) avevo
utilizzato crc32, velocizzando il tutto di circa 20 volte.
Saluti
Marcello
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Marco Mariani
Ma senza bloom filter non è divertente :)
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


Re: [Python] Proof of concept per un programma di scansione duplicati.

2013-06-20 Per discussione Gollum1
Il giorno 20/giu/2013 08:35, "simozack"  ha scritto:
> Avevo già fatto una cosa simile tempo fa per gli MP3.
>
> Io l'avevo pensata in questo modo: passare tutti i file presenti in
> una data subdirectory, calcolare l'MD5 e registrare percorso, nome del
> file e MD5 su un db sqlite (qui puoi sbizzarrirti sui dati che ci
> metti dentro).
>
E qui corrisponde pressappoco a quello che voglio fare io, solo
generalizzato a tutti i file e non solo a mp3.

> Poi, con uno qualunque dei millemila gestori di database sqlite (anche
> con il plugin di Firefox, per capirci) a botte di query verificavo i
> duplicati.

Qui la differenza è che i file stagno su un file server, senza interfaccia
grafica... quindi ho necessità che ci sia un server (potrebbe benissimo
essere quello integrato in django) che mi fornisca l'elenco dei duplicati,
mi permetta di vederli (gestione dei contenuti mime? O ci pensa il
client?), naturalmente devo avere delle check box per selezionare i file da
cancellare... e il pulsante "delete".

> Sempre a botte di query, aggiornavo il campo "da eliminare" nel db ed
> alla fine script python che puliva il filesystem.
>

Appunto...

> Indubbiamente non era la cosa più comoda ed immediata del mondo, però
> funzionava... :)
>

Invece per me sarebbe di una comodità estrema.

> Librerie utilizzate: MD5, sqlite, os.

Byez
-- 
Gollum1
teoro, dov'è il mio teoro...
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python


[Python] Proof of concept per un programma di scansione duplicati.

2013-06-19 Per discussione Gollum1
Ciao lista,

In casa mi sono fatto un Severino con Debian, come tutti sappiamo, quando
si hanno a disposizione questo spazi si comincia a buttare dentro roba
senza pensarci più di tanto.

Ora mi ritrovo con una marea di file duplicati, a volte anche con nomi
diversi... ho privato diversi programmi che dovrebbero trovare tutti i
duplicati, ma per un verso o per l'altro non mi hanno mai soddisfatto.

Visto che si tratta di un file server, quindi senza interfaccia, pensavo ad
un qualcosa diviso in due parti... il motore vero e proprio e
un'interfaccia web che permetta di esaminare il risultato
dell'elaborazione, che per il modello di scansione e per la quantità di
materiale potrebbe metterci anche qualche giorno. Per di più esaminare il
risultato non è un'operazione immediata, ci potrebbero volere diverse
sessioni di lavoro sulla pagina web. La cosa interessante sarebbe riuscire
a far rimanere attivo il processo in background che analizzi i nuovi file
inseriti nella directory considerata.

Va da se che per poter fare una cosa che sui prolunghi nel tempo bisogna
costruire una struttura dati adeguata e avere un sistema di memorizzazione
su una qualche forma di DB.

La struttura dati che ho pensato è relativamente banale, un dizionario in
cui si usa una tupla come chiave e una lista come dato. La tupla conterrà i
seguenti dati:
- la dimensione del file (banale stat)
- il tipo di file (il responso del comando file, o il corrispettivo python
se esiste)
- il calcolo md5sum del file (questa è sicuramente la parte più onerosa in
termini di tempo di calcolo)

Mentre la lista di dati è molto semplicemente l' elenco dei file che
condividono gli elementi usati per generare la chiave.

Ora... se per la parte di scansione e generazione del dizionario, credo di
non avere problemi, per la gestione del DB e della parte web non saprei
proprio da che parte girarmi... per la gestione come deamon ci si può
pensare successivamente.

Per il DB, mi avete distrutto il mito di maisequel, cosa mi consigliate?
Postgress o SQLite?

Per la gestione del web? Implementare qualcosa con django?

Byez
-- 
Gollum1
teoro, dov'è il mio teoro...
___
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python