Re: Strumento per cercare nelle descrizioni dei pacchetti Debian
Ciao Beatrice, prima di tutto buone feste a tutta la lista! Il 21/12/2015 09:53, Beatrice Torracca ha scritto: > già... in effetti ho aggiornato la wordlist sul repository...ma credo > serva un intervento manuale di qualcuno più in alto...perché non è mai > cambiata nell'interfaccia. Infatti deve essere effettuata un'operazione a mano da parte di Martijn, cosa che con la nuova versione DDTSS2 può essere gestita in autonomia dai coordinatori da interfaccia Web. Penso sia utile richiedere di smuovere un pò le acque perchè ritengo che un progetto come debian meriti uno strumento più avanzato. Questo in particolare tenendo conto che negli ultimi dieci anni, ~2006 creazione dell'attuale DDTTSS, il campo delle traduzioni automatiche ha fatto passi da gigante [1] e [2]. Buona serata Fabio [1] https://www.youtube.com/watch?v=G87pHe6mP0I [2] https://translate.google.com/
Re: Strumento per cercare nelle descrizioni dei pacchetti Debian
On Monday 21 December 2015, at 21:20 +0100, Alessandro Gandelli wrote: Ciao, > mi sono un po' perso nel flusso dei messaggi e magari a questa domanda > è già stata data una risposta. > Se così non fosse, qui [1] oltre ai sorgenti del ddtss si trova anche > un dump del database. > Se non ricordo male (ci avevo giocato ormai anni fa) viene fatto > durante l'elaborazione giornaliera delle traduzioni. no, non aveva risposto nessuno. Grazie mille!! l'ho cercato parecchio. (altrove :) grazie ancora, beatrice signature.asc Description: PGP signature
Re: Strumento per cercare nelle descrizioni dei pacchetti Debian
Ciao, Il 21 dicembre 2015 09:53, Beatrice Torracca ha scritto: > > Approfitto visto che sai sicuramente molto sul funzionamento interno del > sistema. Il database delle traduzioni è disponibile da qualche parte? > Intendo pubblicamente disponibile. > mi sono un po' perso nel flusso dei messaggi e magari a questa domanda è già stata data una risposta. Se così non fosse, qui [1] oltre ai sorgenti del ddtss si trova anche un dump del database. Se non ricordo male (ci avevo giocato ormai anni fa) viene fatto durante l'elaborazione giornaliera delle traduzioni. [1] http://ddtp.debian.net/source/ Ciao, Alessandro. > > beatrice
Re: Strumento per cercare nelle descrizioni dei pacchetti Debian
On Saturday 19 December 2015, at 20:33 +0100, Fabio wrote: Ciao Fabio, > Lo sviluppo di cui parli è DDTSS2 (vedere [1] e [2]). > Io ho contribuito nello sviluppo del codice nella speranza di dare ai > traduttori uno strumento più avanzato rispetto all'attuale, però > purtroppo da quello che conosco ti confermo che è tutto fermo. Grazie!! Non sapevo (mea culpa) stessi lavorando a questo e mi fa piacere. Grazie mille! > E' ancora in attesa una richiesta di pull [3] da febbraio e per cui ho > contattato più volte Martijn van Oosterhout. > DDTSS2 ha alcune nuove funzionalità rispetto all'attuale DDTSS e una > grafica rivisitata: > - creazione milestone > - migliorata la parte di scambio messaggi/commenti fra i traduttori > - possibilità di gestire in autonomia da parte dei coordinatori la wordlist > ... già... in effetti ho aggiornato la wordlist sul repository...ma credo serva un intervento manuale di qualcuno più in alto...perché non è mai cambiata nell'interfaccia. Approfitto visto che sai sicuramente molto sul funzionamento interno del sistema. Il database delle traduzioni è disponibile da qualche parte? Intendo pubblicamente disponibile. Grazie ancora, beatrice signature.asc Description: PGP signature
Re: Strumento per cercare nelle descrizioni dei pacchetti Debian
Il 19 dicembre 2015 20:33, Fabio ha scritto: > Nel mondo delle tecnologie Big Data si utilizzano programmi per ricerche > testuali come solr[4] e elasticsearch[5]. > Questi strumenti sono utilizzati per effettuare ricerche testuali anche > su grandi quantità di dati. > [4] https://lucene.apache.org/solr/ > [5] https://www.elastic.co/products/elasticsearch un problema però è scaricando il file delle traduzioni come faccio ora, la frasi che in un .po diventerebbero "fuzzy" scompaiono da Translation-it e quindi non le troveresti nel motore di ricerca proprio quando ti servono come punto di partenza ho provato elasticsearch e "qualcosa" si ottiene facilmente, basta convertire il file delle traduzioni in json (poi ci andrebbe costruita un'interfaccia utente e aggiunte le frasi originali inglesi), se qualcuno vuole fare una prova di importazione, ho scritto questo, mando il suo output direttamente a curl, come da riga di esempio: #!/usr/bin/env python3 # Daniele Forsi 20/12/2015 CC0 # Usage: # ./control2json.py|curl -s -XPOST localhost:9200//debian/packages/_bulk --data-binary @/dev/stdin >/dev/null # curl -XGET 'localhost:9200/debian/packages/_count?pretty' import json filename = "Translation-it" index = json.dumps({"index": {}}) with open(filename) as f: item = {"Long-Description": ""} for line in f.readlines(): if line.startswith(" "): item["Long-Description"] += line[1:] elif line == "\n": print(index) print(json.dumps(item)) item = {"Long-Description": ""} else: key, value = line.strip("\n").split(": ", 1) item[key] = value -- Daniele Forsi
Re: Strumento per cercare nelle descrizioni dei pacchetti Debian
Il 19 dicembre 2015 10:27, Beatrice Torracca ha scritto: > Non lo ricordo se l'ho inserito, ma se ti va vuoi mettere una > sezione/paragrafo su di essa nella pagina del wiki, tra gli strumenti di > traduzione forse e dove ti sembra ci stia. ho messo una riga sotto gli script, ma quei commenti nascosti fanno ripartire la numerazione da 1, idee su come farla proseguire? https://wiki.debian.org/it/L10n/Italian/DDTP#Strumenti_utilizzati_per_facilitare_il_lavoro_di_traduzione.2Faggiornamento > DDTSS > Forse è arrivato il momento di > smuovere un po' le acque. smuovi, smuovi, visto poi che Fabio il lavoro l'ha già iniziato > Volevo farlo in ogni caso anche per vedere di > capire se è possibile accedere al database del DDTP e per vedere se si > può incorporare uno script su cui ha lavorato "s3v" che è anch'esso > molto utile per trovare le descrizioni che richiedono "poco" lavoro per > essere complete. altrimenti usiamo greasemonkey, apro un altro thread > Con la > distanza di Levehnstein (o come diavolo si scrive) dovrebbe proprio > essere fattibile. Però non ho idea di quanto tempo richieda il calcolo > per le migliaia di descrizioni dei pacchetti e soprattutto la lunghezza > delle stringhe. Immagino pensi di usare l'intero paragrafo come stringa. sì, vorrei usare i paragrafi, però sono taaanti, secondo i miei calcoli ieri c'erano 166288 paragrafi diversi tradotti in italiano, 226904 in inglese, ne mancavano 60616, quindi l'ultimo ~23% di pacchetti contiene il ~26% di paragrafi, speriamo che siano corti :-) Levenshtein è più adatto per le parole singole, ma nel nostro caso per le parole singole potrebbe essere più utile un correttore ortogafico (e se aspell accettasse parole col trattino smetterebbe di segnalare come errore tutti i nomi dei pacchetti...) -- Daniele Forsi
Re: Strumento per cercare nelle descrizioni dei pacchetti Debian
Ciao Beatrice, Il 19/12/2015 10:27, Beatrice Torracca ha scritto: > È un vero peccato che lo sviluppo del DDTSS sembra essersi fermato, la > versione di prova per il futuro era molto promettente, e avrebbe dovuto > fare qualcosa di simile a mostrare le descrizioni simili con > suggerimenti di traduzione. Da qualche parte in rete penso sia ancora > disponibile la versione di prova... Forse è arrivato il momento di > smuovere un po' le acque. Lo sviluppo di cui parli è DDTSS2 (vedere [1] e [2]). Io ho contribuito nello sviluppo del codice nella speranza di dare ai traduttori uno strumento più avanzato rispetto all'attuale, però purtroppo da quello che conosco ti confermo che è tutto fermo. E' ancora in attesa una richiesta di pull [3] da febbraio e per cui ho contattato più volte Martijn van Oosterhout. DDTSS2 ha alcune nuove funzionalità rispetto all'attuale DDTSS e una grafica rivisitata: - creazione milestone - migliorata la parte di scambio messaggi/commenti fra i traduttori - possibilità di gestire in autonomia da parte dei coordinatori la wordlist ... Fra le funzionalità al momento non è stata implementata la parte per i suggerimenti con descrizioni simili. >> l'ideale per me sarebbe ottenere dei suggerimenti di traduzione, ad >> esempio individuando due frasi originali diverse solo per dei dettagli >> (come Python 2 vs Python 3), qualcuno conosce un sistema già pronto >> per fare cose del genere? Mi hanno parlato della cluster analysis con >> R. Nel mondo delle tecnologie Big Data si utilizzano programmi per ricerche testuali come solr[4] e elasticsearch[5]. Questi strumenti sono utilizzati per effettuare ricerche testuali anche su grandi quantità di dati. [1] https://wiki.debian.org/I18n/DDTP2 [2] https://github.com/kleptog/DDTSS-Django [3] https://github.com/kleptog/DDTSS-Django/pull/15 [4] https://lucene.apache.org/solr/ [5] https://www.elastic.co/products/elasticsearch Buon fine settimana Fabio
Re: Strumento per cercare nelle descrizioni dei pacchetti Debian
al On Saturday 12 December 2015, at 17:43 +0100, Daniele Forsi wrote: Ciao, > tempo fa ho scritto un'interfaccia web per cercare del testo nelle > descrizioni dei pacchetti, ieri sera ho aggiornato i dati e spero che > possa essere utile ad altri L'ho usata e la uso. Grazie è molto utile. Non lo ricordo se l'ho inserito, ma se ti va vuoi mettere una sezione/paragrafo su di essa nella pagina del wiki, tra gli strumenti di traduzione forse e dove ti sembra ci stia. Altrimenti con il tempo... prima o poi posso farlo io, ma sarebbe bello fossi tu stesso a descriverla che sai come funziona. È un vero peccato che lo sviluppo del DDTSS sembra essersi fermato, la versione di prova per il futuro era molto promettente, e avrebbe dovuto fare qualcosa di simile a mostrare le descrizioni simili con suggerimenti di traduzione. Da qualche parte in rete penso sia ancora disponibile la versione di prova... Forse è arrivato il momento di smuovere un po' le acque. Volevo farlo in ogni caso anche per vedere di capire se è possibile accedere al database del DDTP e per vedere se si può incorporare uno script su cui ha lavorato "s3v" che è anch'esso molto utile per trovare le descrizioni che richiedono "poco" lavoro per essere complete. > l'ideale per me sarebbe ottenere dei suggerimenti di traduzione, ad > esempio individuando due frasi originali diverse solo per dei dettagli > (come Python 2 vs Python 3), qualcuno conosce un sistema già pronto > per fare cose del genere? Mi hanno parlato della cluster analysis con > R. OH! beh effettivamente... io l'ho usata (poco) e vista usare per sequenze di caratteri molto molto corte (fino ad una decina) e inoltre mi accontentavo del grafico del cluster non dovevo poi andare programmaticamente a riprendere le voci nello stesso raggruppamento. Con la distanza di Levehnstein (o come diavolo si scrive) dovrebbe proprio essere fattibile. Però non ho idea di quanto tempo richieda il calcolo per le migliaia di descrizioni dei pacchetti e soprattutto la lunghezza delle stringhe. Immagino pensi di usare l'intero paragrafo come stringa. Se fai progressi facci sapere!! e grazie mille per il lavoro, beatrice signature.asc Description: PGP signature