On 13 Sep 2005 at 5:47, Davide Prina wrote: > > In realtà fino a poco tempo fa è prevalsa l'azione di eliminazione di > stringhe più che l'introduzione di nuove (erano presenti molti molte > stringhe errate e purtroppo ce ne sono ancora ... vedere la > documentazione per ulteriori dettagli). Infatti la dimesione del > dizionario espansa si è notevolmente ridotta, attualmente vengono > generate più di 22.000.000 di stringhe differenti (per maggiori > informazioni puoi guardare il file statistiche.swc contenuto nelle > ultime versioni del dizionario: > http://sourceforge.net/projects/linguistico)
Il problema della generazione di stringhe errate è insito nella irregolarità della lingua. più la lingua è irregolare, più le stringhe errate si formano, a meno di non "isolare" le irregolarità e trattarle separatamente. > > > Se il dizionario è molto vasto, diventa sempre più probabile che una > > parola di uso corrente, scritta male, corrisponda invece ad un'altra > > parola meno comune, per cui non mi viene segnato l'errore. Ma questo è assolutamente normale. Anzi, più che normale è inevitabile. > > il problema principale è che per un gruppo di persone un termine può > essere di uso comune e per altre non venir mai usato. Penso che in > generale sia molto complesso stabilire se un termine è comune o meno. Il problema, IMHO, è che bisognerebbe tener separati vocabolari specialistici, da quelli di uso comune, integrando un buon correttore "generale" con diversi "specialistici", adatti ad un uso personalizzato. Si tenga conto che nel linguaggio orale e scritto di scambio comune probabilmente si usa il 10 % dei termini (italiani) (mi sa che sono ottimista...) > > > es. mettiamo che "mama" sia una pianta sub-tropicale. > > come detto nel dizionario sono presenti generazioni errate ... è > probabile che la stringa mama sia generata in modo errato, anche se > poi il termine come dici esiste. Se devo essere sincero termini come > questo che non vengono trovati su dizionari "generalistici" vengono di > solito eliminati. Non vorrei che mama sia stato messo erroneamente > come femminile di mamo. > > > Proposta: > > ogni parola/verbo dovrebbe avere associato un "peso", un valore che > > indica quanto sia comune. Le parole errate andrebbero sottolineate > > in rosso, mentre quelle meno comuni con un altro colore, così da > > richiamare l'attenzione. Questa è un ottima proposta, il problema è implementare l'attribuzione del valore di peso per ciascuna parola, come qui sotto affermato da Davide. > > non dico che la tua proposta non sia valida, ma prima di prenderla in > considerazione bisognerebbe convincere Kevin Handricks e chi gestisce > il progetto OOo di questo cambio. In altre parole fino a quando non si > è deciso per lo meno che verrà implementata tale funzionalità > all'interno di MySpell mi sembra inutile pensare di creare un > dizionario che presenti tali informazioni aggiuntive. > > Posso solo dire che la struttura attuale mal si adatta a inglobare in > qualche modo tali informazioni perché le stringhe che compongono un > dizionario sono in realtà "compresse". Come detto il dizionario > italiano decompresso è composto da più di 22.000.000 di stringhe > differenti, mentre quando è compresso le radici (parole che generano > da 0 a n stringhe) sono poco più di 91.000 (questo è il file > it_IT.dic); l'espansione si ha usando il file delle regole > (it_IT.aff). Davide, è possibile dare una mano per il correttore? > > Il problema principale è che ci sono parole generate da altre senza > che la parola generata e quella "generante" abbiano tra loro nessuna > affinità. Proporre un dizionario espanso (che occupa centinaia di > mega) non penso sia proponibile. > > Quindi quello che penso è che se si vuole proporre una cosa del genere > bisogna prima trovare una soluzione su come e dove inserire tale > informazione senza generare file di dimensioni maggiori dell'intero > OOo. Questo è il problema "grosso" dell'italiano. A differenza di altre lingue, a noi familiari, leggi inglese, francese, spagnolo per dire solo le più vicine a noi, l'italiano ha questa "bellissima" particolarità di declinazione della finale, anziché dell'aggiunta di una lettera (ad esempio, nella formazione dei plurali), che crea non pochi grattacapi e varianti. Capisco Davide e Gianluca (?), in quanto manutentore del correttore di cosa significhi costruire un sistema simile. Ciao, -- Valter Combatti lo spam! Unisciti a EUROCauce! www.eurocauce.org Pegasus Mail for Windows: the best free mail client. Official site: www.pmail.com, or Italian site: www.pegasusmail.tk --- avast! Antivirus: In partenza messaggio pulito. Virus Database (VPS): 0537-2, 16/09/2005 Controllato il: 17/09/2005 10.33.06 avast! is copyright (c) 2000-2004 ALWIL Software. http://www.avast.com --------------------------------------------------------------------- To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
