Actualment es fa servir la versió "comuna" del motor de correcció. Els
problemes que es resolien a la versió retocada ara es resolen amb el nou
motor (una part) i aplicant idees de la llista de regles italiana (una
altra part). Resta algun detall, però és poc important.

Hauríem de fer el pas de myspell a hunspell, cosa que reduiria molt la
llista de paraules (ja que permet acumular sufixos).

LA MEVA OPINIÓ SOBRE ELS BARBARISMES:

Corregir barbarismes és bastant fàcil. Com dieu, es pot posar un pas
previ al corrector ortogràfic. Com que la llista és tancada, i
relativament curta, es pot tenir una llista d'equivalències carregada
permanentment en memòria, que suposaria una penalització molt petita (i
independent del nombre d'entrades).

Tanmateix hi ha problemes:

- El més greu (i segurament insoluble) és que el corrector ortogràfic no
té informació del context. Es pot corregir una falta i provocar-ne una
altra. Per exemple, si s'ha escrit "tamany" i el corrector proposa
"mida", pot quedar "el mida". La solució és un corrector gramatical.
Aviat n'hi ha d'haver un de promogut per la Generalitat de Catalunya i,
amb sort, també el meu (www.einescat.org).
- Idealment, hauria de bastar que la llista d'equivalències només
contingués les arrels. La llista hauria de contenir "tamany", però no
"tamanys" i, així i tot, fer la correcció corresponent. Evidentment,
això només és un detall d'implementació, però estaria bé que l'usuari
que vulgui afegir un verb a la seva llista no hagi de posar tot el
paradigma (incloses les formes dels altres dialectes si vol que la
llista sigui d'ús general).

Els barbarismes més evidents es podrien corregir des de la funció
d'autocorrecció (també es podrien corregir les errades més simples, en
què només hi hagi una correcció "pròxima"; per exemple errors
d'accentuació, com ara "ciencia" per "ciència").

Joan Moratinos

En/na Joan Montané havia escrit:

Desconec si encara es fa servir una versió personalitzada del MySpell en la versió catalana de l'OpenOffice, però si és així crec que es podria implementar un suport bàsic per corregir els barbarismes amb un esforç relativament petit.

Nota: Aquesta idea l'he tinguda tot treballant en la millora/revisió del fitxer d'autocorreció, vaig observar que molts mots eren barbarismes, i en Jordi Mas, a part del fitxer d'autocorrecció, ja va implementar una forma de correcció de barbarismes per l'Abiword, les dades es troben a http://www.abisource.com/lxr/source/abispell/barbarisms/ca-ES-barbarism.xml,

Nota 2: Observeu la diferència de mida amb altres fitxers de barbarismes a http://www.abisource.com/lxr/source/abispell/barbarisms/. Òbviament, els barbarismes abunden més en llengües minoritzades, com el català, i un llengua potent, com l'anglès, no necessitarà gairebé mai un corrector així.

Nota 3: A l'Abiword, en Jordi Mas va fer una implementació en XML, potser es podria adaptar per l'OpenOffice.org, però jo aquí en suggereixo una altra.

Nota 4: No crec que aquesta proposta sigui possible per a l'OOo 2.0, però tot i que no disposo del codi del MySpell modificat de Softcatalà crec que és una millora fàcil de fer i s'hauria d'estudiar la seva incorporació.

Nota 5: Cada cop estic més convençut que l'objectiu a assolir és un corrector gramatical lliure. És clar que molts barbarismes, i incorreccions gramaticals òbviament, no es poden corregir sense un bon corrector gramatical.


Tot seguit exposo la idea, espero expressar-me amb claredat:

Problema: Molts usuaris, jo mateix, escrivim barbarismes que tot i que el corrector ens els marca com a incorrectes no corregim, simplement perquè desconeixem que sigui un barbarisme i l'OpenOffice.org no ens fa cap suggeriment adient.

Objectiu: Millorar els suggeriments de l'OpenOffice.org

Diagnosi: Fins on conec, quan el MySpell no troba una paraula al diccionari, realitza una sèrie de canvis senzills a la paraula incorrecta (intercanvi de lletres, transposició de lletres, addició d'espais,...) i mostra com a suggeriments els mots generats així que es troben al diccionari. En el cas que no se'n trobi cap seguint aquest mètode, el MySpell cerca mots del diccionari que es trobin a una "distància" curta del mot erroni, i els suggereix. En el cas concret dels barbarismes (molts d'ells castellanismes) és molt fàcil que la paraula correcta en català difereixi molt del barbarisme (en el sentit de mesura de distància del MySpell) i mai s'ofereixi com a suggeriment.

Suggeriment: Afegir un pas intermedi, abans d'aplicar aquests canvis, mirar una llista de paraules (de barbarismes), i si el mot es troba en aquesta llista tractar-la com si fos un barbarisme. En cas que no estigui en la llista negra aplicar el procediment actual (realitzar canvis a la paraula incorrecta).

Possible implementació: Crec que es podria implementar fent servir el mateix motor de tesaurus de l'OOo, habitualment els fitxers de tesaurus (sinònims i altres) s'anomen th_ca_ES.dat i th_ca_ES.idx. On ca_ES és el codi de la llengua i de l'estat on es parla, en el nostre cas: català tal com es parla a Espanya. Es podria crear un fitxer de "sinònims" anomenat bar_ca_ES.dat i bar_ca_ES.idx on les entrades de sinonímia fossin els barbarismes i els "sinònims" els suggeriments correctes en català. Per exemple, un fragment de l'hipotètic bar_ca_ES.dat:
.........
tamany|1
mida|grandària|longitud
fútbol|1
futbol
suggerència|1
suggeriment
aconteixement|1
esdeveniment
búsqueda|1
cerca
enfermetat|1
malaltia
........

Un cop tenim aquests fitxers creats, aleshores el MySpell, quan troba una paraula incorrecta, abans de manipular-la, mira si es troba fitxer bar_ca_ES.idx, i en cas afirmatiu, suggereix els "sinònims" d'aquesta paraula que es troben al fitxer bar_ca_ES.idx, en cas negatiu segueix amb el procediment tal i com es realitza ara.

Possibles problemes de la implementació: Per cada paraula incorrecta es consultaria la llista de barbarismes i això pot suposar una penalització en el corrector. Tot i que es podria tenir la llista (bar_ca_ES.idx) en memòria i accelerar-ne el procés.

Possibles millores: Els suggeriments en corregir barbarismes millorarien enormement. :-D

Implementacions alternatives: En realitat no cal tenir els barbarismes en fitxers separats del th_ca_ES.idx i th_ca_ES.dat), es podrien tenir dins del diccionari de sinònims (el de veritat) tot tenint cura que cap paraula apunti als barbarismes com a sinònims (que els barbarismes no s'ofereixin com a sinònims). El problema és que quan tinguem, que en tindrem, un fitxer de sinònims (de veritat), les consultes del MySpell encara trigaran mes, per tant, crec que la millor solució seria tenir els barbarismes en un fitxer de "sinònims" a part.


Què en dieu?


----------------------------------------------------------------
Podeu consultar els arxius d'aquesta llista o canviar la vostra
subscripció a http://www.softcatala.org/llistes/
----------------------------------------------------------------

Reply via email to