Re: [Apertium-catala] Presentació: Jaume Ortolà

2017-06-20 Thread Hèctor Alòs i Font
No he pogut contestar en aquest fil fins avui, perdoneu. No és per falta
d'interès en el tema.

Personalment, no hi veig cap problema en afegir munts de paraules noves als
diccionaris d'Apertium. Per a mi, com més millor. Augmentarem la cobertura
i és més fàcil de treballar alhora de buscar paraules que falten en els
diccionaris bilingües. Tot i això, entenc que és prioritari depurar els
errors que es puguin trobar al diccionari.

Per al traductor de català-francès, ens aniria molt i molt bé ampliar el
diccionari francès, si es pogués fer una llista de paraules franceses amb
paradigmes. Estem ara ampliant el diccionari bilingüe i això implica
carregar força paraules noves en el diccionari francès. Tot això que ens
estalviaríem. No tinc gaire idea, però, de la feinada que implica amb els
scripts actuals fer una feina semblant per al francès (i ara mateix estic
massa embolicat en el català-sard per poder-hi dedicar una estona).

Cordialment,
Hèctor

El dia 10 de juny de 2017 a les 11:20, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Aprofitant els mateixos scripts, he generat noms i adjectius del castellà
> a partir del diccionari del corrector LanguageTool. Ací teniu els resultats:
>
> https://github.com/jaumeortola/spanish-dict-tools/tree/maste
> r/results/apertium
>
> en Apertium -> en LT (i sense paradigma)
> adjectius:6343 -> 18549 (383)
> noms: 17513 -> 49452 (810)
>
> Diferències:
> https://github.com/jaumeortola/spanish-dict-tools/tree/maste
> r/tests-apertium
>
> En les diferències es veuen petits errors en un diccionari i en l'altre, i
> petites diferències de flexió.
>
> En castellà, però, no faig jo mateix la flexió amb regles, cosa que en
> català ens dóna un nivell de comprovació 'extra'.
>
> En altres idiomes es pot fer igual, i hi ha bons diccionaris disponibles.
> Per a la gent que treballa en francès-català, anglès-català, això pot ser
> molt útil per a ajudar-los a introduir i verificar paraules noves. També
> podem afegir-hi la creació de paradigmes que no existeixen.
>
> Si concretem com ho volem usar, amb quines entrades i quines eixides i per
> a quins idiomes, puc preparar scripts que siguen utilitzables fàcilment per
> a qualsevol persona.
>
> Salutacions,
> Jaume Ortolà
>
>
>
> El dia 9 de juny de 2017 a les 14:04, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> Bon dia,
>>
>> Ací teniu les diferències entre el diccionari d'Apertium i el de
>> Softcatalà en noms i adjectius:
>>
>> https://github.com/Softcatala/catalan-dict-tools/blob/master
>> /tests-apertium/check-apertium-adj.txt
>> https://github.com/Softcatala/catalan-dict-tools/blob/master
>> /tests-apertium/check-apertium-nom.txt
>>
>> En adjectius:
>> - Hi ha alguns errors en Apertium: azoïca, babau (falta babaua),
>> biònices, convexs, endogenes, licies, nadives (per nadiues), nates (per
>> nades), nucleïques, pertinaça, ronces (de ronc), submisses, trocaïques.
>> - Falten alguns plurals en Apertium: bruscos, cancellerescos,
>> caricaturescos, etc.
>> - Hi ha diferents interpretacions d'alguns adjectius que poden ser
>> invariants o no i algun altre detall.
>>
>> En noms:
>> - Hi ha uns quants noms en el diccionari de Softcatalà que tenen dos
>> lemes (masc. i fem.) que podrien estar en un sol lema. Això ho hem anat
>> canviant, però encara en queden. Ho acabaré de canviar.
>> - Errors en Apertium: afixs, alfalsos (pl. erroni d'alfals), annexs,
>> baixs, bleixs, besllum [ha de ser fem. no masc.], burofaxs [crec que només
>> pot ser burofaxos], burís [per burins], cadella [està amb cadell, però
>> haurien de ser lemes separats], capricios [pl. incorrecte], carabiner
>> [falta el femení], cartutxs, centelleigs [falta centellejos], comissos [és
>> comisos, encara que existeix el verb decomissar], contrarellotge [falta el
>> pl.], crucifixs, còrtex [falta el plural còrtexs], daltabaixs, detectiu
>> [falta el fem. detectiva], dibuixs, verís [per verins], àntrax [falta el
>> pl. àntraxs]...
>> - Plurals diferents: aerocistos, amiloplastos... (són poc freqüents, però
>> em pareix que són possibles), congostos, agostos, arrestos [són possibles
>> les dues formes -sts, -stos]
>> - Falta accentuació valenciana en Apertium (que s'ha afegit recentment):
>> canapè, cupè.
>>
>> M'he quedat en la lletra D dels noms. Quan elimine els dobles lemes
>> (masc. fem.) en el meu diccionari serà més fàcil veure les diferències.
>>
>> La solució dels errors en Apertium és tan senzilla com canviar el
>> paradigma pel que he calculat jo on es considere oportú.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Presentació: Jaume Ortolà

2017-06-10 Thread Jaume Ortolà i Font
Aprofitant els mateixos scripts, he generat noms i adjectius del castellà a
partir del diccionari del corrector LanguageTool. Ací teniu els resultats:

https://github.com/jaumeortola/spanish-dict-tools/tree/maste
r/results/apertium

en Apertium -> en LT (i sense paradigma)
adjectius:6343 -> 18549 (383)
noms: 17513 -> 49452 (810)

Diferències:
https://github.com/jaumeortola/spanish-dict-tools/tree/master/tests-apertium

En les diferències es veuen petits errors en un diccionari i en l'altre, i
petites diferències de flexió.

En castellà, però, no faig jo mateix la flexió amb regles, cosa que en
català ens dóna un nivell de comprovació 'extra'.

En altres idiomes es pot fer igual, i hi ha bons diccionaris disponibles.
Per a la gent que treballa en francès-català, anglès-català, això pot ser
molt útil per a ajudar-los a introduir i verificar paraules noves. També
podem afegir-hi la creació de paradigmes que no existeixen.

Si concretem com ho volem usar, amb quines entrades i quines eixides i per
a quins idiomes, puc preparar scripts que siguen utilitzables fàcilment per
a qualsevol persona.

Salutacions,
Jaume Ortolà



El dia 9 de juny de 2017 a les 14:04, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Bon dia,
>
> Ací teniu les diferències entre el diccionari d'Apertium i el de
> Softcatalà en noms i adjectius:
>
> https://github.com/Softcatala/catalan-dict-tools/blob/master
> /tests-apertium/check-apertium-adj.txt
> https://github.com/Softcatala/catalan-dict-tools/blob/master
> /tests-apertium/check-apertium-nom.txt
>
> En adjectius:
> - Hi ha alguns errors en Apertium: azoïca, babau (falta babaua), biònices,
> convexs, endogenes, licies, nadives (per nadiues), nates (per nades),
> nucleïques, pertinaça, ronces (de ronc), submisses, trocaïques.
> - Falten alguns plurals en Apertium: bruscos, cancellerescos,
> caricaturescos, etc.
> - Hi ha diferents interpretacions d'alguns adjectius que poden ser
> invariants o no i algun altre detall.
>
> En noms:
> - Hi ha uns quants noms en el diccionari de Softcatalà que tenen dos lemes
> (masc. i fem.) que podrien estar en un sol lema. Això ho hem anat canviant,
> però encara en queden. Ho acabaré de canviar.
> - Errors en Apertium: afixs, alfalsos (pl. erroni d'alfals), annexs,
> baixs, bleixs, besllum [ha de ser fem. no masc.], burofaxs [crec que només
> pot ser burofaxos], burís [per burins], cadella [està amb cadell, però
> haurien de ser lemes separats], capricios [pl. incorrecte], carabiner
> [falta el femení], cartutxs, centelleigs [falta centellejos], comissos [és
> comisos, encara que existeix el verb decomissar], contrarellotge [falta el
> pl.], crucifixs, còrtex [falta el plural còrtexs], daltabaixs, detectiu
> [falta el fem. detectiva], dibuixs, verís [per verins], àntrax [falta el
> pl. àntraxs]...
> - Plurals diferents: aerocistos, amiloplastos... (són poc freqüents, però
> em pareix que són possibles), congostos, agostos, arrestos [són possibles
> les dues formes -sts, -stos]
> - Falta accentuació valenciana en Apertium (que s'ha afegit recentment):
> canapè, cupè.
>
> M'he quedat en la lletra D dels noms. Quan elimine els dobles lemes (masc.
> fem.) en el meu diccionari serà més fàcil veure les diferències.
>
> La solució dels errors en Apertium és tan senzilla com canviar el
> paradigma pel que he calculat jo on es considere oportú.
>
> Salutacions,
> Jaume Ortolà
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Presentació: Jaume Ortolà

2017-06-09 Thread Jaume Ortolà i Font
Bon dia,

Ací teniu les diferències entre el diccionari d'Apertium i el de Softcatalà
en noms i adjectius:

https://github.com/Softcatala/catalan-dict-tools/blob/master
/tests-apertium/check-apertium-adj.txt
https://github.com/Softcatala/catalan-dict-tools/blob/master
/tests-apertium/check-apertium-nom.txt

En adjectius:
- Hi ha alguns errors en Apertium: azoïca, babau (falta babaua), biònices,
convexs, endogenes, licies, nadives (per nadiues), nates (per nades),
nucleïques, pertinaça, ronces (de ronc), submisses, trocaïques.
- Falten alguns plurals en Apertium: bruscos, cancellerescos,
caricaturescos, etc.
- Hi ha diferents interpretacions d'alguns adjectius que poden ser
invariants o no i algun altre detall.

En noms:
- Hi ha uns quants noms en el diccionari de Softcatalà que tenen dos lemes
(masc. i fem.) que podrien estar en un sol lema. Això ho hem anat canviant,
però encara en queden. Ho acabaré de canviar.
- Errors en Apertium: afixs, alfalsos (pl. erroni d'alfals), annexs, baixs,
bleixs, besllum [ha de ser fem. no masc.], burofaxs [crec que només pot ser
burofaxos], burís [per burins], cadella [està amb cadell, però haurien de
ser lemes separats], capricios [pl. incorrecte], carabiner [falta el
femení], cartutxs, centelleigs [falta centellejos], comissos [és comisos,
encara que existeix el verb decomissar], contrarellotge [falta el pl.],
crucifixs, còrtex [falta el plural còrtexs], daltabaixs, detectiu [falta el
fem. detectiva], dibuixs, verís [per verins], àntrax [falta el pl.
àntraxs]...
- Plurals diferents: aerocistos, amiloplastos... (són poc freqüents, però
em pareix que són possibles), congostos, agostos, arrestos [són possibles
les dues formes -sts, -stos]
- Falta accentuació valenciana en Apertium (que s'ha afegit recentment):
canapè, cupè.

M'he quedat en la lletra D dels noms. Quan elimine els dobles lemes (masc.
fem.) en el meu diccionari serà més fàcil veure les diferències.

La solució dels errors en Apertium és tan senzilla com canviar el paradigma
pel que he calculat jo on es considere oportú.

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Presentació: Jaume Ortolà

2017-06-08 Thread Jaume Ortolà i Font
El dia 8 de juny de 2017 a les 20:27, Xavi Ivars  ha
escrit:

> Fa vora un any ja vaig parlar amb Gema, Mikel i Fran per a explorar la
> possibilitat aquesta idea (que tu i jo havíem comentat a vegades), però
> probablement en aquell moment jo ho vaig plantejar de manera incorrecta:
> vaig proposar utilitzar el "catalan-dict-tools" com a font de
> l'apertium-cat, i que aquest últim fóra completament autogenerat. Crec que
> va ser Mikel el que va dir que això no era bona idea, ja que no volíem
> perdre l'habilitat de tindre un "apertium-cat" editable.
>
> Crec que la idea aquesta (si ho he entés bé) de fer una aportació puntual
> (o més en el futur, però de manera "controlada" i només quan faça falta)
> pot funcionar molt bé.
>

Sí, jo crec que es tracta d'això, d'afegir coses que falten o de fer
comprovacions. Cada aplicació té les seues necessitats i és molt difícil
que un sol diccionari servisca per a tot.


> Només un comentari: respecte als augmentatius -íssim, segurament el més
> fàcil seria fer un paradigma a Apertium per a gestionar-los (si cal).
>

En Apertium hi ha "bo" i "boníssim" dins d'un sol paradigma. En canvi, jo
els tinc en dos lemes separats. Crec que jo els puc fer dependre fàcilment
del mateix lema, i així minimitzem les diferències.


>  Ara el que caldria fer és el que comenta l'Hèctor: comprovar que els
> adjectius que ja estan a apertium-cat que també has generat tu siguen
> "iguals". No necessàriament que tinguen els mateixos paradigmes, sinó que
> el "lt-expand" és igual.
>

Entesos. Ara ho veig més clar. Una volta eliminada la diferència dels
superlatius, crec que hauria d'encaixar quasi tot, i trobaríem les
possibles incoherències entre diccionaris.


> També caldria veure quins adjectius introdueixen ambigüitat on no n'hi
> havia (per exemple, adjectius que coincideixen amb verbs/noms, i que les
> traduccions podrien ser diferents).
>
> Siga com siga, enhorabona!
>
> Saps d'algun diccionari "semblant" en castellà, anglès o francès? Sé que
> els diccionaris de LT no són tan complets com els de català, però no sé si
> tenen informació suficient per a fer això.
>

Pot servir qualsevol diccionari. Com més gran i de més qualitat, millor. Si
té les formes flexionades, ja tens una part de la feina feta. Si no les té,
doncs es poden crear seguint les regles de la llengua en qüestió. No hi ha
cap altre misteri. De dades disponibles, crec que se'n poden trobar de
sobra. Ara, segons la llengua pot ser més o menys costós d'elaborar.

Salut,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Presentació: Jaume Ortolà

2017-06-08 Thread Xavi Ivars
Hola Jaume,

Genial

Fa vora un any ja vaig parlar amb Gema, Mikel i Fran per a explorar la
possibilitat aquesta idea (que tu i jo havíem comentat a vegades), però
probablement en aquell moment jo ho vaig plantejar de manera incorrecta:
vaig proposar utilitzar el "catalan-dict-tools" com a font de
l'apertium-cat, i que aquest últim fóra completament autogenerat. Crec que
va ser Mikel el que va dir que això no era bona idea, ja que no volíem
perdre l'habilitat de tindre un "apertium-cat" editable.

Crec que la idea aquesta (si ho he entés bé) de fer una aportació puntual
(o més en el futur, però de manera "controlada" i només quan faça falta)
pot funcionar molt bé.

Només un comentari: respecte als augmentatius -íssim, segurament el més
fàcil seria fer un paradigma a Apertium per a gestionar-los (si cal).

Ara el que caldria fer és el que comenta l'Hèctor: comprovar que els
adjectius que ja estan a apertium-cat que també has generat tu siguen
"iguals". No necessàriament que tinguen els mateixos paradigmes, sinó que
el "lt-expand" és igual.

També caldria veure quins adjectius introdueixen ambigüitat on no n'hi
havia (per exemple, adjectius que coincideixen amb verbs/noms, i que les
traduccions podrien ser diferents).

Siga com siga, enhorabona!

Saps d'algun diccionari "semblant" en castellà, anglès o francès? Sé que
els diccionaris de LT no són tan complets com els de català, però no sé si
tenen informació suficient per a fer això.

-- 
< Xavi Ivars >
< http://xavi.ivars.me >
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Presentació: Jaume Ortolà

2017-06-08 Thread Hèctor Alòs i Font
Bon dia, Jaume.

Em sembla una contribució fantàstica. Primer de tot, voldria saber quina
llicència tenen les dades lingüístiques. Abans de fer una incorporació
massiva de vocabulari és imprescindible aclarir aquest punt.

En una inspecció ocular, sembla que tots els paradigmes estan ben
assignats. Seria important, però, assegurar-se que en les paraules que ara
existeixen en el diccionari d'Apertium i a la llista, els paradigmes
coincideixen. Això serviria de verificació (tot i que m'imagino que ja
l'has feta).

Quant a possibles llistes de paraules en altres llengües, per descomptat
seria d'allò més interessant. Actualment, sé que s'està treballant en les
parelles català-anglès, català-francès, català-sard i no dubto que també en
català-castellà i probablement altres.

Cordialment,
Hèctor

El dia 8 de juny de 2017 a les 12:10, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Bon dia,
>
> Sóc nou en aquesta llista. Em presente. Em dic Jaume Ortolà, i estic
> interessat a col·laborar en Apertium en els parells de traducció que
> inclouen el català.
>
> Tinc alguna experiència en Apertium, però no és sistemàtica. Sí que he
> treballat molt en altres projectes relacionats amb el català: el corrector
> LanguageTool en català [1], i unes eines per a generar diccionaris de
> català en diferents formats [2].
>
> Entrant ja en matèria, us explique una de les coses que he fet. He provat
> de generar tots els adjectius que tinc en el diccionari en el format
> d'Apertium. Funciona sense problemes. El resultat el teniu ací:
> https://raw.githubusercontent.com/Softcatala/catalan-dict-to
> ols/master/resultats/apertium/adj-languagetool-format-apertium.txt
>
> En el diccionari monolingüe català d'Apertium ara hi ha uns 6.000
> adjectius. Jo n'he generat 26.000, i n'han quedat 422 sense paradigma. Amb
> alguns retocs aquests 422 es poden reduir prou. Però també n'hi ha molts
> que són irregulars i que requeririen un paradigma propi nou en Apertium
> (que podem generar automàticament). Hi ha alguna petita diferència en
> l'organització dels paradigmes. Jo els augmentatius -íssim els tinc ara en
> lemes separats.
>
> Puc fer el mateix amb els noms. En altres categories gramaticals com els
> verbs, en principi, no té tant d'interès, més enllà de comprovar
> inconsistències entre diccionaris.
>
> En castellà o en altres llengües, es podria intentar fer coses similars.
>
> L'objectiu de tot això és automatitzar al màxim la introducció de paraules
> noves en els diccionaris, de manera que puguem destinar el temps a la
> revisió dels casos més difícils.
>
> Salutacions,
> Jaume Ortolà
>
>
> [1] https://github.com/languagetool-org/languagetool
> [2] https://github.com/Softcatala/catalan-dict-tools
>
> 
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] Presentació: Jaume Ortolà

2017-06-08 Thread Jaume Ortolà i Font
Bon dia,

Sóc nou en aquesta llista. Em presente. Em dic Jaume Ortolà, i estic
interessat a col·laborar en Apertium en els parells de traducció que
inclouen el català.

Tinc alguna experiència en Apertium, però no és sistemàtica. Sí que he
treballat molt en altres projectes relacionats amb el català: el corrector
LanguageTool en català [1], i unes eines per a generar diccionaris de
català en diferents formats [2].

Entrant ja en matèria, us explique una de les coses que he fet. He provat
de generar tots els adjectius que tinc en el diccionari en el format
d'Apertium. Funciona sense problemes. El resultat el teniu ací:
https://raw.githubusercontent.com/Softcatala/catalan-dict-to
ols/master/resultats/apertium/adj-languagetool-format-apertium.txt

En el diccionari monolingüe català d'Apertium ara hi ha uns 6.000
adjectius. Jo n'he generat 26.000, i n'han quedat 422 sense paradigma. Amb
alguns retocs aquests 422 es poden reduir prou. Però també n'hi ha molts
que són irregulars i que requeririen un paradigma propi nou en Apertium
(que podem generar automàticament). Hi ha alguna petita diferència en
l'organització dels paradigmes. Jo els augmentatius -íssim els tinc ara en
lemes separats.

Puc fer el mateix amb els noms. En altres categories gramaticals com els
verbs, en principi, no té tant d'interès, més enllà de comprovar
inconsistències entre diccionaris.

En castellà o en altres llengües, es podria intentar fer coses similars.

L'objectiu de tot això és automatitzar al màxim la introducció de paraules
noves en els diccionaris, de manera que puguem destinar el temps a la
revisió dels casos més difícils.

Salutacions,
Jaume Ortolà


[1] https://github.com/languagetool-org/languagetool
[2] https://github.com/Softcatala/catalan-dict-tools
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala