Re: [Apertium-catala] Presentació: Jaume Ortolà
No he pogut contestar en aquest fil fins avui, perdoneu. No és per falta d'interès en el tema. Personalment, no hi veig cap problema en afegir munts de paraules noves als diccionaris d'Apertium. Per a mi, com més millor. Augmentarem la cobertura i és més fàcil de treballar alhora de buscar paraules que falten en els diccionaris bilingües. Tot i això, entenc que és prioritari depurar els errors que es puguin trobar al diccionari. Per al traductor de català-francès, ens aniria molt i molt bé ampliar el diccionari francès, si es pogués fer una llista de paraules franceses amb paradigmes. Estem ara ampliant el diccionari bilingüe i això implica carregar força paraules noves en el diccionari francès. Tot això que ens estalviaríem. No tinc gaire idea, però, de la feinada que implica amb els scripts actuals fer una feina semblant per al francès (i ara mateix estic massa embolicat en el català-sard per poder-hi dedicar una estona). Cordialment, Hèctor El dia 10 de juny de 2017 a les 11:20, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > Aprofitant els mateixos scripts, he generat noms i adjectius del castellà > a partir del diccionari del corrector LanguageTool. Ací teniu els resultats: > > https://github.com/jaumeortola/spanish-dict-tools/tree/maste > r/results/apertium > > en Apertium -> en LT (i sense paradigma) > adjectius:6343 -> 18549 (383) > noms: 17513 -> 49452 (810) > > Diferències: > https://github.com/jaumeortola/spanish-dict-tools/tree/maste > r/tests-apertium > > En les diferències es veuen petits errors en un diccionari i en l'altre, i > petites diferències de flexió. > > En castellà, però, no faig jo mateix la flexió amb regles, cosa que en > català ens dóna un nivell de comprovació 'extra'. > > En altres idiomes es pot fer igual, i hi ha bons diccionaris disponibles. > Per a la gent que treballa en francès-català, anglès-català, això pot ser > molt útil per a ajudar-los a introduir i verificar paraules noves. També > podem afegir-hi la creació de paradigmes que no existeixen. > > Si concretem com ho volem usar, amb quines entrades i quines eixides i per > a quins idiomes, puc preparar scripts que siguen utilitzables fàcilment per > a qualsevol persona. > > Salutacions, > Jaume Ortolà > > > > El dia 9 de juny de 2017 a les 14:04, Jaume Ortolà i Font < > jaumeort...@gmail.com> ha escrit: > >> Bon dia, >> >> Ací teniu les diferències entre el diccionari d'Apertium i el de >> Softcatalà en noms i adjectius: >> >> https://github.com/Softcatala/catalan-dict-tools/blob/master >> /tests-apertium/check-apertium-adj.txt >> https://github.com/Softcatala/catalan-dict-tools/blob/master >> /tests-apertium/check-apertium-nom.txt >> >> En adjectius: >> - Hi ha alguns errors en Apertium: azoïca, babau (falta babaua), >> biònices, convexs, endogenes, licies, nadives (per nadiues), nates (per >> nades), nucleïques, pertinaça, ronces (de ronc), submisses, trocaïques. >> - Falten alguns plurals en Apertium: bruscos, cancellerescos, >> caricaturescos, etc. >> - Hi ha diferents interpretacions d'alguns adjectius que poden ser >> invariants o no i algun altre detall. >> >> En noms: >> - Hi ha uns quants noms en el diccionari de Softcatalà que tenen dos >> lemes (masc. i fem.) que podrien estar en un sol lema. Això ho hem anat >> canviant, però encara en queden. Ho acabaré de canviar. >> - Errors en Apertium: afixs, alfalsos (pl. erroni d'alfals), annexs, >> baixs, bleixs, besllum [ha de ser fem. no masc.], burofaxs [crec que només >> pot ser burofaxos], burís [per burins], cadella [està amb cadell, però >> haurien de ser lemes separats], capricios [pl. incorrecte], carabiner >> [falta el femení], cartutxs, centelleigs [falta centellejos], comissos [és >> comisos, encara que existeix el verb decomissar], contrarellotge [falta el >> pl.], crucifixs, còrtex [falta el plural còrtexs], daltabaixs, detectiu >> [falta el fem. detectiva], dibuixs, verís [per verins], àntrax [falta el >> pl. àntraxs]... >> - Plurals diferents: aerocistos, amiloplastos... (són poc freqüents, però >> em pareix que són possibles), congostos, agostos, arrestos [són possibles >> les dues formes -sts, -stos] >> - Falta accentuació valenciana en Apertium (que s'ha afegit recentment): >> canapè, cupè. >> >> M'he quedat en la lletra D dels noms. Quan elimine els dobles lemes >> (masc. fem.) en el meu diccionari serà més fàcil veure les diferències. >> >> La solució dels errors en Apertium és tan senzilla com canviar el >> paradigma pel que he calculat jo on es considere oportú. >> >> Salutacions, >> Jaume Ortolà >> >> > -- Check out the vibrant tech community on one of the world's most engaging tech sites, Slashdot.org! http://sdm.link/slashdot___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala
Re: [Apertium-catala] Presentació: Jaume Ortolà
Aprofitant els mateixos scripts, he generat noms i adjectius del castellà a partir del diccionari del corrector LanguageTool. Ací teniu els resultats: https://github.com/jaumeortola/spanish-dict-tools/tree/maste r/results/apertium en Apertium -> en LT (i sense paradigma) adjectius:6343 -> 18549 (383) noms: 17513 -> 49452 (810) Diferències: https://github.com/jaumeortola/spanish-dict-tools/tree/master/tests-apertium En les diferències es veuen petits errors en un diccionari i en l'altre, i petites diferències de flexió. En castellà, però, no faig jo mateix la flexió amb regles, cosa que en català ens dóna un nivell de comprovació 'extra'. En altres idiomes es pot fer igual, i hi ha bons diccionaris disponibles. Per a la gent que treballa en francès-català, anglès-català, això pot ser molt útil per a ajudar-los a introduir i verificar paraules noves. També podem afegir-hi la creació de paradigmes que no existeixen. Si concretem com ho volem usar, amb quines entrades i quines eixides i per a quins idiomes, puc preparar scripts que siguen utilitzables fàcilment per a qualsevol persona. Salutacions, Jaume Ortolà El dia 9 de juny de 2017 a les 14:04, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > Bon dia, > > Ací teniu les diferències entre el diccionari d'Apertium i el de > Softcatalà en noms i adjectius: > > https://github.com/Softcatala/catalan-dict-tools/blob/master > /tests-apertium/check-apertium-adj.txt > https://github.com/Softcatala/catalan-dict-tools/blob/master > /tests-apertium/check-apertium-nom.txt > > En adjectius: > - Hi ha alguns errors en Apertium: azoïca, babau (falta babaua), biònices, > convexs, endogenes, licies, nadives (per nadiues), nates (per nades), > nucleïques, pertinaça, ronces (de ronc), submisses, trocaïques. > - Falten alguns plurals en Apertium: bruscos, cancellerescos, > caricaturescos, etc. > - Hi ha diferents interpretacions d'alguns adjectius que poden ser > invariants o no i algun altre detall. > > En noms: > - Hi ha uns quants noms en el diccionari de Softcatalà que tenen dos lemes > (masc. i fem.) que podrien estar en un sol lema. Això ho hem anat canviant, > però encara en queden. Ho acabaré de canviar. > - Errors en Apertium: afixs, alfalsos (pl. erroni d'alfals), annexs, > baixs, bleixs, besllum [ha de ser fem. no masc.], burofaxs [crec que només > pot ser burofaxos], burís [per burins], cadella [està amb cadell, però > haurien de ser lemes separats], capricios [pl. incorrecte], carabiner > [falta el femení], cartutxs, centelleigs [falta centellejos], comissos [és > comisos, encara que existeix el verb decomissar], contrarellotge [falta el > pl.], crucifixs, còrtex [falta el plural còrtexs], daltabaixs, detectiu > [falta el fem. detectiva], dibuixs, verís [per verins], àntrax [falta el > pl. àntraxs]... > - Plurals diferents: aerocistos, amiloplastos... (són poc freqüents, però > em pareix que són possibles), congostos, agostos, arrestos [són possibles > les dues formes -sts, -stos] > - Falta accentuació valenciana en Apertium (que s'ha afegit recentment): > canapè, cupè. > > M'he quedat en la lletra D dels noms. Quan elimine els dobles lemes (masc. > fem.) en el meu diccionari serà més fàcil veure les diferències. > > La solució dels errors en Apertium és tan senzilla com canviar el > paradigma pel que he calculat jo on es considere oportú. > > Salutacions, > Jaume Ortolà > > -- Check out the vibrant tech community on one of the world's most engaging tech sites, Slashdot.org! http://sdm.link/slashdot___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala
Re: [Apertium-catala] Presentació: Jaume Ortolà
Bon dia, Ací teniu les diferències entre el diccionari d'Apertium i el de Softcatalà en noms i adjectius: https://github.com/Softcatala/catalan-dict-tools/blob/master /tests-apertium/check-apertium-adj.txt https://github.com/Softcatala/catalan-dict-tools/blob/master /tests-apertium/check-apertium-nom.txt En adjectius: - Hi ha alguns errors en Apertium: azoïca, babau (falta babaua), biònices, convexs, endogenes, licies, nadives (per nadiues), nates (per nades), nucleïques, pertinaça, ronces (de ronc), submisses, trocaïques. - Falten alguns plurals en Apertium: bruscos, cancellerescos, caricaturescos, etc. - Hi ha diferents interpretacions d'alguns adjectius que poden ser invariants o no i algun altre detall. En noms: - Hi ha uns quants noms en el diccionari de Softcatalà que tenen dos lemes (masc. i fem.) que podrien estar en un sol lema. Això ho hem anat canviant, però encara en queden. Ho acabaré de canviar. - Errors en Apertium: afixs, alfalsos (pl. erroni d'alfals), annexs, baixs, bleixs, besllum [ha de ser fem. no masc.], burofaxs [crec que només pot ser burofaxos], burís [per burins], cadella [està amb cadell, però haurien de ser lemes separats], capricios [pl. incorrecte], carabiner [falta el femení], cartutxs, centelleigs [falta centellejos], comissos [és comisos, encara que existeix el verb decomissar], contrarellotge [falta el pl.], crucifixs, còrtex [falta el plural còrtexs], daltabaixs, detectiu [falta el fem. detectiva], dibuixs, verís [per verins], àntrax [falta el pl. àntraxs]... - Plurals diferents: aerocistos, amiloplastos... (són poc freqüents, però em pareix que són possibles), congostos, agostos, arrestos [són possibles les dues formes -sts, -stos] - Falta accentuació valenciana en Apertium (que s'ha afegit recentment): canapè, cupè. M'he quedat en la lletra D dels noms. Quan elimine els dobles lemes (masc. fem.) en el meu diccionari serà més fàcil veure les diferències. La solució dels errors en Apertium és tan senzilla com canviar el paradigma pel que he calculat jo on es considere oportú. Salutacions, Jaume Ortolà -- Check out the vibrant tech community on one of the world's most engaging tech sites, Slashdot.org! http://sdm.link/slashdot___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala
Re: [Apertium-catala] Presentació: Jaume Ortolà
El dia 8 de juny de 2017 a les 20:27, Xavi Ivars ha escrit: > Fa vora un any ja vaig parlar amb Gema, Mikel i Fran per a explorar la > possibilitat aquesta idea (que tu i jo havíem comentat a vegades), però > probablement en aquell moment jo ho vaig plantejar de manera incorrecta: > vaig proposar utilitzar el "catalan-dict-tools" com a font de > l'apertium-cat, i que aquest últim fóra completament autogenerat. Crec que > va ser Mikel el que va dir que això no era bona idea, ja que no volíem > perdre l'habilitat de tindre un "apertium-cat" editable. > > Crec que la idea aquesta (si ho he entés bé) de fer una aportació puntual > (o més en el futur, però de manera "controlada" i només quan faça falta) > pot funcionar molt bé. > Sí, jo crec que es tracta d'això, d'afegir coses que falten o de fer comprovacions. Cada aplicació té les seues necessitats i és molt difícil que un sol diccionari servisca per a tot. > Només un comentari: respecte als augmentatius -íssim, segurament el més > fàcil seria fer un paradigma a Apertium per a gestionar-los (si cal). > En Apertium hi ha "bo" i "boníssim" dins d'un sol paradigma. En canvi, jo els tinc en dos lemes separats. Crec que jo els puc fer dependre fàcilment del mateix lema, i així minimitzem les diferències. > Ara el que caldria fer és el que comenta l'Hèctor: comprovar que els > adjectius que ja estan a apertium-cat que també has generat tu siguen > "iguals". No necessàriament que tinguen els mateixos paradigmes, sinó que > el "lt-expand" és igual. > Entesos. Ara ho veig més clar. Una volta eliminada la diferència dels superlatius, crec que hauria d'encaixar quasi tot, i trobaríem les possibles incoherències entre diccionaris. > També caldria veure quins adjectius introdueixen ambigüitat on no n'hi > havia (per exemple, adjectius que coincideixen amb verbs/noms, i que les > traduccions podrien ser diferents). > > Siga com siga, enhorabona! > > Saps d'algun diccionari "semblant" en castellà, anglès o francès? Sé que > els diccionaris de LT no són tan complets com els de català, però no sé si > tenen informació suficient per a fer això. > Pot servir qualsevol diccionari. Com més gran i de més qualitat, millor. Si té les formes flexionades, ja tens una part de la feina feta. Si no les té, doncs es poden crear seguint les regles de la llengua en qüestió. No hi ha cap altre misteri. De dades disponibles, crec que se'n poden trobar de sobra. Ara, segons la llengua pot ser més o menys costós d'elaborar. Salut, Jaume Ortolà -- Check out the vibrant tech community on one of the world's most engaging tech sites, Slashdot.org! http://sdm.link/slashdot___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala
Re: [Apertium-catala] Presentació: Jaume Ortolà
Hola Jaume, Genial Fa vora un any ja vaig parlar amb Gema, Mikel i Fran per a explorar la possibilitat aquesta idea (que tu i jo havíem comentat a vegades), però probablement en aquell moment jo ho vaig plantejar de manera incorrecta: vaig proposar utilitzar el "catalan-dict-tools" com a font de l'apertium-cat, i que aquest últim fóra completament autogenerat. Crec que va ser Mikel el que va dir que això no era bona idea, ja que no volíem perdre l'habilitat de tindre un "apertium-cat" editable. Crec que la idea aquesta (si ho he entés bé) de fer una aportació puntual (o més en el futur, però de manera "controlada" i només quan faça falta) pot funcionar molt bé. Només un comentari: respecte als augmentatius -íssim, segurament el més fàcil seria fer un paradigma a Apertium per a gestionar-los (si cal). Ara el que caldria fer és el que comenta l'Hèctor: comprovar que els adjectius que ja estan a apertium-cat que també has generat tu siguen "iguals". No necessàriament que tinguen els mateixos paradigmes, sinó que el "lt-expand" és igual. També caldria veure quins adjectius introdueixen ambigüitat on no n'hi havia (per exemple, adjectius que coincideixen amb verbs/noms, i que les traduccions podrien ser diferents). Siga com siga, enhorabona! Saps d'algun diccionari "semblant" en castellà, anglès o francès? Sé que els diccionaris de LT no són tan complets com els de català, però no sé si tenen informació suficient per a fer això. -- < Xavi Ivars > < http://xavi.ivars.me > -- Check out the vibrant tech community on one of the world's most engaging tech sites, Slashdot.org! http://sdm.link/slashdot___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala
Re: [Apertium-catala] Presentació: Jaume Ortolà
Bon dia, Jaume. Em sembla una contribució fantàstica. Primer de tot, voldria saber quina llicència tenen les dades lingüístiques. Abans de fer una incorporació massiva de vocabulari és imprescindible aclarir aquest punt. En una inspecció ocular, sembla que tots els paradigmes estan ben assignats. Seria important, però, assegurar-se que en les paraules que ara existeixen en el diccionari d'Apertium i a la llista, els paradigmes coincideixen. Això serviria de verificació (tot i que m'imagino que ja l'has feta). Quant a possibles llistes de paraules en altres llengües, per descomptat seria d'allò més interessant. Actualment, sé que s'està treballant en les parelles català-anglès, català-francès, català-sard i no dubto que també en català-castellà i probablement altres. Cordialment, Hèctor El dia 8 de juny de 2017 a les 12:10, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > Bon dia, > > Sóc nou en aquesta llista. Em presente. Em dic Jaume Ortolà, i estic > interessat a col·laborar en Apertium en els parells de traducció que > inclouen el català. > > Tinc alguna experiència en Apertium, però no és sistemàtica. Sí que he > treballat molt en altres projectes relacionats amb el català: el corrector > LanguageTool en català [1], i unes eines per a generar diccionaris de > català en diferents formats [2]. > > Entrant ja en matèria, us explique una de les coses que he fet. He provat > de generar tots els adjectius que tinc en el diccionari en el format > d'Apertium. Funciona sense problemes. El resultat el teniu ací: > https://raw.githubusercontent.com/Softcatala/catalan-dict-to > ols/master/resultats/apertium/adj-languagetool-format-apertium.txt > > En el diccionari monolingüe català d'Apertium ara hi ha uns 6.000 > adjectius. Jo n'he generat 26.000, i n'han quedat 422 sense paradigma. Amb > alguns retocs aquests 422 es poden reduir prou. Però també n'hi ha molts > que són irregulars i que requeririen un paradigma propi nou en Apertium > (que podem generar automàticament). Hi ha alguna petita diferència en > l'organització dels paradigmes. Jo els augmentatius -íssim els tinc ara en > lemes separats. > > Puc fer el mateix amb els noms. En altres categories gramaticals com els > verbs, en principi, no té tant d'interès, més enllà de comprovar > inconsistències entre diccionaris. > > En castellà o en altres llengües, es podria intentar fer coses similars. > > L'objectiu de tot això és automatitzar al màxim la introducció de paraules > noves en els diccionaris, de manera que puguem destinar el temps a la > revisió dels casos més difícils. > > Salutacions, > Jaume Ortolà > > > [1] https://github.com/languagetool-org/languagetool > [2] https://github.com/Softcatala/catalan-dict-tools > > > -- > Check out the vibrant tech community on one of the world's most > engaging tech sites, Slashdot.org! http://sdm.link/slashdot > ___ > Apertium-catala mailing list > Apertium-catala@lists.sourceforge.net > https://lists.sourceforge.net/lists/listinfo/apertium-catala > > -- Check out the vibrant tech community on one of the world's most engaging tech sites, Slashdot.org! http://sdm.link/slashdot___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala
[Apertium-catala] Presentació: Jaume Ortolà
Bon dia, Sóc nou en aquesta llista. Em presente. Em dic Jaume Ortolà, i estic interessat a col·laborar en Apertium en els parells de traducció que inclouen el català. Tinc alguna experiència en Apertium, però no és sistemàtica. Sí que he treballat molt en altres projectes relacionats amb el català: el corrector LanguageTool en català [1], i unes eines per a generar diccionaris de català en diferents formats [2]. Entrant ja en matèria, us explique una de les coses que he fet. He provat de generar tots els adjectius que tinc en el diccionari en el format d'Apertium. Funciona sense problemes. El resultat el teniu ací: https://raw.githubusercontent.com/Softcatala/catalan-dict-to ols/master/resultats/apertium/adj-languagetool-format-apertium.txt En el diccionari monolingüe català d'Apertium ara hi ha uns 6.000 adjectius. Jo n'he generat 26.000, i n'han quedat 422 sense paradigma. Amb alguns retocs aquests 422 es poden reduir prou. Però també n'hi ha molts que són irregulars i que requeririen un paradigma propi nou en Apertium (que podem generar automàticament). Hi ha alguna petita diferència en l'organització dels paradigmes. Jo els augmentatius -íssim els tinc ara en lemes separats. Puc fer el mateix amb els noms. En altres categories gramaticals com els verbs, en principi, no té tant d'interès, més enllà de comprovar inconsistències entre diccionaris. En castellà o en altres llengües, es podria intentar fer coses similars. L'objectiu de tot això és automatitzar al màxim la introducció de paraules noves en els diccionaris, de manera que puguem destinar el temps a la revisió dels casos més difícils. Salutacions, Jaume Ortolà [1] https://github.com/languagetool-org/languagetool [2] https://github.com/Softcatala/catalan-dict-tools -- Check out the vibrant tech community on one of the world's most engaging tech sites, Slashdot.org! http://sdm.link/slashdot___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala