Re: [Apertium-catala] Sistema noruec en els diccionaris

Marc Riera Irigoyen Tue, 20 Dec 2022 11:18:52 -0800

Hola,

Aquest cas de "hui" i "avui" és molt específic; és un doblet indicat en els
criteris lingüístics de la GVA. Normalment les preferències s'apliquen a
diversos lemes d'una categoria, ja sigui el cas "ametlla"/"ametla" o els
numerals [1]. Si féssim això per a cada lema, com dius, seria una feinada i
segurament no cal filar tan prim.


Estic d'acord que és una possible tasca per a un GSoC, tot i que és més una
tasca lingüística molt especialitzada (definir criteris i classificar
lemes) que una tasca tècnica.

A reveure,

*Marc Riera*

[1]
https://github.com/apertium/apertium-cat/commit/25d9acc93175ca2580e3736170d664aebb5e973d


Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dt., 20 de
des. 2022 a les 18:06:

> Gràcies, Marc, pels aclariments. A més, el teu darrer commit serveix bé
> com a exemple:
> https://github.com/apertium/apertium-cat/commit/c8626b3b90905f9e27f0e9c38cde03a9473dae68#diff-c69b3a1a7d3affcd318392f71bc53df1dade27bcb1ed73952eb7d70c8786adcb
>
> Això realment és un treball de rellotger si per a cada forma marcada com a
> divergent (p. ex. "hui") se li associa una forma considerada
> convencionalment com a estàndard (p. ex. "avui"), que és el que has fet
> ara. Però no sé si això serà la manera de procedir en la majoria dels casos
> que hi ha al bidix. Per exemple, es farà una cosa semblant per a "eixir" i
> "eixida", marcant-los com a formes de "sortir" i "sortida"? A més un
> problema que ens trobem no poques vegades en occità és que una paraula com
> a "eixida" en un dialecte significa "sortida" i en un altre "pati" (veig,
> però, que "eixida" s'interpreta sempre com a "sortida" a cat-spa). Amb
> aquest sistema, sembla que caldria crear dos lemes per a "eixida".
>
> Com dieu i es veu pel que heu fet, el sistema es pot fer progressivament,
> però esperava que almenys una part es podria automatitzar. Em cal rumiar-ho
> una mica. Si tot ha de ser manual, realment surt a compte demanar un
> estudiant perquè se n'encarregui amb un GSoC.
>
> Molt cordialment,
> Hèctor
>
> PS
> Tampoc us penseu que en sé gaire d'occità, jo. Més que de sard o arpità,
> però el que faig en tots els casos és utilitzar diccionaris, gramàtiques i
> moooltes consultes a especialistes i parlants.
>
> Missatge de Marc Riera Irigoyen <marc.riera.irigo...@gmail.com> del dia
> dt., 20 de des. 2022 a les 18:26:
>
>> Hola, Hèctor,
>>
>> En Xavi ja ha explicat tots els detalls tècnics; només volia afegir
>> alguna informació més sobre la compilació i el procés d'implementació en
>> apertium-cat.
>>
>> Per a habilitar les preferències de generació (que és la part important
>> en apertium-cat), cal modificar una única vegada el paquet monolingüe i
>> tots els parells implicats per a incorporar el pas addicional amb CG. Això
>> és el que vam fer amb els diacrítics. Un cop aplicat aquest canvi, es poden
>> afegir totes les preferències que es vulguin.
>>
>> Un dels avantatges que té aquest sistema i que s'està aprofitant molt és
>> que la creació de noves preferències pot ser progressiva. Apertium-cat
>> tenia i encara té moltes formes marcades amb "val_gva" i "val_uni", des de
>> qüestions purament de lèxic fins a aspectes de flexió verbal. Hem anat
>> eliminant aquestes marques i canviant-les per les preferències
>> corresponents, que després apliquen els modes "val_gva" i "val_uni"
>> (cadascun té una llista de preferències que s'apliquen sí o sí). Els dos
>> sistemes poden conviure sense regressions durant tot el procés de
>> transformació, per la qual cosa puc canviar dues entrades avui i cinc demà
>> sense preocupar-me per fer-ho tot de cop. Si se suprimeixen totes les
>> marques antigues de variant, es pot simplificar la compilació. Amb el
>> català queda poc per a poder prescindir d'una variant de compilació, com ha
>> dit en Xavi, però encara mantenim les 3 variants.
>>
>> Jo tampoc hi entenc gaire de l'occità (algun dia en vull aprendre), però
>> crec que podríeu aprofitar aquest sistema com a mínim per a la generació.
>> No ho he vist implementat en el trànsfer, per exemple, però crec que seria
>> viable amb alguna modificació en els mòduls corresponents.
>>
>> A reveure,
>>
>> *Marc Riera*
>>
>>
>> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 18 de des.
>> 2022 a les 21:34:
>>
>>> De moment l'única preferència totalment integrada, que elimina la
>>> necessitat de diccionaris extra és el pre/post reforma al monolingüe, i els
>>> topònims al bilingüe.
>>>
>>> A mesura que la resta de coses s'integren completament a apertium-cat
>>> (ara mateix no sé exactament què falta, per exemple, entre val_uni i
>>> val_gva) podrem anar a dos (cat/val) o fins i tot només un (quan la
>>> preferència lexic_val estiga completa, però per a això segurament es
>>> tardarà prou més)
>>>
>>>
>>> --
>>> Xavi Ivars
>>> < http://xavi.ivars.me >
>>>
>>> El dg., 18 de des. 2022, 20:26, Hèctor Alòs i Font <hectora...@gmail.com>
>>> va escriure:
>>>
>>>> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 18 de des.
>>>> 2022 a les 20:17:
>>>>
>>>>>
>>>>>
>>>>> Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dt., 13
>>>>> de des. 2022 a les 17:02:
>>>>>
>>>>>> Hola,
>>>>>>
>>>>>> En els diccionaris occitans són un embolic perquè hi ha un fum de
>>>>>> varietats i aquestes són francament diferents entre elles. A més,
>>>>>> l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta
>>>>>> varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar 
>>>>>> en
>>>>>> els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", 
>>>>>> que
>>>>>> fa que una paraula (o terminació) pertanyi només a una varietat, sense 
>>>>>> que
>>>>>> sigui visible per a les altres. Això multiplica el nombre de línies en 
>>>>>> els
>>>>>> diccionaris. Tot plegat fa que els temps de compilació ja són enormes i
>>>>>> encara ho seran més quan afegim el provençal i el llemosí, que són els
>>>>>> següents de la llista. Per això estem pensant d'introduir el sistema 
>>>>>> noruec
>>>>>> que, per una banda, dona més flexibilitat i, per altra, sembla que 
>>>>>> redueix
>>>>>> el temps de compilació.
>>>>>>
>>>>>> Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire?
>>>>>> Es guanya significativament en temps de compilació?
>>>>>>
>>>>>> Estem pensant de proposar fer aquest port com un projecte del Google
>>>>>> Summer of Code. Us sembla raonable?
>>>>>>
>>>>>>
>>>>> Hola Hèctor,
>>>>>
>>>>> Segurament Marc en podria parlar molt millor que jo, ja que ell és qui
>>>>> ha fet tota la feina d'integració de preferències, però ací van unes
>>>>> quantes coses.
>>>>>
>>>>> El sistema de preferències que ara mateix té apertium-cat dóna molta
>>>>> flexibilitat per a certes coses, però no sé fins a quin punt resoldria el
>>>>> problema principal que té l'occità, inherent a la complexitat de la 
>>>>> mateixa
>>>>> llengua. Ací [1] pots veure les preferències que hi ha ara mateixa
>>>>> configurades.
>>>>>
>>>>> Com veus, són coses que van "a part" de les diferències lèxiques entre
>>>>> les variants: cobreixen sobretot diferències ortogràfiques que, a més, es
>>>>> poden combinar. Per exemple, abans teníem una un català per a les
>>>>> universitats valencianes que utilitzava el "lèxic valencià", marcat com a
>>>>> "val" als diccionaris (p.ex. espill en lloc de mirall), però utilitzava 
>>>>> les
>>>>> normés d'accentuació "catalanes" (cafè, anglès,...) i els accents
>>>>> diacrítics post-reforma 2017. En canvi, la variant que féiem servir a
>>>>> Softcatalà era també lèxic valencià, però normes d'accentuació valencianes
>>>>> i diacrítics pre-reforma 2017. Després, estava la variant que volia la
>>>>> Generalitat Valenciana: lèxic valencià i normes d'accentuació valencianes,
>>>>> però diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos
>>>>> en valencià) enlloc del que la resta de variants valencianes feien servir
>>>>> (Oriola). Tota eixa combinatòria feia que es generaren moltíssims
>>>>> diccionaris de generació diferents (amb el seu temps de compilació
>>>>> corresponent), per a cobrir tots els casos.
>>>>>
>>>>> Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en
>>>>> diferents moments de la pipeline (en aplicar el diccionari bilingüe, o
>>>>> durant de la generació) es generen dues o més versions del que siga
>>>>> (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet
>>>>> fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta.
>>>>> Això fa que, a l'hora de compilar, només es compile un diccionari de
>>>>> generació (molt més gros, això si), en lloc de vora 8 que n'hi havia 
>>>>> abans.
>>>>>
>>>>> Una de les parts bones és que es pot fer de manera totalment
>>>>> incremental: nosaltres vam crear primer que res una preferència al spa-cat
>>>>> per als topònims (oficials vs tradicionals), i amb això vam resoldre una 
>>>>> de
>>>>> les dimensions que teníem, reduint el nombre de diccionaris compilats. En
>>>>> canvi, la preferència del lèxic valencià encara no està (totalment)
>>>>> integrada als diccionaris, per la qual cosa encara es compilen diccionaris
>>>>> de generació diferents per al català i el valencià.
>>>>>
>>>>> Amb una desconeixença elevada de l'occità, el que jo recomanaria és
>>>>> deixar de pensar tant en variants o dialectes i més en "característiques"
>>>>> que puguen ser compartides pels diferents dialectes. Un bon exemple és la
>>>>> preferència "motle" a l'apertium-cat: permet generar paraules com motle o
>>>>> ametla vs motlle o ametlla, de forma totalment desacoblada de les variants
>>>>> dialectals.
>>>>>
>>>>> Exemples podrien ser (si els articles sobre aranés a la Wikipedia són
>>>>> correctes, i foren trets compartits entre dialectes), els plurals femenins
>>>>> amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer
>>>>> (haver en català). Si eixes dues coses es modelen com a diferents
>>>>> "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o
>>>>> amb vr o v), després es pot o bé combinar amb els diccionaris dialectals
>>>>> existents, creant fitxers de preferències per a modes específics (ací pots
>>>>> veure en què s'ha convertit el mode de valencià de la GVA [2]), o també
>>>>> exposant-ho a les interfícies perquè l'usuari trie la combinació de
>>>>> preferències que vol.
>>>>>
>>>>> Finalment, respecte a si paga la pena o no, segurament és algo que
>>>>> haureu de considerar vosaltres. Una migració completa segurament requereix
>>>>> un esforç molt significatiu. I potser no compensa la reducció del temps de
>>>>> compilació. Però si (per exemple), el provençal i el llemosí es poden
>>>>> modelar totalment com a un conjunt de característiques compartides (per
>>>>> exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa
>>>>> Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu
>>>>> estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els
>>>>> diccionaris compilats.
>>>>>
>>>>> No sé si he ajudat massa... 😅
>>>>>
>>>>>
>>>>> [1]
>>>>> https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml
>>>>> [2]
>>>>> https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx
>>>>>
>>>>> --
>>>>> < Xavi Ivars >
>>>>> < http://xavi.ivars.me >
>>>>>
>>>>
>>>>
>>>> Moltíssimes gràcies, Xavier, pels teus aclariments. Tanmateix, jo
>>>> segueixo veient tres compilacions dels diccionaris cat, val_gva i val_uni a
>>>> apertium-cat quan es toca el diccionari i altra vegada dels tres a
>>>> apertium-spa-cat quan es toca el diccionari bilingüe. Això em despista molt
>>>> perquè no veig bé què estan aportant les "característiques" quant a
>>>> reducció de compilacions o del temps de compilació.
>>>>
>>>> Quant a les especificitats de l'occità amb relació al català a
>>>> Apertium, jo diria que bàsicament són dues:
>>>> 1) que no només les varietats són presents en la generació, sinó també
>>>> en l'anàlisi (la qual cosa multiplica per dos les compilacions);
>>>> i 2) que hi ha força més varietats que les tres bàsiques que actualment
>>>> maneguem en català (gràcies al sistema tan enginyós que heu trobat per
>>>> tractar el català pre- i post- reforma).
>>>> Les dues coses fan que les compilacions dels diccionaris resultin molt
>>>> importants per fer més operatiu el desenvolupament de l'occità a Apertium.
>>>>
>>>> Cordialment,
>>>> Hèctor
>>>>
>>> _______________________________________________
>>> Apertium-catala mailing list
>>> Apertium-catala@lists.sourceforge.net
>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>
>> _______________________________________________
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
>

_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Re: [Apertium-catala] Sistema noruec en els diccionaris

Reply via email to