Hola, Aquest cas de "hui" i "avui" és molt específic; és un doblet indicat en els criteris lingüístics de la GVA. Normalment les preferències s'apliquen a diversos lemes d'una categoria, ja sigui el cas "ametlla"/"ametla" o els numerals [1]. Si féssim això per a cada lema, com dius, seria una feinada i segurament no cal filar tan prim.
Estic d'acord que és una possible tasca per a un GSoC, tot i que és més una tasca lingüística molt especialitzada (definir criteris i classificar lemes) que una tasca tècnica. A reveure, *Marc Riera* [1] https://github.com/apertium/apertium-cat/commit/25d9acc93175ca2580e3736170d664aebb5e973d Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dt., 20 de des. 2022 a les 18:06: > Gràcies, Marc, pels aclariments. A més, el teu darrer commit serveix bé > com a exemple: > https://github.com/apertium/apertium-cat/commit/c8626b3b90905f9e27f0e9c38cde03a9473dae68#diff-c69b3a1a7d3affcd318392f71bc53df1dade27bcb1ed73952eb7d70c8786adcb > > Això realment és un treball de rellotger si per a cada forma marcada com a > divergent (p. ex. "hui") se li associa una forma considerada > convencionalment com a estàndard (p. ex. "avui"), que és el que has fet > ara. Però no sé si això serà la manera de procedir en la majoria dels casos > que hi ha al bidix. Per exemple, es farà una cosa semblant per a "eixir" i > "eixida", marcant-los com a formes de "sortir" i "sortida"? A més un > problema que ens trobem no poques vegades en occità és que una paraula com > a "eixida" en un dialecte significa "sortida" i en un altre "pati" (veig, > però, que "eixida" s'interpreta sempre com a "sortida" a cat-spa). Amb > aquest sistema, sembla que caldria crear dos lemes per a "eixida". > > Com dieu i es veu pel que heu fet, el sistema es pot fer progressivament, > però esperava que almenys una part es podria automatitzar. Em cal rumiar-ho > una mica. Si tot ha de ser manual, realment surt a compte demanar un > estudiant perquè se n'encarregui amb un GSoC. > > Molt cordialment, > Hèctor > > PS > Tampoc us penseu que en sé gaire d'occità, jo. Més que de sard o arpità, > però el que faig en tots els casos és utilitzar diccionaris, gramàtiques i > moooltes consultes a especialistes i parlants. > > Missatge de Marc Riera Irigoyen <marc.riera.irigo...@gmail.com> del dia > dt., 20 de des. 2022 a les 18:26: > >> Hola, Hèctor, >> >> En Xavi ja ha explicat tots els detalls tècnics; només volia afegir >> alguna informació més sobre la compilació i el procés d'implementació en >> apertium-cat. >> >> Per a habilitar les preferències de generació (que és la part important >> en apertium-cat), cal modificar una única vegada el paquet monolingüe i >> tots els parells implicats per a incorporar el pas addicional amb CG. Això >> és el que vam fer amb els diacrítics. Un cop aplicat aquest canvi, es poden >> afegir totes les preferències que es vulguin. >> >> Un dels avantatges que té aquest sistema i que s'està aprofitant molt és >> que la creació de noves preferències pot ser progressiva. Apertium-cat >> tenia i encara té moltes formes marcades amb "val_gva" i "val_uni", des de >> qüestions purament de lèxic fins a aspectes de flexió verbal. Hem anat >> eliminant aquestes marques i canviant-les per les preferències >> corresponents, que després apliquen els modes "val_gva" i "val_uni" >> (cadascun té una llista de preferències que s'apliquen sí o sí). Els dos >> sistemes poden conviure sense regressions durant tot el procés de >> transformació, per la qual cosa puc canviar dues entrades avui i cinc demà >> sense preocupar-me per fer-ho tot de cop. Si se suprimeixen totes les >> marques antigues de variant, es pot simplificar la compilació. Amb el >> català queda poc per a poder prescindir d'una variant de compilació, com ha >> dit en Xavi, però encara mantenim les 3 variants. >> >> Jo tampoc hi entenc gaire de l'occità (algun dia en vull aprendre), però >> crec que podríeu aprofitar aquest sistema com a mínim per a la generació. >> No ho he vist implementat en el trànsfer, per exemple, però crec que seria >> viable amb alguna modificació en els mòduls corresponents. >> >> A reveure, >> >> *Marc Riera* >> >> >> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 18 de des. >> 2022 a les 21:34: >> >>> De moment l'única preferència totalment integrada, que elimina la >>> necessitat de diccionaris extra és el pre/post reforma al monolingüe, i els >>> topònims al bilingüe. >>> >>> A mesura que la resta de coses s'integren completament a apertium-cat >>> (ara mateix no sé exactament què falta, per exemple, entre val_uni i >>> val_gva) podrem anar a dos (cat/val) o fins i tot només un (quan la >>> preferència lexic_val estiga completa, però per a això segurament es >>> tardarà prou més) >>> >>> >>> -- >>> Xavi Ivars >>> < http://xavi.ivars.me > >>> >>> El dg., 18 de des. 2022, 20:26, Hèctor Alòs i Font <hectora...@gmail.com> >>> va escriure: >>> >>>> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 18 de des. >>>> 2022 a les 20:17: >>>> >>>>> >>>>> >>>>> Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dt., 13 >>>>> de des. 2022 a les 17:02: >>>>> >>>>>> Hola, >>>>>> >>>>>> En els diccionaris occitans són un embolic perquè hi ha un fum de >>>>>> varietats i aquestes són francament diferents entre elles. A més, >>>>>> l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta >>>>>> varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar >>>>>> en >>>>>> els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", >>>>>> que >>>>>> fa que una paraula (o terminació) pertanyi només a una varietat, sense >>>>>> que >>>>>> sigui visible per a les altres. Això multiplica el nombre de línies en >>>>>> els >>>>>> diccionaris. Tot plegat fa que els temps de compilació ja són enormes i >>>>>> encara ho seran més quan afegim el provençal i el llemosí, que són els >>>>>> següents de la llista. Per això estem pensant d'introduir el sistema >>>>>> noruec >>>>>> que, per una banda, dona més flexibilitat i, per altra, sembla que >>>>>> redueix >>>>>> el temps de compilació. >>>>>> >>>>>> Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? >>>>>> Es guanya significativament en temps de compilació? >>>>>> >>>>>> Estem pensant de proposar fer aquest port com un projecte del Google >>>>>> Summer of Code. Us sembla raonable? >>>>>> >>>>>> >>>>> Hola Hèctor, >>>>> >>>>> Segurament Marc en podria parlar molt millor que jo, ja que ell és qui >>>>> ha fet tota la feina d'integració de preferències, però ací van unes >>>>> quantes coses. >>>>> >>>>> El sistema de preferències que ara mateix té apertium-cat dóna molta >>>>> flexibilitat per a certes coses, però no sé fins a quin punt resoldria el >>>>> problema principal que té l'occità, inherent a la complexitat de la >>>>> mateixa >>>>> llengua. Ací [1] pots veure les preferències que hi ha ara mateixa >>>>> configurades. >>>>> >>>>> Com veus, són coses que van "a part" de les diferències lèxiques entre >>>>> les variants: cobreixen sobretot diferències ortogràfiques que, a més, es >>>>> poden combinar. Per exemple, abans teníem una un català per a les >>>>> universitats valencianes que utilitzava el "lèxic valencià", marcat com a >>>>> "val" als diccionaris (p.ex. espill en lloc de mirall), però utilitzava >>>>> les >>>>> normés d'accentuació "catalanes" (cafè, anglès,...) i els accents >>>>> diacrítics post-reforma 2017. En canvi, la variant que féiem servir a >>>>> Softcatalà era també lèxic valencià, però normes d'accentuació valencianes >>>>> i diacrítics pre-reforma 2017. Després, estava la variant que volia la >>>>> Generalitat Valenciana: lèxic valencià i normes d'accentuació valencianes, >>>>> però diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos >>>>> en valencià) enlloc del que la resta de variants valencianes feien servir >>>>> (Oriola). Tota eixa combinatòria feia que es generaren moltíssims >>>>> diccionaris de generació diferents (amb el seu temps de compilació >>>>> corresponent), per a cobrir tots els casos. >>>>> >>>>> Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en >>>>> diferents moments de la pipeline (en aplicar el diccionari bilingüe, o >>>>> durant de la generació) es generen dues o més versions del que siga >>>>> (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet >>>>> fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta. >>>>> Això fa que, a l'hora de compilar, només es compile un diccionari de >>>>> generació (molt més gros, això si), en lloc de vora 8 que n'hi havia >>>>> abans. >>>>> >>>>> Una de les parts bones és que es pot fer de manera totalment >>>>> incremental: nosaltres vam crear primer que res una preferència al spa-cat >>>>> per als topònims (oficials vs tradicionals), i amb això vam resoldre una >>>>> de >>>>> les dimensions que teníem, reduint el nombre de diccionaris compilats. En >>>>> canvi, la preferència del lèxic valencià encara no està (totalment) >>>>> integrada als diccionaris, per la qual cosa encara es compilen diccionaris >>>>> de generació diferents per al català i el valencià. >>>>> >>>>> Amb una desconeixença elevada de l'occità, el que jo recomanaria és >>>>> deixar de pensar tant en variants o dialectes i més en "característiques" >>>>> que puguen ser compartides pels diferents dialectes. Un bon exemple és la >>>>> preferència "motle" a l'apertium-cat: permet generar paraules com motle o >>>>> ametla vs motlle o ametlla, de forma totalment desacoblada de les variants >>>>> dialectals. >>>>> >>>>> Exemples podrien ser (si els articles sobre aranés a la Wikipedia són >>>>> correctes, i foren trets compartits entre dialectes), els plurals femenins >>>>> amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer >>>>> (haver en català). Si eixes dues coses es modelen com a diferents >>>>> "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o >>>>> amb vr o v), després es pot o bé combinar amb els diccionaris dialectals >>>>> existents, creant fitxers de preferències per a modes específics (ací pots >>>>> veure en què s'ha convertit el mode de valencià de la GVA [2]), o també >>>>> exposant-ho a les interfícies perquè l'usuari trie la combinació de >>>>> preferències que vol. >>>>> >>>>> Finalment, respecte a si paga la pena o no, segurament és algo que >>>>> haureu de considerar vosaltres. Una migració completa segurament requereix >>>>> un esforç molt significatiu. I potser no compensa la reducció del temps de >>>>> compilació. Però si (per exemple), el provençal i el llemosí es poden >>>>> modelar totalment com a un conjunt de característiques compartides (per >>>>> exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa >>>>> Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu >>>>> estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els >>>>> diccionaris compilats. >>>>> >>>>> No sé si he ajudat massa... 😅 >>>>> >>>>> >>>>> [1] >>>>> https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml >>>>> [2] >>>>> https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx >>>>> >>>>> -- >>>>> < Xavi Ivars > >>>>> < http://xavi.ivars.me > >>>>> >>>> >>>> >>>> Moltíssimes gràcies, Xavier, pels teus aclariments. Tanmateix, jo >>>> segueixo veient tres compilacions dels diccionaris cat, val_gva i val_uni a >>>> apertium-cat quan es toca el diccionari i altra vegada dels tres a >>>> apertium-spa-cat quan es toca el diccionari bilingüe. Això em despista molt >>>> perquè no veig bé què estan aportant les "característiques" quant a >>>> reducció de compilacions o del temps de compilació. >>>> >>>> Quant a les especificitats de l'occità amb relació al català a >>>> Apertium, jo diria que bàsicament són dues: >>>> 1) que no només les varietats són presents en la generació, sinó també >>>> en l'anàlisi (la qual cosa multiplica per dos les compilacions); >>>> i 2) que hi ha força més varietats que les tres bàsiques que actualment >>>> maneguem en català (gràcies al sistema tan enginyós que heu trobat per >>>> tractar el català pre- i post- reforma). >>>> Les dues coses fan que les compilacions dels diccionaris resultin molt >>>> importants per fer més operatiu el desenvolupament de l'occità a Apertium. >>>> >>>> Cordialment, >>>> Hèctor >>>> >>> _______________________________________________ >>> Apertium-catala mailing list >>> Apertium-catala@lists.sourceforge.net >>> https://lists.sourceforge.net/lists/listinfo/apertium-catala >>> >> _______________________________________________ >> Apertium-catala mailing list >> Apertium-catala@lists.sourceforge.net >> https://lists.sourceforge.net/lists/listinfo/apertium-catala >> >
_______________________________________________ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala