Re: [Apertium-catala] Fwd: Noms propis

2018-04-18 Thread Donís Seguí
Bon dia, Xavier,

Sí, sembla que està tot clar.

Només em queda un dubte, quan dius:

*Mequinensa *és com ho volem a llarg termini,i també funcionaria. Però la
manera més segura és fer-ho com a *Albío*

Entenc que el que volem és fer-ho com *menquinesa *o preferim com *Albió?* És
a dir, volem tractar de manera diferent els que són iguals en les dues
llengües dels que no ho són? Quan pugues m'ho confirmes, i ho aplicaré a la
llista que estem preparant.


Gràcies


El dia 17 d’abril de 2018 a les 22:23, Xavi Ivars  ha
escrit:

> Hola Donís,
>
> L'objectiu *final* és el que tenim ara al paquet català: per exemple
> paradigmes diferents per a np.ant.m (Marc), np.ant.f (Maria) i np.cog
> (Saussure).
>
> Tot i això, com el canvi es va fer al català per al parell català-anglés,
> el que vam fer va ser un model *de transició *per a que tot continuara
> funcionant.
>
> Marque els que volem en català
>
>
>> *En el català:**Antropònims*: n="Abad__np"; n="Marc__np"; n="Maria__np":
>> n="Saussure__np”
>> *Topònims: *n="Iran__np"; n="Àfrica__np"; n="Pau__np";
>> n="Estats_Units__np"; n="Balears__np"
>> *Altres: *Abans hi havia ="ABC__np", però ara veig que s’està optant per
>> distingir gènere i hi ha n="Linux__np" i n="Wikipedia__np"
>
>
>
>
>> *Bilingüe*Ací és on he detectat diversitat de tractament. En pose uns
>> exemples diferenciats en els tres grups (antropònims, topònims, altres).
>> Podem concretar quin dels models de cada grup usem a partir d’ara?
>>
>> *Topònims:*   Montblanc
>>Kosovo
>>Mequinensa
>>Alborache  Alboraig
>>Albión Albió> n="*top*"/>
>>
>
> Idealment, volem distingir el tipus de np, per tant descartem Montblanc o
> Alboraig. Al català, els topònims són np.top, per tant descartem Kosovo.
>
> Mequinensa és com ho volem a llarg termini,i també funcionaria. Però la
> manera més segura és fer-ho com a Albío
>
>
>> *Antropònims*:
>>Jackson
>>Jacinto
>>Mendel
>>MercéMercè> n="np"/>
>>
>
> Només Mercé/Mercè és totalment correcta (per cert, no seria Mercedes???)
>
> A Jackson, li falta dir si és ant o cog
> En el cas de Mendel, hauria de ser np.ant --> np.cog, però el català és
> capaç de generar ant, pel que l'error només passarà de cat --> spa.
> Idealment, hauria de ser
>
>MendelMendel n="*cog*"/>
>
>
>
>
>
>> *Altres:*   Logse
>>Altavista
>>Kremlin
>
>
> Ací, Altavista i Kremlin són els exemples bons.
>
> Dis-me si hi ha alguna cosa que no queda clara.
> --
> < Xavi Ivars >
> < http://xavi.ivars.me >
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Fwd: Noms propis

2018-04-17 Thread Xavi Ivars
Hola Donís,

L'objectiu *final* és el que tenim ara al paquet català: per exemple
paradigmes diferents per a np.ant.m (Marc), np.ant.f (Maria) i np.cog
(Saussure).

Tot i això, com el canvi es va fer al català per al parell català-anglés,
el que vam fer va ser un model *de transició *per a que tot continuara
funcionant.

Marque els que volem en català


> *En el català:**Antropònims*: n="Abad__np"; n="Marc__np"; n="Maria__np":
> n="Saussure__np”
> *Topònims: *n="Iran__np"; n="Àfrica__np"; n="Pau__np";
> n="Estats_Units__np"; n="Balears__np"
> *Altres: *Abans hi havia ="ABC__np", però ara veig que s’està optant per
> distingir gènere i hi ha n="Linux__np" i n="Wikipedia__np"




> *Bilingüe*Ací és on he detectat diversitat de tractament. En pose uns
> exemples diferenciats en els tres grups (antropònims, topònims, altres).
> Podem concretar quin dels models de cada grup usem a partir d’ara?
>
> *Topònims:*   Montblanc
>Kosovo
>Mequinensa
>Alborache  Alboraig
>Albión Albió n="*top*"/>
>

Idealment, volem distingir el tipus de np, per tant descartem Montblanc o
Alboraig. Al català, els topònims són np.top, per tant descartem Kosovo.

Mequinensa és com ho volem a llarg termini,i també funcionaria. Però la
manera més segura és fer-ho com a Albío


> *Antropònims*:
>Jackson
>Jacinto
>Mendel
>MercéMercè n="ant"/>
>

Només Mercé/Mercè és totalment correcta (per cert, no seria Mercedes???)

A Jackson, li falta dir si és ant o cog
En el cas de Mendel, hauria de ser np.ant --> np.cog, però el català és
capaç de generar ant, pel que l'error només passarà de cat --> spa.
Idealment, hauria de ser

   MendelMendel





> *Altres:*   Logse
>Altavista
>Kremlin


Ací, Altavista i Kremlin són els exemples bons.

Dis-me si hi ha alguna cosa que no queda clara.
-- 
< Xavi Ivars >
< http://xavi.ivars.me >
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Fwd: Noms propis

2018-04-16 Thread Donís Seguí
Bon dia, tal com vaig expressar l’altre dia, en la Conselleria d’Educació
estem a punt de presentar el nou Salt, molt possiblement dins d’un parell
de setmanes, i volem avançar tant com siga possible. Tenim clar que no
podem introduir tot el que tenim, ni de bon tros, abans de la presentació,
ja que tenim un bon paquet d’entrades preparades per a introduir, tant de
vocabulari com de noms propis. Per això, ens interessa tindre clar quin
criteri volem seguir amb els noms propis, alguns dels quals volem introduir
ja aquesta setmana.



Marc diu que es partidari d’especificar al màxim possible, i posa l’exemple
de Núria, i entenc que en aquests casos podem fer dues entrades, una “ant”
i una altra “top”.



M’agradaria que quedara clar el tema dels noms propis, per poder seguir a
partir d’ara un criteri comú.



Pel que he vist, observant les bases, pel que fa als noms propis tenim el
següent.

*En castellà tenim com a  paradigmes:*

Antropònims: n="Abad__np"/>

Topònims: n="Afganistán__np"

Altres: n="ABC__np"

*En el català:*

*Antropònims*: n="Abad__np"; n="Marc__np"; n="Maria__np": n="Saussure__np”

*Topònims: *n="Iran__np"; n="Àfrica__np"; n="Pau__np";
n="Estats_Units__np"; n="Balears__np"

*Altres: *Abans hi havia ="ABC__np", però ara veig que s’està optant per
distingir gènere i hi ha n="Linux__np" i n="Wikipedia__np"



*Bilingüe*

Ací és on he detectat diversitat de tractament. En pose uns exemples
diferenciats en els tres grups (antropònims, topònims, altres). Podem
concretar quin dels models de cada grup usem a partir d’ara?

*Topònims:*

   Montblanc

   Kosovo

   Mequinensa

   Alborache  Alboraig

   Albión Albió

*Antropònims*:

   Jackson

   Jacinto

   Mendel

   MercéMercè

*Altres:*

   Logse

   Altavista

   Kremlin



​Gràcies

Donís​


> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Fwd: Noms propis

2018-04-16 Thread Xavi Ivars
Perdoneu per tardar tant.

En resum: estic d'acord amb tots :)

Anem per passos:

Entrant en el cas espanyol-català, ¿suggereixes que valdria més eliminar
> les marques d'invariable ?


Només en els casos on hi ha discrepància. Per exemple, no veig cap problema
en tindre Madrid. Algú veu un problema amb això?


la millor solució sempre hauria de ser desdoblar l'entrada en qüestió en
>  i  i tractar la discrepància al diccionari bilingüe i no afegir
> variants en un dels diccionaris monolingües per acceptar el que hi ha a
> l'altre.


Concidisc amb això, tot i que a vegades, la millor solució no és la
"viable". Com a exemple, quan es va fer tota la feina amb els noms propis a
apertium-cat, la manera més "senzilla" de que quasi tot continuara fu
ncionant a l'apertium spa-cat era aprendre a generar més coses de les que
s'analitzaven a l'apertium-spa i a l'apertium-cat. Es tractava, llavors,
d'una solució temporal (tot i que "indefinida") que, idealment s'anirà
resolent, tractant les diferències (si n'hi ha!) al monolingüe.


> Quant a la feina, si és productiva, o no, la meva impressió que ho és i
> molt. Per si mateixos, és cert, no donen gaire informació però són
> essencials per al desambiguador. Quan hi ha paraules desconegudes, va
> completament perdut. En cas d'ambigüitat, la paraula que hi ha després o
> abans no sap si és un verb, una preposició, un nom o el qui sigui. Per això
> sóc partidari, i he anat afegint, milers d'antropònims. I molts més que en
> falten! El que és cert, és que n'hi ha prou de tractar-los a l'engròs: una
> llista de cognoms, no te la mires gaire. Te la mires pel damunt per veure
> que no hi hagi errors evidents i, si pots, en carregues mil de cop.
>
> Hi ha un cas, com a mínim, però, que és que sí que aporten informació
> rellevant. En el cas de la concordança en gènere entre subjecte i atribut.
> La qüestió és que, per exemple, en el parell català-francès tens vora 1/3
> dels adjectius que són mf en un costat i m o f en l'altre. Sense informació
> de gènere, qui l'encerta l'endevina amb el gènere que poses per solucionar
> un GD.
>
>
+1

A la llarga, resulta productiu, i amb un diccionari bilingüe "net", no
generaria problemes. El cas actualment amb spa-cat és que no està net del
tot, amb moltes entrades com a  al bidix que tenen informació diferent
als respectius monolingües.


-- 
< Xavi Ivars >
< http://xavi.ivars.me >
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Fwd: Noms propis

2018-04-14 Thread Marc Riera Irigoyen
Hola,

Personalment no m'acaben d'agradar les marques  perquè per desgràcia
sempre me les trobo quan donen problemes, però són una opció totalment
vàlida sempre que s'entengui bé el seu funcionament i les limitacions que
tenen. Si una marca d'aquestes dóna problemes perquè no coincideixen al
100% les etiquetes entre dues llengües, la millor solució sempre hauria de
ser desdoblar l'entrada en qüestió en  i  i tractar la discrepància
al diccionari bilingüe i no afegir variants en un dels diccionaris
monolingües per acceptar el que hi ha a l'altre.

Estic d'acord que és una feina generalment poc productiva, però en el cas
del parell anglès-català, per exemple, on en un dels dos costats no hi ha
informació de gènere, la diferència es nota.

Salutacions,

Marc

El dia 14 d’abril de 2018 a les 13:14, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Gràcies, Marc. Me'n faig una idea.
>
> Els noms propis, per desgràcia, donen molta feina, però aquesta feina és
> poc productiva. Hi ha poques vegades en què realment calgui la informació
> de les etiquetes.
>
> Entrant en el cas espanyol-català, ¿suggereixes que valdria més eliminar
> les marques d'invariable ?
>
> En els casos difícils, a més d'etiquetar-ho tot bé, cal fer desambiguació.
> Veig que ja es fan coses. Per exemple, "Jaime Martínez, Jaime I, en
> Zaragoza, Juan Zaragoza" es tradueix correctament per "Jaime Martínez,
> Jaume I, a Saragossa, Juan Zaragoza".
>
> Salutacions,
> Jaume Ortolà
>
>
> El dia 13 d’abril de 2018 a les 14:04, Marc Riera Irigoyen <
> marc.riera.irigo...@gmail.com> ha escrit:
>
>> Hola Jaume,
>>
>> Al diccionari monolingüe català queden uns 450 noms propis de a categoria
>> "altres" pendents de classificar (si algú s'hi vol animar, són aquí [1], al
>> cinquè full).
>>
>> Sobre les etiquetes, crec que la confusió ve principalment de la
>> (des)organització del diccionari bilingüe castellà-català. Hi ha
>> moltíssimes entrades, com les del missatge de Donís Seguí, que estan
>> definides com a invariables (), per la qual cosa Apertium busca el
>> mateix lema amb les mateixes etiquetes a tots dos costats. Si coincideix
>> tot no hi ha problema, però a la mínima que hi ha un canvi a un dels dos
>> monolingües (com ha passat amb el català) l'entrada queda trencada.
>>
>> A part d'això, com bé has dit, hi ha diferents criteris pel que fa a les
>> etiquetes que cal especificar a les entrades del diccionari bilingüe. Jo
>> sóc partidari d'especificar el màxim d'etiquetes possible per evitar
>> problemes inesperats. Poso un exemple amb el nom propi "Núria", que pot ser
>> un antropònim o un topònim:
>>
>> NúriaNúria
>>
>> Amb una entrada així, Apertium transfereix totes les etiquetes darrere de
>>  d'un costat a l'altre. Si "Núria" existeix en català com a
>> , Apertium cercarà en castellà el mateix, i funcionaria. El
>> problema apareixeria si s'afegís "Núria" com a topònim en català
>> (), perquè Apertium el transferiria al castellà per aquesta
>> mateixa entrada. Com que només hi ha especificada l'etiqueta ,
>> qualsevol cosa que sigui "Núria" i tingui aquesta etiqueta en primera
>> posició es transferiria. Per tant, és molt important especificar més
>> etiquetes, com per exemple:
>>
>> NúriaNúria> n="ant"/>
>>
>> Amb una entrada així, només es transferiria l'antropònim. Si després es
>> volgués afegir el topònim, només caldria afegir una altra entrada:
>>
>> NúriaNúria> n="top"/>
>>
>> D'aquesta manera no hi hauria conflictes entre els dos tipus de nom propi
>> i es podria ajustar millor la traducció.
>>
>> Marc
>>
>>
>>
>> [1] https://docs.google.com/spreadsheets/d/19eFQ2xS6bItbCUxUtPNk
>> -bMBRPIMKzLR1oY6d0t84_M/edit?usp=sharing
>>
>> El dia 13 d’abril de 2018 a les 13:30, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> Bon dia,
>>>
>>> Donís Seguí, que fa contribucions al parell espanyol-català, m'envia
>>> aquesta qüestió sobre noms propis. Copie el missatge més avall. ¿Algú pot
>>> explicar com està tot això ara mateix? Quins criteris s'han de seguir, què
>>> està pendent de fer, etc. Ni tan sols estic segur del significat de totes
>>> les etiquetes que es fan servir.
>>>
>>> També tinc altres dubtes sobre noms propis. Tenen relació amb els que
>>> queden pendents en el testvoc spa-cat.[1] ¿Quins criteris convé seguir?
>>> Entenc que els noms de persones en general no els traduïm, siga Pedro,
>>> Juan... o Pere, Joan... Però hi ha molts casos problemàtics o dubtosos. Els
>>> noms propis de persona poden coincidir amb topònims o amb noms comuns o
>>> altres coses: Nuria, Victoria, Gracia, Olimpia, Penedés... ¿Es poden
>>> establir unes orientacions generals o simplement hem de posar el que
>>> intuïtivament tinga més sentit en cada cas?
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>> [1] https://github.com/apertium/apertium-spa-cat/blob/master
>>> /dev/testvoc.spa-cat.txt
>>>
>>>
>>> -- Missatge reenviat --
>>> De: Donís 
>>> Data: 13 d’abril de 2018 a les 13:11
>>> Assumpte: 

Re: [Apertium-catala] Fwd: Noms propis

2018-04-14 Thread Jaume Ortolà i Font
Gràcies, Marc. Me'n faig una idea.

Els noms propis, per desgràcia, donen molta feina, però aquesta feina és
poc productiva. Hi ha poques vegades en què realment calgui la informació
de les etiquetes.

Entrant en el cas espanyol-català, ¿suggereixes que valdria més eliminar
les marques d'invariable ?

En els casos difícils, a més d'etiquetar-ho tot bé, cal fer desambiguació.
Veig que ja es fan coses. Per exemple, "Jaime Martínez, Jaime I, en
Zaragoza, Juan Zaragoza" es tradueix correctament per "Jaime Martínez,
Jaume I, a Saragossa, Juan Zaragoza".

Salutacions,
Jaume Ortolà


El dia 13 d’abril de 2018 a les 14:04, Marc Riera Irigoyen <
marc.riera.irigo...@gmail.com> ha escrit:

> Hola Jaume,
>
> Al diccionari monolingüe català queden uns 450 noms propis de a categoria
> "altres" pendents de classificar (si algú s'hi vol animar, són aquí [1], al
> cinquè full).
>
> Sobre les etiquetes, crec que la confusió ve principalment de la
> (des)organització del diccionari bilingüe castellà-català. Hi ha
> moltíssimes entrades, com les del missatge de Donís Seguí, que estan
> definides com a invariables (), per la qual cosa Apertium busca el
> mateix lema amb les mateixes etiquetes a tots dos costats. Si coincideix
> tot no hi ha problema, però a la mínima que hi ha un canvi a un dels dos
> monolingües (com ha passat amb el català) l'entrada queda trencada.
>
> A part d'això, com bé has dit, hi ha diferents criteris pel que fa a les
> etiquetes que cal especificar a les entrades del diccionari bilingüe. Jo
> sóc partidari d'especificar el màxim d'etiquetes possible per evitar
> problemes inesperats. Poso un exemple amb el nom propi "Núria", que pot ser
> un antropònim o un topònim:
>
> NúriaNúria
>
> Amb una entrada així, Apertium transfereix totes les etiquetes darrere de
>  d'un costat a l'altre. Si "Núria" existeix en català com a
> , Apertium cercarà en castellà el mateix, i funcionaria. El
> problema apareixeria si s'afegís "Núria" com a topònim en català
> (), perquè Apertium el transferiria al castellà per aquesta
> mateixa entrada. Com que només hi ha especificada l'etiqueta ,
> qualsevol cosa que sigui "Núria" i tingui aquesta etiqueta en primera
> posició es transferiria. Per tant, és molt important especificar més
> etiquetes, com per exemple:
>
> NúriaNúria n="ant"/>
>
> Amb una entrada així, només es transferiria l'antropònim. Si després es
> volgués afegir el topònim, només caldria afegir una altra entrada:
>
> NúriaNúria n="top"/>
>
> D'aquesta manera no hi hauria conflictes entre els dos tipus de nom propi
> i es podria ajustar millor la traducció.
>
> Marc
>
>
>
> [1] https://docs.google.com/spreadsheets/d/19eFQ2xS6bItbCUxUtPNk-
> bMBRPIMKzLR1oY6d0t84_M/edit?usp=sharing
>
> El dia 13 d’abril de 2018 a les 13:30, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> Bon dia,
>>
>> Donís Seguí, que fa contribucions al parell espanyol-català, m'envia
>> aquesta qüestió sobre noms propis. Copie el missatge més avall. ¿Algú pot
>> explicar com està tot això ara mateix? Quins criteris s'han de seguir, què
>> està pendent de fer, etc. Ni tan sols estic segur del significat de totes
>> les etiquetes que es fan servir.
>>
>> També tinc altres dubtes sobre noms propis. Tenen relació amb els que
>> queden pendents en el testvoc spa-cat.[1] ¿Quins criteris convé seguir?
>> Entenc que els noms de persones en general no els traduïm, siga Pedro,
>> Juan... o Pere, Joan... Però hi ha molts casos problemàtics o dubtosos. Els
>> noms propis de persona poden coincidir amb topònims o amb noms comuns o
>> altres coses: Nuria, Victoria, Gracia, Olimpia, Penedés... ¿Es poden
>> establir unes orientacions generals o simplement hem de posar el que
>> intuïtivament tinga més sentit en cada cas?
>>
>> Salutacions,
>> Jaume Ortolà
>>
>> [1] https://github.com/apertium/apertium-spa-cat/blob/master
>> /dev/testvoc.spa-cat.txt
>>
>>
>> -- Missatge reenviat --
>> De: Donís 
>> Data: 13 d’abril de 2018 a les 13:11
>> Assumpte: Noms propis
>> Per a: Jaume Ortolà i Font 
>>
>>
>> Bon dia, Jaume, estem preparant una bona llista de noms propis, i hem
>> vist que hi ha divergència de criteris. Mira estos casos
>>
>> *En estos antropònims:*
>>Adoración
>>Albentosa
>>Afrodita
>>AlCapone
>>
>>
>> *Ens estos topònims, en un posa que és "np" i en l'altre que és "ant" o
>> "top"*
>>AlbalatdelsTarongers
>>Albalat
>>Daimús
>>Dajla
>>
>> *En noms propis diversos:*
>>CiutatdelesArtsilesCiencies> *n="np"/>
>> GovernValenciàGovernValencià> *"np"/>*
>>
>>
>> 
>> --
>> Check out the vibrant tech community on one of the world's most
>> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
>> ___
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>>