Pasada unha semana, creo que debemos pechar o fío co que temos falado. A decisión e a ligazón á petición a Mozilla está aquí. https://foro.trasno.gal/t/decision-sobre-catalogacion-de-acentos/68
O mér., 3 de mar. de 2021 ás 09:11, Antón Méixome (<cert...@certima.net>) escribiu: > A diferenza é relevante por exactamente o que di o vídeo de Esther. > Temos pares de palabras que se distinguen precisamente polas vogais; que > se transcriben diferente e que son moi frecuentes: Ves? Vés?, Este e > aquel/Este é aquel > > As frases non están todas en galego normativo. Estano ortograficamente e > en vocabulario pero temos variacións morfolóxicas e gramaticais. Por > exemplo con cheismo, aínda que sexan minoritarias. > Salvo as gheadas (que hai varias), o seseo (que hai varios) e os pares de > palabras con vocalismo distintivo, o resto das variacións de pronuncia non > teñen transcendencia na interpretación escrita. Por exemplo, parte de > Galicia pronuncia: A nova bola (pechado) e outra parte "A n0va b0la" > (abertas) ; outros pronuncian con «rotacismo»: Caíu varia-r veces; pero > outros utilizan demostrativos e pronomes non normativos: Fálalle tu, Iste > gústame máis. Outros utilizan cuatro e non catro... son distintos casos, e > se nunha primeira fase non é capaz de casar ti/tu ou catro/cuatro non é > realmente ningún problema. > > Este tipo de variacións ímolas atopar en todos os idiomas e non se > recollen neste momento para o modelo de lingua, que aínda así sería fiable > nun 90%. Quero imaxinar que en canto se poña a funcionar a intelixencia > artificial sobre un idioma específico, se lle poderá seguir proporcionando > materia prima, como enchufalo a un programa de televisión, a unha gravación > de falantes, e que vaia aprendendo a interpretar falas diversas contando > con corrección por parte humana. Imaxínate as variacións fonéticas que pode > ter o francés, o inglés,... aínda que lle recollas gravacións con > etiquetas, ao final vai todo para o mesmo dataset. > > Naturalmente isto leva á primacía do modelo estándar de lingua tanto para > interactuar co robot como para producir galego sintético. Non hai outra. > > O máximo que podemos facer é deseñar unha folla de instrucións para > doadores de voz e difundila: dicirlles que lean exactamente o que pon a > pantalla e que utilicen a súa maneira de pronunciar. > Unha solución parcial sería organizar maratóns de doazóns en zonas/grupos > concretos e homoxéneos, monitorizados por alguén que mobilice falantes e os > instrúa sobre estes detalles. Polo menos será divertido e interesante para > os participantes. > > Tamén o perfeccionamento da etiquetaxe podería facerse no proceso de > validación de fragmentos de son pero non podemos controlar/adestrar a todos > os que validen. É dicir se alguén que di que fala galego normativo pero > logo ten cinco vogais, podelo cambiar de etiqueta as súas gravacións. > Podería propoñerse a Mozilla. > Aí é onde está a miña dúbida, porque a etiqueta neofalante non é realmente > específica: hai galegofalantes habituais que xa non teñen vocalismo > completo e hai neofalantes que si. Só a propoño para que alguén que non se > sinta moi seguro da calidade do seu galego a poida escoller. Ao mellor > deberíamos neutralizar esa etiqueta e que a IA só teña que diferenciar os > pares de palabras onde é distintivo para o significado. > > Probablemente a solución virá de alimentar a intelixencia artificial con > corpus diferentes e complementarios, a base de adestramento masivo. > > > > > > > > > > > > O mér., 3 de mar. de 2021 ás 07:20, Adrian Chaves (<adr...@chaves.io>) > escribiu: > >> Cal sería a diferenza entre falar normativo e non falar normativo, a >> efectos prácticos? Porque imaxino que as frases para ler estarán todas >> escritas en galego normativo. >> >> O mellor que se me ocorre sería ofrecer á xente unha serie de preguntas >> para recomendarlles unha etiqueta ou outra. Preguntas como «como pronuncias >> a palabra X». Imaxino que haberá moita xente que non sexa consciente de que >> en galego temos máis vogais fonéticas que en castelán, quizais algunhas >> persoas que queiran participar primeiro deban ver >> https://www.youtube.com/watch?v=hErJRG-u0jY e intentar determinar se >> usan ou non as vogais ao falar. >> >> Mellor aínda sería que o sistema identificase automaticamente o tipo de >> falante mediante unha frase que soe distinto segundo cada un dos tipos, >> pero iso xa non creo que estea ao noso alcance. >> >> On 2021-03-03 00:28, Antón Méixome wrote: >> >> >> A túa dúbida é perfectamente lexítima. Ningunha etiqueta por si soa >> define un falante. Serían necesarias moitas. >> >> Ata certo punto temos que decidir con intuición aquí. A lingüística >> traballa xusto ao revés do que aquí se presenta: o normal é recoller "o que >> se fala" e despois tentar atopar a estrutura, os trazos que subxacen. >> >> Non podemos propoñer ao lector en galego que escolla bloque+área >> lingüística porque non abundan falantes puros, porque non teñen por que >> saber a que área lingüística pertence a súa fala. Nin aínda que lles >> poñamos por concellos sería correcto (o de nacencia, o de formación, o de >> onde fan a vida?). >> >> De feito, o corpus de frases e de gravacións resultante vai ser moi >> singular, pretende ser un mix de todo, con variantes de todo tipo. Xusto ao >> revés do que fan os corpus científicos. >> >> O relevante para o noso caso é que etiquetemos aquelas variantes que >> supoñan un impacto no recoñecemento de voz (a fonoloxía), porque o require >> o procesamento computacional dos rexistros: >> >> - falantes con seseos/ceceo: casa/caza, luz, cen/sen >> - falantes con gheada/gueada: aghachar/agachar, domingo/domingho >> - falantes con vocalismo completo sen outros trazos >> - falantes con vocalismo castelanizado ou estraño ao galego (e sen outros >> trazos) >> >> Salvo a última, que teño dúbidas, creo que son etiquetas que calquera >> galego sabe identificar na súa fala (non se presentaría o que vai entre >> paréntese). >> >> Acento de costa atlántica (teño seseo + gheada+ vocalismo completo) >> Acento de galego central (teño gheada+ vocalismo completo) >> Acento de galego oriental (non gheada, non seseo, pero non falo normativo) >> Acento normativo (galego, sete vogais, pero falo como aprendín na escola >> - xa pode ser en todos os menores de 55 anos, ollo) >> Acento neofalante (vocalismo castelán, cinco vogais, sen outros trazos >> dialectais - aínda que poida ser un latinoamericano con seseo, do castelán) >> >> Quizais se poidan propoñer etiquetas máis directas: >> >> - Falo con seseo e gheada >> - Falo con gheada >> - Falo galego común da Galicia oriental >> - Falo galego normativo >> - Falo como neofalante >> >> >> Moitas variantes do galego como as morfolóxicas, que son moi importantes >> para a gramática e a ortografía (dos verbos en cantín en vez de cantei, dos >> pronomes te/che, dos plurais en camiós ou irmás en vez de camións ou >> irmáns) non son importantes salvo para o proceso contrario, para producir >> voz sintetizada. Que galego vai empregar un asistente de voz? >> >> E aínda máis importante: como se van procesar os castelanismos constantes >> que unha intelixencia artificial vai atopar na interacción cos falantes? >> Suponse que a comprensión mellorará, irá aprendendo... >> >> Por idade, e demografía eu espero unhas porcentaxes de participación >> deste estilo: >> >> seseo+gheada = 20% >> gheada= 30 % >> oriental = 5% >> normativo = 40% >> neofalante= 5% >> >> por idades participantes: >> < 19 = 5 % >> 19-39 = 30 % >> 40-50 = 30% >> 50-60 = 10% >> 60-70 = 10% >> +70 = 15 % >> >> En fin, xa é moito conxeturar. >> >> Ah, e queda definir o xénero: que etiquetas? Porque hai xente que non >> quererá indicalo, ou non se atopa definido >> >> home/muller/outro? >> >> Opinade máis, por favor. Isto hai que poñelo antes de que nos abran as >> gravacións ao público >> >> >> >> >> >> >> >> >> >> >> >> >> >> >> >> >> >> >> O mar., 2 de mar. de 2021 ás 21:31, Adrian Chaves (<adr...@chaves.io>) >> escribiu: >> >> Eu non tería claro se identificarme como oriental (por non usar seseo nin >> gheada a pesar de ser de Vigo), normativo (porque o galego aprendino >> principalmente na escola) ou neofalante (por vivir anos fóra de Galicia, a >> nivel fonético igual teño máis parecido con ese perfil). >> >> Cales serían as diferencias entre esas 3 variantes, en que se >> diferenciarían os falantes dunha delas das outras dúas, en termos que poida >> entender unha persoa sen coñecementos significativos de lingüística? >> >> On 2021-03-01 13:40, Antón Méixome wrote: >> >> Hai que decidir que acentos se recoñecen nas gravacións. Quen o >> determina a etiqueta é o propio falante e a súa autoidentificación é >> estable porque vai asociada á conta de colaborador. As frases que vai >> ler tampouco poden ser escollidas por zonas nin sequera por tipos de >> rexistro lingüístico. >> >> Proposta: 5 etiquetas que o doador de voz pode escoller para as súas >> gravacións >> >> seseo+gheada >> Costa atlántica >> gheada >> Central >> non seseo + non gheada >> Oriental >> sen fonoloxía dialectal, estándar >>Normativo >> ... >>Neofalante >> >> Se queredes explícoa lingüisticamente pero trátase dun compromiso >> entre variación lingüística clásica do galego, necesidades de >> desambiguación para o modelo de lingua e que sexan comprensibles para >> a xente. Para nós a clave é o seseo, a gueada e o vocalismo. >> >> Nota: nos idiomas como o español, só distinguen por falas de cada país >> + Andalucía; en catalán, por Cataluña, Valencia e Baleares e logo polo >> catalán especial noroccidental e setentrional (en territorio de >> Francia, entendo) >> >> Antón >> >> - Lista de correo de Proxecto Trasno - Enviar correo a - >> proxecto@trasno.gal >> - Administrador - administra...@trasno.gal - de - Proxecto Trasno >> - Cancelar a subscrición no URL : >> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7435&h=357107e9d802c565e8e97060839b6481b6c26d48&sa=141262012 >> >> >> >> - Lista de correo de Proxecto Trasno - Enviar correo a - >> proxecto@trasno.gal >> - Correo do administrador - administra...@trasno.gal - de - Proxecto >> Trasno >> - Cancelar a subscrición no URL: >> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7444&h=fd6b22472bb80d04d7f5cbab14f3fcc9f59282f5&sa=570794983 >> >> >> - Lista de correo de Proxecto Trasno - Enviar correo a - >> proxecto@trasno.gal >> - Correo do administrador - administra...@trasno.gal - de - Proxecto >> Trasno >> - Cancelar a subscrición no URL: >> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7445&h=b1df74cc0dbce2dae27bbe4c9732afe513031b97&sa=360772072 >> >> >> >> - Lista de correo de Proxecto Trasno - Enviar correo a - >> proxecto@trasno.gal >> - Correo do administrador - administra...@trasno.gal - de - Proxecto >> Trasno >> - Cancelar a subscrición no URL: >> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7459&h=0f314331c0ffea4355b3504192c5e57f24a5e7e5&sa=1972497790 >> > - Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal - Administrador - administra...@trasno.gal - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7473&h=ab4c7014cc53df1fab06392898ee870095c52ec6&sa=739545127