Pasada unha semana, creo que debemos pechar o fío co que temos falado.

A decisión e a ligazón á petición a Mozilla está aquí.
https://foro.trasno.gal/t/decision-sobre-catalogacion-de-acentos/68

O mér., 3 de mar. de 2021 ás 09:11, Antón Méixome (<cert...@certima.net>)
escribiu:

> A diferenza é relevante por exactamente o que di o vídeo de Esther.
> Temos pares de palabras que se distinguen precisamente polas vogais; que
> se transcriben diferente e que son moi frecuentes: Ves? Vés?, Este e
> aquel/Este é aquel
>
> As frases non están todas en galego normativo. Estano ortograficamente e
> en vocabulario pero temos variacións morfolóxicas e gramaticais. Por
> exemplo con cheismo, aínda que sexan minoritarias.
> Salvo as gheadas (que hai varias), o seseo (que hai varios) e os pares de
> palabras con vocalismo distintivo, o resto das variacións de pronuncia non
> teñen transcendencia na interpretación escrita. Por exemplo, parte de
> Galicia pronuncia: A nova bola (pechado) e outra parte "A n0va b0la"
> (abertas) ; outros pronuncian con «rotacismo»: Caíu varia-r veces; pero
> outros utilizan demostrativos e pronomes non normativos: Fálalle tu, Iste
> gústame máis. Outros utilizan cuatro e non catro... son distintos casos, e
> se nunha primeira fase non é capaz de casar ti/tu ou catro/cuatro non é
> realmente ningún problema.
>
> Este tipo de variacións ímolas atopar en todos os idiomas e non se
> recollen neste momento para o modelo de lingua, que aínda así sería fiable
> nun 90%. Quero imaxinar que en canto se poña a funcionar a intelixencia
> artificial sobre un idioma específico, se lle poderá seguir proporcionando
> materia prima, como enchufalo a un programa de televisión, a unha gravación
> de falantes, e que vaia aprendendo a interpretar falas diversas contando
> con corrección por parte humana. Imaxínate as variacións fonéticas que pode
> ter o francés, o inglés,... aínda que lle recollas gravacións con
> etiquetas, ao final vai todo para o mesmo dataset.
>
> Naturalmente isto leva á primacía do modelo estándar de lingua tanto para
> interactuar co robot como para producir galego sintético. Non hai outra.
>
> O máximo que podemos facer é deseñar unha folla de instrucións para
> doadores de voz e difundila: dicirlles que lean exactamente o que pon a
> pantalla e que utilicen a súa maneira de pronunciar.
> Unha solución parcial sería organizar maratóns de doazóns en zonas/grupos
> concretos e homoxéneos, monitorizados por alguén que mobilice falantes e os
> instrúa sobre estes detalles. Polo menos será divertido e interesante para
> os participantes.
>
> Tamén o perfeccionamento da etiquetaxe podería facerse no proceso de
> validación de fragmentos de son pero non podemos controlar/adestrar a todos
> os que validen. É dicir se alguén que di que fala galego normativo pero
> logo ten cinco vogais, podelo cambiar de etiqueta as súas gravacións.
> Podería propoñerse a Mozilla.
> Aí é onde está a miña dúbida, porque a etiqueta neofalante non é realmente
> específica: hai galegofalantes habituais que xa non teñen vocalismo
> completo e hai neofalantes que si. Só a propoño para que alguén que non se
> sinta moi seguro da calidade do seu galego a poida escoller.  Ao mellor
> deberíamos neutralizar esa etiqueta e que a IA só teña que diferenciar os
> pares de palabras onde é distintivo para o significado.
>
> Probablemente a solución virá de alimentar a intelixencia artificial con
> corpus diferentes e complementarios, a base de adestramento masivo.
>
>
>
>
>
>
>
>
>
>
>
> O mér., 3 de mar. de 2021 ás 07:20, Adrian Chaves (<adr...@chaves.io>)
> escribiu:
>
>> Cal sería a diferenza entre falar normativo e non falar normativo, a
>> efectos prácticos? Porque imaxino que as frases para ler estarán todas
>> escritas en galego normativo.
>>
>> O mellor que se me ocorre sería ofrecer á xente unha serie de preguntas
>> para recomendarlles unha etiqueta ou outra. Preguntas como «como pronuncias
>> a palabra X». Imaxino que haberá moita xente que non sexa consciente de que
>> en galego temos máis vogais fonéticas que en castelán, quizais algunhas
>> persoas que queiran participar primeiro deban ver
>> https://www.youtube.com/watch?v=hErJRG-u0jY e intentar determinar se
>> usan ou non as vogais ao falar.
>>
>> Mellor aínda sería que o sistema identificase automaticamente o tipo de
>> falante mediante unha frase que soe distinto segundo cada un dos tipos,
>> pero iso xa non creo que estea ao noso alcance.
>>
>> On 2021-03-03 00:28, Antón Méixome wrote:
>>
>>
>> A túa dúbida é perfectamente lexítima. Ningunha etiqueta por si soa
>> define un falante. Serían necesarias moitas.
>>
>> Ata certo punto temos que decidir con intuición aquí. A lingüística
>> traballa xusto ao revés do que aquí se presenta: o normal é recoller "o que
>> se fala" e despois tentar atopar a estrutura, os trazos que subxacen.
>>
>> Non podemos propoñer ao lector en galego que escolla bloque+área
>> lingüística porque non abundan falantes puros, porque non teñen por que
>> saber a que área lingüística pertence a súa fala. Nin aínda que lles
>> poñamos por concellos sería correcto (o de nacencia, o de formación, o de
>> onde fan a vida?).
>>
>> De feito, o corpus de frases e de gravacións resultante vai ser moi
>> singular, pretende ser un mix de todo, con variantes de todo tipo. Xusto ao
>> revés do que fan os corpus científicos.
>>
>> O relevante para o noso caso é que etiquetemos aquelas variantes que
>> supoñan un impacto no recoñecemento de voz (a fonoloxía), porque o require
>> o procesamento computacional dos rexistros:
>>
>> - falantes con seseos/ceceo: casa/caza, luz, cen/sen
>> - falantes con gheada/gueada: aghachar/agachar, domingo/domingho
>> - falantes con vocalismo completo sen outros trazos
>> - falantes con vocalismo castelanizado ou estraño ao galego (e sen outros
>> trazos)
>>
>> Salvo a última, que teño dúbidas, creo que son etiquetas que calquera
>> galego sabe identificar na súa fala (non se presentaría o que vai entre
>> paréntese).
>>
>> Acento de costa atlántica (teño seseo + gheada+ vocalismo completo)
>> Acento de galego central (teño gheada+ vocalismo completo)
>> Acento de galego oriental (non gheada, non seseo, pero non falo normativo)
>> Acento normativo (galego, sete vogais,  pero falo como aprendín na escola
>> - xa pode ser en todos os menores de 55 anos, ollo)
>> Acento neofalante (vocalismo castelán, cinco vogais, sen outros trazos
>> dialectais - aínda que poida ser un latinoamericano con seseo, do castelán)
>>
>> Quizais se poidan propoñer etiquetas máis directas:
>>
>> - Falo con seseo e gheada
>> - Falo con gheada
>> - Falo galego común da Galicia oriental
>> - Falo galego normativo
>> - Falo como neofalante
>>
>>
>> Moitas variantes do galego como as morfolóxicas, que son moi importantes
>> para a gramática e a ortografía (dos verbos en cantín en vez de cantei, dos
>> pronomes te/che, dos plurais en camiós ou irmás en vez de camións ou
>> irmáns) non son importantes salvo para o proceso contrario, para producir
>> voz sintetizada. Que galego vai empregar un asistente de voz?
>>
>> E aínda máis importante: como se van procesar os castelanismos constantes
>> que unha intelixencia artificial vai atopar na interacción cos falantes?
>> Suponse que a comprensión mellorará, irá aprendendo...
>>
>> Por idade, e demografía eu espero unhas porcentaxes de participación
>> deste estilo:
>>
>> seseo+gheada = 20%
>> gheada= 30 %
>> oriental = 5%
>> normativo = 40%
>> neofalante= 5%
>>
>> por idades participantes:
>> < 19 = 5 %
>> 19-39 = 30 %
>> 40-50 = 30%
>> 50-60 = 10%
>> 60-70 = 10%
>> +70 = 15 %
>>
>> En fin, xa é moito conxeturar.
>>
>> Ah, e queda definir o xénero: que etiquetas? Porque hai xente que non
>> quererá indicalo, ou non se atopa definido
>>
>> home/muller/outro?
>>
>> Opinade máis, por favor. Isto hai que poñelo antes de que nos abran as
>> gravacións ao público
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> O mar., 2 de mar. de 2021 ás 21:31, Adrian Chaves (<adr...@chaves.io>)
>> escribiu:
>>
>> Eu non tería claro se identificarme como oriental (por non usar seseo nin
>> gheada a pesar de ser de Vigo), normativo (porque o galego aprendino
>> principalmente na escola) ou neofalante (por vivir anos fóra de Galicia, a
>> nivel fonético igual teño máis parecido con ese perfil).
>>
>> Cales serían as diferencias entre esas 3 variantes, en que se
>> diferenciarían os falantes dunha delas das outras dúas, en termos que poida
>> entender unha persoa sen coñecementos significativos de lingüística?
>>
>> On 2021-03-01 13:40, Antón Méixome wrote:
>>
>> Hai que decidir que acentos se recoñecen nas gravacións. Quen o
>> determina a etiqueta é o propio falante e a súa autoidentificación é
>> estable porque vai asociada á conta de colaborador. As frases que vai
>> ler tampouco poden ser escollidas por zonas nin sequera por tipos de
>> rexistro lingüístico.
>>
>> Proposta: 5 etiquetas que o doador de voz pode escoller para as súas
>> gravacións
>>
>> seseo+gheada >>                          Costa atlántica
>> gheada >>                                      Central
>> non seseo + non gheada >>           Oriental
>> sen fonoloxía dialectal, estándar >>Normativo
>> ...                                                 >>Neofalante
>>
>> Se queredes explícoa lingüisticamente pero trátase dun compromiso
>> entre variación lingüística clásica do galego, necesidades de
>> desambiguación para o modelo de lingua e que sexan comprensibles para
>> a xente. Para nós a clave é o seseo, a gueada e o vocalismo.
>>
>> Nota: nos idiomas como o español, só distinguen por falas de cada país
>> + Andalucía; en catalán, por Cataluña, Valencia e Baleares e logo polo
>> catalán especial noroccidental e setentrional (en territorio de
>> Francia, entendo)
>>
>> Antón
>>
>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>> proxecto@trasno.gal
>> - Administrador - administra...@trasno.gal - de - Proxecto Trasno
>> - Cancelar a subscrición no URL :
>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7435&h=357107e9d802c565e8e97060839b6481b6c26d48&sa=141262012
>>
>>
>>
>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>> proxecto@trasno.gal
>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>> Trasno
>> - Cancelar a subscrición  no URL:
>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7444&h=fd6b22472bb80d04d7f5cbab14f3fcc9f59282f5&sa=570794983
>>
>>
>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>> proxecto@trasno.gal
>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>> Trasno
>> - Cancelar a subscrición  no URL:
>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7445&h=b1df74cc0dbce2dae27bbe4c9732afe513031b97&sa=360772072
>>
>>
>>
>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>> proxecto@trasno.gal
>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>> Trasno
>> - Cancelar a subscrición  no URL:
>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7459&h=0f314331c0ffea4355b3504192c5e57f24a5e7e5&sa=1972497790
>>
>

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7473&h=ab4c7014cc53df1fab06392898ee870095c52ec6&sa=739545127

Responderlle a