Fantástica a publicación do foro Xabier

Podes "extraer" directamente esas frases? Habería que reelaboralas.
Tal como están serán rexeitadas aínda que non teñan erros
ortográficos. Son mal galego.

As frases que son iguais pero teñen distinta entoación son válidas (o
modelo de lingua ten que recoñecer cando se pregunta, cando se ordena,
cando se afirma para transcribir ben o que se lle diga á intelixencia
artificial). A entoación e prosodia teñen que estar nas frases para
que os doadores de voz graven eses trazos.

O das palabras malsoantes...
Eu rexeitaría frases escatolóxicas pero non frases con insultos. É
léxico, é entoación, é expresión.
O problema é que iso se lle vai mostrar a alguén na pantalla para que
o lea. No caso galego non é demasiado grave pero noutras culturas este
é un problema que está sobre a mesa de Mozilla. Por exemplo, os
hebreos non se ven dicindo frases de contido erótico en voz alta
(Nena, que boa estas!). En países musulmáns parécelles fortísimo dicir
"Esa muller vale por vinte homes"...

A lóxica indica que o doador de voz pode/debe evitar gravar aquelas
frases que lle resulten inapropiadas; por iso as frases se presentan
na pantalla e podes saltar á seguinte, simplemente.

Poñamos que alguén sobe unha frase que diga algo profundamente
insultante:  "A nai que te pariu non paga a corda coa que había que
aforcarte!"
Será correctísima pero eu evitaría metela no corpus. Non engade nada
de léxico, nin de expresión que sexa útil. É agresiva para o validador
de frases, para o doador de voz e para o validador de gravacións.

Polo contrario recoller cousas como "Comportácheste coma un mamalón",
"Vaia pailán que se che achegou", "Máis parvo e non naces!" ... serán
molestas para algúns pero creo que forman parte dunha expresión
incluso non agresiva, que se pode ata dicir con cariño.

É o meu criterio, naturalmente.

Sobre as palabras que non rematan frases, teñen toda a pinta de ser
frases cortadas, non? ou se reformulan ou hai que desbotalas. Non sei
se sería moi produtivo facer un filtro con preposicións, pronomes
soltos e así...

Antón



O dom., 28 de feb. de 2021 ás 19:11, Xabier Villar
(<xabier.vil...@gmail.com>) escribiu:
>
> Sigo avanzando e tentando mellorar un chisco. Desta vez metinme con series, e 
> decidín agrupar por anos e dun/dunha contribuínte que parece ter boa calidade 
> nos textos (pippilangstrum). Escollín os subidos en 2017:
>
> 'Marvel Axentes de S.H.I.E.L.D. - 01x02 - 084 (x264-LOL).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x03 - O recurso (x264-LOL).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x04 - Ollo espía (x264-LOL).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x05 - A rapaza do vestido de flores 
> (x264-2HD).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x06 - F.Z.Z.T. (x264-2HD).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x07 - O Centro (x264-LOL).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x08 - O pozo (x264 LOL).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x09 - Reparacións (x264 LOL).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x10 - A ponte (x264 2HD).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x12 - Sementes (x264 2HD).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x13 - V.I.A.S. (x264 KILLERS).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x14 - T.A.H.I.T.I. (.x264 
> EXCELLENCE).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x15 - Si, homes (x264 EXCELLENCE).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x16 - A fin do comezo (x264 2HD).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x17 - Pechar o círculo 
> (PROPER-2HD).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x18 - Providencia (REMARKABLE).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x19 - A única luz na escuridade 
> (x264-EXCELLENCE).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x20 - Non foi persoal (x264-2HD).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x21 - Esfarrapado (x264-2HD).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 01x22 - O comezo da fin 
> (x264-KILLERS).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 02x01 - Sombras (KILLERS).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 02x02 - Pesada é a cabeza (KILLERS).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 02x03 - Facer amigos e influenciar á xente 
> (x264-LOL).GLG.srt'
> 'Marvel Axentes de S.H.I.E.L.D. - 02x04 - Cara a cara co meu inimigo 
> (KILLERS).GLG.srt'
> 'Marvel Axentes of S.H.I.E.L.D. - 01x11 - O lugar máxico 
> (REPACK-KILLERS).GLG.srt'
>
> Pasei de unhas 18000 frases a case 11000.
> Penso que mellorou un chisco na detección de erros, pero calquera cousa que 
> atopedes agradécese que a comentedes. Hai unha serie de cousas que polo 
> momento non lle metín man, por exemplo:
>
> Eliminar as frases que comecen por pronome persoal átono: Che, te, lle...
> Que fago con cousas como?
>
> Fuches ti!
>
> Fuches ti.
> Fuches ti?
>
> Palabras malsoantes?
> Buscar palabras que xeralmente non rematan unha frase:
>
> de, te, se,...
>
> Así que desas igual hai unhas cantas
>
> Tamén aproveitei a documentar o proceso que sigo e recoller as ferramentas 
> que vou usando no foro:
> https://foro.trasno.gal/t/extraendo-frases-para-common-voice-de-subtitulos-e-ferramentas-que-emprego/57
>
> un saúdo!
>
> El mié, 24 feb 2021 a las 23:02, Xabier Villar (<xabier.vil...@gmail.com>) 
> escribió:
>>
>> Extraídas as frases dos seguintes subtítulos de filmes:
>>
>> A_árbore_da_vida.srt
>> 'Ant-Man e A Avéspora (2018) (1080p BluRay x264-YIFY).GLG.srt'
>> Babel.2006.srt
>> 'Capitá Marvel (2019) (720p HDCAM x264-1XBET).GLG.srt'
>> dascabinet.srt
>> 'Flores rotas (Broken flowers).subtitulos.galego.by.Brais.Jim 
>> Jarmusch.2005.Comedia.106´.srt'
>> 'INDOXXI.ONLINE-[The-Fate of the Furious-SD.360p].srt'
>> 'Life of Brian.Terry Jones.1979.srt'
>> 'Os Vingadores (2012) (1080p BluRay x264 YIFY).GLG.srt'
>> 'Pa Negre.Agustí Villaronga.2010.srt'
>> Santoalla.2016.galego.JDDL.srt
>> 'Spider-Man. Festa de benvida (2017).GLG.srt'
>> 'Spider-Man. Lonxe da casa (2019) (720p HQ HDCAM).srt'
>> 'The Shining (1980) CD1 GALEGO.srt'
>> 'The Shining (1980) CD2 GALEGO.srt'
>> 'Vingadores. A fin do xogo (2019) (HDTC SPECIAL 1337X).GLG.srt'
>> 'Vingadores. A Guerra do Infinito (1080p BluRay x264) (2018).GLG.srt'
>>
>> Continuarei cos dalgunhas series e nos próximos días tentarei documentar o 
>> proceso no foro para ter de referencia
>>
>> Un saúdo!
>> --
>>
>> Xabier Villar
>
>
>
> --
>
> Xabier Villar
>
> - Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
> - Correo do administrador - administra...@trasno.gal - de - Proxecto Trasno
> - Cancelar a subscrición  no URL: 
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7416&h=2da2c1c76e0db927b832ddf0fc745c7ef74d5b45&sa=1659367658

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7418&h=b2e40f3649072dd6c1a3c80ee1907343f8b311b7&sa=420490519

Reply via email to