El lun, 1 mar 2021 a las 0:56, Antón Méixome (<cert...@certima.net>)
escribió:

> Fantástica a publicación do foro Xabier
>
> Podes "extraer" directamente esas frases? Habería que reelaboralas.
> Tal como están serán rexeitadas aínda que non teñan erros
> ortográficos. Son mal galego.
>

Non sei se entendo o que me preguntas, paréceme que falta contexto...
refíreste ás frases que empezan por "me", "che", "te"... estilo feijoniano?
Se é iso, penso que é bastante sinxelo filtrar as mais flagrantes. Pódense
desbotar ou separalas para editalas manualmente de xeito mais cómodo, e
despois volvelas integrar co resto. Se vemos que paga a pena o esforzo
mesmo podemos tentar separar por unha banda as que estean claramente mal
(as que empezan con eles) para editar ou desbotar, e as que poidan ser
sospeitosas (no medio da frase) para revisar e darlle o visto bo ou amañar.


> As frases que son iguais pero teñen distinta entoación son válidas (o
> modelo de lingua ten que recoñecer cando se pregunta, cando se ordena,
> cando se afirma para transcribir ben o que se lle diga á intelixencia
> artificial). A entoación e prosodia teñen que estar nas frases para
> que os doadores de voz graven eses trazos.
>

Entón mantéñoas como diferentes. Aínda así teño que buscar a maneira de que
me considere repetición frases como
a fiestra está aberta.
A fiestra está aberta.
A fiestra está aberta
porque polo momento 'uniq' enténdeas como diferentes, e desas cólanse
moitas.


>
> O das palabras malsoantes...
> Eu rexeitaría frases escatolóxicas pero non frases con insultos. É
> léxico, é entoación, é expresión.
> O problema é que iso se lle vai mostrar a alguén na pantalla para que
> o lea. No caso galego non é demasiado grave pero noutras culturas este
> é un problema que está sobre a mesa de Mozilla. Por exemplo, os
> hebreos non se ven dicindo frases de contido erótico en voz alta
> (Nena, que boa estas!). En países musulmáns parécelles fortísimo dicir
> "Esa muller vale por vinte homes"...
>
> A lóxica indica que o doador de voz pode/debe evitar gravar aquelas
> frases que lle resulten inapropiadas; por iso as frases se presentan
> na pantalla e podes saltar á seguinte, simplemente.
>
> Poñamos que alguén sobe unha frase que diga algo profundamente
> insultante:  "A nai que te pariu non paga a corda coa que había que
> aforcarte!"
> Será correctísima pero eu evitaría metela no corpus. Non engade nada
> de léxico, nin de expresión que sexa útil. É agresiva para o validador
> de frases, para o doador de voz e para o validador de gravacións.
>
> Polo contrario recoller cousas como "Comportácheste coma un mamalón",
> "Vaia pailán que se che achegou", "Máis parvo e non naces!" ... serán
> molestas para algúns pero creo que forman parte dunha expresión
> incluso non agresiva, que se pode ata dicir con cariño.
>
> É o meu criterio, naturalmente.
>
>
Concordo co criterio, pero salvo que se nos ocorra algunha palabra que
claramente non deba estar, é unha labor que non vexo fácil automatizar.


> Sobre as palabras que non rematan frases, teñen toda a pinta de ser
> frases cortadas, non? ou se reformulan ou hai que desbotalas. Non sei
> se sería moi produtivo facer un filtro con preposicións, pronomes
> soltos e así...
>
>
Sí, é xusto iso, fallos no tokenizador que divide o texto en frases. A miña
idea agora mesmo é tentar separalas para facilitar a súa revisión e así non
perdelas todas. O mais directo sería desbotalas directamente, pero tratarei
de evitalo.



> Antón
>
>
>
> O dom., 28 de feb. de 2021 ás 19:11, Xabier Villar
> (<xabier.vil...@gmail.com>) escribiu:
> >
> > Sigo avanzando e tentando mellorar un chisco. Desta vez metinme con
> series, e decidín agrupar por anos e dun/dunha contribuínte que parece ter
> boa calidade nos textos (pippilangstrum). Escollín os subidos en 2017:
> >
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x02 - 084 (x264-LOL).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x03 - O recurso (x264-LOL).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x04 - Ollo espía (x264-LOL).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x05 - A rapaza do vestido de flores
> (x264-2HD).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x06 - F.Z.Z.T. (x264-2HD).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x07 - O Centro (x264-LOL).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x08 - O pozo (x264 LOL).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x09 - Reparacións (x264 LOL).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x10 - A ponte (x264 2HD).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x12 - Sementes (x264 2HD).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x13 - V.I.A.S. (x264
> KILLERS).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x14 - T.A.H.I.T.I. (.x264
> EXCELLENCE).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x15 - Si, homes (x264
> EXCELLENCE).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x16 - A fin do comezo (x264
> 2HD).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x17 - Pechar o círculo
> (PROPER-2HD).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x18 - Providencia
> (REMARKABLE).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x19 - A única luz na escuridade
> (x264-EXCELLENCE).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x20 - Non foi persoal
> (x264-2HD).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x21 - Esfarrapado (x264-2HD).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 01x22 - O comezo da fin
> (x264-KILLERS).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 02x01 - Sombras (KILLERS).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 02x02 - Pesada é a cabeza
> (KILLERS).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 02x03 - Facer amigos e influenciar á
> xente (x264-LOL).GLG.srt'
> > 'Marvel Axentes de S.H.I.E.L.D. - 02x04 - Cara a cara co meu inimigo
> (KILLERS).GLG.srt'
> > 'Marvel Axentes of S.H.I.E.L.D. - 01x11 - O lugar máxico
> (REPACK-KILLERS).GLG.srt'
> >
> > Pasei de unhas 18000 frases a case 11000.
> > Penso que mellorou un chisco na detección de erros, pero calquera cousa
> que atopedes agradécese que a comentedes. Hai unha serie de cousas que polo
> momento non lle metín man, por exemplo:
> >
> > Eliminar as frases que comecen por pronome persoal átono: Che, te, lle...
> > Que fago con cousas como?
> >
> > Fuches ti!
> >
> > Fuches ti.
> > Fuches ti?
> >
> > Palabras malsoantes?
> > Buscar palabras que xeralmente non rematan unha frase:
> >
> > de, te, se,...
> >
> > Así que desas igual hai unhas cantas
> >
> > Tamén aproveitei a documentar o proceso que sigo e recoller as
> ferramentas que vou usando no foro:
> >
> https://foro.trasno.gal/t/extraendo-frases-para-common-voice-de-subtitulos-e-ferramentas-que-emprego/57
> >
> > un saúdo!
> >
> > El mié, 24 feb 2021 a las 23:02, Xabier Villar (<xabier.vil...@gmail.com>)
> escribió:
> >>
> >> Extraídas as frases dos seguintes subtítulos de filmes:
> >>
> >> A_árbore_da_vida.srt
> >> 'Ant-Man e A Avéspora (2018) (1080p BluRay x264-YIFY).GLG.srt'
> >> Babel.2006.srt
> >> 'Capitá Marvel (2019) (720p HDCAM x264-1XBET).GLG.srt'
> >> dascabinet.srt
> >> 'Flores rotas (Broken flowers).subtitulos.galego.by.Brais.Jim
> Jarmusch.2005.Comedia.106´.srt'
> >> 'INDOXXI.ONLINE-[The-Fate of the Furious-SD.360p].srt'
> >> 'Life of Brian.Terry Jones.1979.srt'
> >> 'Os Vingadores (2012) (1080p BluRay x264 YIFY).GLG.srt'
> >> 'Pa Negre.Agustí Villaronga.2010.srt'
> >> Santoalla.2016.galego.JDDL.srt
> >> 'Spider-Man. Festa de benvida (2017).GLG.srt'
> >> 'Spider-Man. Lonxe da casa (2019) (720p HQ HDCAM).srt'
> >> 'The Shining (1980) CD1 GALEGO.srt'
> >> 'The Shining (1980) CD2 GALEGO.srt'
> >> 'Vingadores. A fin do xogo (2019) (HDTC SPECIAL 1337X).GLG.srt'
> >> 'Vingadores. A Guerra do Infinito (1080p BluRay x264) (2018).GLG.srt'
> >>
> >> Continuarei cos dalgunhas series e nos próximos días tentarei
> documentar o proceso no foro para ter de referencia
> >>
> >> Un saúdo!
> >> --
> >>
> >> Xabier Villar
> >
> >
> >
> > --
> >
> > Xabier Villar
> >
> > - Lista de correo de Proxecto Trasno - Enviar correo a -
> proxecto@trasno.gal
> > - Correo do administrador - administra...@trasno.gal - de - Proxecto
> Trasno
> > - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7416&h=2da2c1c76e0db927b832ddf0fc745c7ef74d5b45&sa=1659367658
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> proxecto@trasno.gal
> - Administrador - administra...@trasno.gal - de - Proxecto Trasno
> - Cancelar a subscrición no URL :
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7418&h=b2e40f3649072dd6c1a3c80ee1907343f8b311b7&sa=420490519
>
>

-- 

Xabier Villar

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7434&h=a8e39af7e1dd8e40ce674bf78736e4fbded3e8bd&sa=1919484151

Responderlle a