Ola,

Xabier, vaia traballo! Parabéns!


Se utilizamos o teu filtro, poderíamos centrarnos en escoller os textos do
TILG (ou CORGA se nos dan permiso) que sexan máis axeitados porque xa vin
algúns do TILG que conteñen tamén texto en castelán ou a temática non é a
máis acorde co que se busca no cv. E así perdermos menos tempo no
postprocesado das frases (imaxino manual polo menos para revisalas no
sentence collector) que pasen este primeiro filtro. Ou igual é mellor meter
todo e ver o que sae, non sei como o vedes.

*>>>A partires de aquí podemos afinar aínda moito mais (eliminar as que
teñan números ou certas construcións e caracteres que non nos interesen,
hai que eliminar o ÷ que aparece en moitos sítios, etc...*

Si, ao quitar o ÷ tamén habería que ver se lle podemos pasar un corrector
para amañar os problemas dos acentos. Por exemplo, casos como "dixo÷lle.".



Eu andaba buscando frases case unha por unha, (buscando verbos en
imperativo, 2a persoa, etc. co buscador do TILG,  e agora que xa tiña os
textos completos andaba buscando signos gráficos de diálogos), pero así
manualmente como facía eu non acabaríamos nunca :).



Unha aperta,



Lucía


Le jeu. 18 févr. 2021 à 19:42, Antón Méixome <cert...@certima.net> a écrit :

> Xenial, Xabier un traballo de trasnego enxebre
>
> Sobe os resultados, gustaríame saber o que opina Lucía que é quen está
> depurando esas fontes de textos.
> Se conseguimos automatizalo un chisco podemos pedir todo o Tilg
>
>
> Aproveito para comentar
> Hoxe pedín formalmente ao Centro Ramón Piñeiro acceso ao Corga
> Teñen un corpus de 40 millóns de formas que se nos permitisen filtrar ou
> mesmo acceder cunha API (creo que agora xa teñen nivel para pedir iso)
> sería unha gran solución porque recolle transcricións de series da TVG,
> xornais, etc.
>
>
>
>
>
> O xov., 18 de feb. de 2021 ás 18:58, Xabier Villar (<
> xabier.vil...@gmail.com>) escribiu:
>
>>
>> Boas a todos! Ando desaparecido do mapa, pero estouvos a vixiar :P
>>
>> Estiven enredando un chisco cos ficheiros estes, coa intención de limpar
>> un pouquiño, separar as frases e facer unha selección inicial daquelas que
>> cumpran algúns dos parámetros (por exemplo, 14 palabras ou menos). Non
>> controlo case nada das ferramentas que empreguei, pero explícovos o que
>> fixen por se algún de vos pode refinar o proceso ou mesmo sacar unha
>> ferramenta que nos permita preprocesar mais textos que poidan ir aparecendo.
>>
>> En primeiro lugar asegureime de que os ficheiros estiveran formato UNIX e
>> UTF8, como fixo Antón coa orde dos2unix. Como son poucos tamén se pode
>> facer cun editor (Kate, que é o que eu emprego, faino bastante sinxelo).
>>
>> Logo, e tendo en conta que estes ficheiros teñen certas construcións
>> "estranas", paseille varios filtros con sed. É moi chafulleiro, e funo
>> sacando por proba e erro, e aínda así escapáronseme cousas, pero algo
>> axudou:
>> A orde que empreguei sería:
>> sed -r 's,\.\*([a-zA-Z]+)[.:;],\1 ,g' IGTRAP-iso.TXT|sed -r
>> 's,<\*([a-zA-Z,\ ,\*]+)>,\1,g'|sed -r 's/\|[0-9]+\|//'|sed 's/^\ *\.//' >
>> IGTRAP-iso-sed.TXT
>> O primeiro cambiaría .*NOME. por NOME, o segundo <*NOME> por NOME, o
>> terceiro eliminaría as etiquetas con números |##|, e o último amañaba
>> algunhas liñas que comezan por espazo e .
>> Aínda así escápanse cousas que seguramente se poderían amañar, e
>> seguramente estrague algunha frase polo medio, pero penso que paga a pena.
>>
>> Posteriormente, con python e a libraría nltk separei as frases unha por
>> cada liña, e finalmente tamñen con python, creei un ficheiro final coas
>> frases de 14 palabras ou menos.
>>
>> A partires de aquí podemos afinar aínda moito mais (eliminar as que teñan
>> números ou certas construcións e caracteres que non nos interesen, hai que
>> eliminar o ÷ que aparece en moitos sítios, etc...
>>
>> Co resultado penso que xa se pode traballar á man eliminando aquilo que
>> non cumpra uns requisitos mínimos.
>>
>> Con todo, penso que o importante aquí está en que probablemente tirando
>> de ferramentas como o NLTK https://www.nltk.org/ ou Freeling
>> http://nlp.lsi.upc.edu/freeling/node/1 se poida adiantar moito traballo
>> para tratar con orixes de texto masivas. Estou pensando concretamente en
>> quen teña algún blog, ou que chíe moito en twitter, que podería baixar eses
>> datos, filtralos, e traballar sobre esa base filtrada. Nas mans dalgún dos
>> que sabedes penso que pode dar moito de sí (eu soupen de NLTK e Freeling
>> onte pola noite, e de python copio mais de stackexchange e similares que do
>> que sei XD)
>>
>> Pégovos por aquí os ficheiros resultado e mais o par de ferramentas (por
>> chamarlle algo) que fixen. Sobre o ficheiro filtrado (IGTRAP-iso-sed.TXT no
>> pipe anterior) executaría:
>>
>> python3 nltk-sent.py IGTRAP-iso-sed.TXT IGTRAP-sentences.TXT
>> python3 14word-sent.py IGTRAP-sentences.TXT IGTRAP-14Wsentences.TXT
>>
>> Saúdos e graciñas polo traballo que estades a facer!
>>
>> PD: Insisto, non teño nin idea, así que non me deades moito na cabeza
>> pola chapuza :DDDD
>> ---------- Forwarded message ---------
>> De: Antón Méixome <cert...@certima.net>
>> Date: mié, 17 feb 2021 a las 13:04
>> Subject: Re: Fwd: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta
>> "Méixome" contigo.
>> To: Lista de correo de Proxecto Trasno <proxecto@trasno.gal>
>>
>>
>> Con esta orde
>>
>> dos2unix -v -f -iso -n PRICON.TXT pricon-iso.TXT
>>
>> Consigo un ficheiro creo que aceptable. Se alguén o sabe facer mellor...
>> agradécese
>>
>> (non sei como se verá en Windows o orixinal, claro)
>>
>>
>>
>>
>>
>>
>>
>> O mér., 17 de feb. de 2021 ás 12:46, Antón Méixome (<cert...@certima.net>)
>> escribiu:
>>
>>> Santamarina advírteme do seguinte
>>>
>>> "Van algo manipulados porque os usei para facer unha base de datos
>>> lexicográfica e levan por exemplo demarcadores para nomes propios .
>>>
>>> Tamén separei os pronomes enclíticos do verbo, porque so dúas palabras.
>>>
>>> Ás veces inclúen textos en castelán ou noutros idiomas; van entre {}.
>>>
>>>
>>>
>>> Para textos dialogados se cadra che viña algo mellor algunha obra de
>>> teatro
>>>
>>>
>>>
>>> Pide os que queiras, non teño problema e facilitarchos."
>>>
>>>
>>> De feito, no meu equipo dime que están en "binario"
>>>
>>> Parece que non consigo arranxalos
>>>
>>>
>>>
>>> O mér., 17 de feb. de 2021 ás 11:45, Antón Méixome (<cert...@certima.net>)
>>> escribiu:
>>>
>>>>
>>>> A mensaxe anterior contén a bd co índice que obras do TILG. Con esta
>>>> accédese aos textos que está procesando manualmente Lucía.
>>>> A ver se puidésemos automatizar un pouco a extracción de frases.
>>>>
>>>>
>>>>
>>>> ---------- Forwarded message ---------
>>>> De: SANTAMARINA FERNANDEZ ANTONIO <anton.santamar...@usc.es>
>>>> Date: mér., 17 de feb. de 2021 ás 10:05
>>>> Subject: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta "Méixome"
>>>> contigo.
>>>> To: cert...@certima.net <cert...@certima.net>
>>>>
>>>>
>>>> SANTAMARINA FERNANDEZ ANTONIO compartió una carpeta contigo
>>>>
>>>> Aquí está la carpeta que SANTAMARINA FERNANDEZ ANTONIO compartió
>>>> contigo.
>>>> [image: icon] Méixome
>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9>
>>>>
>>>> [image: permission globe icon] Este vínculo funcionará para cualquier
>>>> persona.
>>>> Abrir
>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9>
>>>> [image: Microsoft logo] [image: Custom logo]
>>>> Declaración de privacidad
>>>> <https://westeuroper-notifyp.svc.ms:443/api/v2/tracking/method/Click?mi=fiB_RGJXt0K0Q_CNUipZmg&tc=PrivacyStatement&cs=f97d4ae4336b3342c9a937ee3f36e84e&ru=https%3a%2f%2fprivacy.microsoft.com%2fprivacystatement%5c>
>>>>
>>>
>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>> proxecto@trasno.gal
>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>>> Trasno
>>> - Cancelar a subscrición  no URL:
>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7327&h=3afa62a1eb4964da21bdc93145d12cca3721cd76&sa=239831088
>>>
>>
>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>> proxecto@trasno.gal
>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>> Trasno
>> - Cancelar a subscrición  no URL:
>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7328&h=e4cd54a3b24db90764dbdaa699b953bb94b4fb7f&sa=585566664
>>
>>
>> --
>>
>> Xabier Villar
>>
>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>> proxecto@trasno.gal
>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>> Trasno
>> - Cancelar a subscrición  no URL:
>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7338&h=e3ae06e280fa03a2f22b124a77624632cfd845c7&sa=1832087367
>>
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> proxecto@trasno.gal
> - Correo do administrador - administra...@trasno.gal - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7341&h=d467096faf50da7027b190afd4d46418dafed60b&sa=1316051188
>

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7344&h=26e41b37043edf6b194c4688d4ca9e6afbde4cb3&sa=1406136842

Responderlle a