@Antón. Sen problema. Podo crear a lista dos textos máis axeitados e
pasarcha (esta fin de semana), pensarei tamén nun sistema para que poidamos
facer este tema de forma ordenada.
Un saúdo,
Lucía


Le dim. 21 févr. 2021 à 20:50, Antón Méixome <cert...@certima.net> a
écrit :

> @Lucía, podes coordinar ti a extracción de frases do TILG?
>
> Depurando o que fixo Xabier.
> Pide os textos do TILG que che parezan. Eu transmítollo a Santamarina.
> Se che parece, súbeos ti xa directamente ao sistema de sentence-collect de
> Mozill
>
> Vai informando, porfa.
> Antón
>
>
>
>
> O xov., 18 de feb. de 2021 ás 21:27, Lu cía (<luciamor...@gmail.com>)
> escribiu:
>
>> Ola,
>>
>> Xabier, vaia traballo! Parabéns!
>>
>>
>> Se utilizamos o teu filtro, poderíamos centrarnos en escoller os textos
>> do TILG (ou CORGA se nos dan permiso) que sexan máis axeitados porque xa
>> vin algúns do TILG que conteñen tamén texto en castelán ou a temática non é
>> a máis acorde co que se busca no cv. E así perdermos menos tempo no
>> postprocesado das frases (imaxino manual polo menos para revisalas no
>> sentence collector) que pasen este primeiro filtro. Ou igual é mellor meter
>> todo e ver o que sae, non sei como o vedes.
>>
>> *>>>A partires de aquí podemos afinar aínda moito mais (eliminar as que
>> teñan números ou certas construcións e caracteres que non nos interesen,
>> hai que eliminar o ÷ que aparece en moitos sítios, etc...*
>>
>> Si, ao quitar o ÷ tamén habería que ver se lle podemos pasar un
>> corrector para amañar os problemas dos acentos. Por exemplo, casos como
>> "dixo÷lle.".
>>
>>
>>
>> Eu andaba buscando frases case unha por unha, (buscando verbos en
>> imperativo, 2a persoa, etc. co buscador do TILG,  e agora que xa tiña os
>> textos completos andaba buscando signos gráficos de diálogos), pero así
>> manualmente como facía eu non acabaríamos nunca :).
>>
>>
>>
>> Unha aperta,
>>
>>
>>
>> Lucía
>>
>>
>> Le jeu. 18 févr. 2021 à 19:42, Antón Méixome <cert...@certima.net> a
>> écrit :
>>
>>> Xenial, Xabier un traballo de trasnego enxebre
>>>
>>> Sobe os resultados, gustaríame saber o que opina Lucía que é quen está
>>> depurando esas fontes de textos.
>>> Se conseguimos automatizalo un chisco podemos pedir todo o Tilg
>>>
>>>
>>> Aproveito para comentar
>>> Hoxe pedín formalmente ao Centro Ramón Piñeiro acceso ao Corga
>>> Teñen un corpus de 40 millóns de formas que se nos permitisen filtrar ou
>>> mesmo acceder cunha API (creo que agora xa teñen nivel para pedir iso)
>>> sería unha gran solución porque recolle transcricións de series da TVG,
>>> xornais, etc.
>>>
>>>
>>>
>>>
>>>
>>> O xov., 18 de feb. de 2021 ás 18:58, Xabier Villar (<
>>> xabier.vil...@gmail.com>) escribiu:
>>>
>>>>
>>>> Boas a todos! Ando desaparecido do mapa, pero estouvos a vixiar :P
>>>>
>>>> Estiven enredando un chisco cos ficheiros estes, coa intención de
>>>> limpar un pouquiño, separar as frases e facer unha selección inicial
>>>> daquelas que cumpran algúns dos parámetros (por exemplo, 14 palabras ou
>>>> menos). Non controlo case nada das ferramentas que empreguei, pero
>>>> explícovos o que fixen por se algún de vos pode refinar o proceso ou mesmo
>>>> sacar unha ferramenta que nos permita preprocesar mais textos que poidan ir
>>>> aparecendo.
>>>>
>>>> En primeiro lugar asegureime de que os ficheiros estiveran formato UNIX
>>>> e UTF8, como fixo Antón coa orde dos2unix. Como son poucos tamén se pode
>>>> facer cun editor (Kate, que é o que eu emprego, faino bastante sinxelo).
>>>>
>>>> Logo, e tendo en conta que estes ficheiros teñen certas construcións
>>>> "estranas", paseille varios filtros con sed. É moi chafulleiro, e funo
>>>> sacando por proba e erro, e aínda así escapáronseme cousas, pero algo
>>>> axudou:
>>>> A orde que empreguei sería:
>>>> sed -r 's,\.\*([a-zA-Z]+)[.:;],\1 ,g' IGTRAP-iso.TXT|sed -r
>>>> 's,<\*([a-zA-Z,\ ,\*]+)>,\1,g'|sed -r 's/\|[0-9]+\|//'|sed 's/^\ *\.//' >
>>>> IGTRAP-iso-sed.TXT
>>>> O primeiro cambiaría .*NOME. por NOME, o segundo <*NOME> por NOME, o
>>>> terceiro eliminaría as etiquetas con números |##|, e o último amañaba
>>>> algunhas liñas que comezan por espazo e .
>>>> Aínda así escápanse cousas que seguramente se poderían amañar, e
>>>> seguramente estrague algunha frase polo medio, pero penso que paga a pena.
>>>>
>>>> Posteriormente, con python e a libraría nltk separei as frases unha por
>>>> cada liña, e finalmente tamñen con python, creei un ficheiro final coas
>>>> frases de 14 palabras ou menos.
>>>>
>>>> A partires de aquí podemos afinar aínda moito mais (eliminar as que
>>>> teñan números ou certas construcións e caracteres que non nos interesen,
>>>> hai que eliminar o ÷ que aparece en moitos sítios, etc...
>>>>
>>>> Co resultado penso que xa se pode traballar á man eliminando aquilo que
>>>> non cumpra uns requisitos mínimos.
>>>>
>>>> Con todo, penso que o importante aquí está en que probablemente tirando
>>>> de ferramentas como o NLTK https://www.nltk.org/ ou Freeling
>>>> http://nlp.lsi.upc.edu/freeling/node/1 se poida adiantar moito
>>>> traballo para tratar con orixes de texto masivas. Estou pensando
>>>> concretamente en quen teña algún blog, ou que chíe moito en twitter, que
>>>> podería baixar eses datos, filtralos, e traballar sobre esa base filtrada.
>>>> Nas mans dalgún dos que sabedes penso que pode dar moito de sí (eu soupen
>>>> de NLTK e Freeling onte pola noite, e de python copio mais de stackexchange
>>>> e similares que do que sei XD)
>>>>
>>>> Pégovos por aquí os ficheiros resultado e mais o par de ferramentas
>>>> (por chamarlle algo) que fixen. Sobre o ficheiro filtrado
>>>> (IGTRAP-iso-sed.TXT no pipe anterior) executaría:
>>>>
>>>> python3 nltk-sent.py IGTRAP-iso-sed.TXT IGTRAP-sentences.TXT
>>>> python3 14word-sent.py IGTRAP-sentences.TXT IGTRAP-14Wsentences.TXT
>>>>
>>>> Saúdos e graciñas polo traballo que estades a facer!
>>>>
>>>> PD: Insisto, non teño nin idea, así que non me deades moito na cabeza
>>>> pola chapuza :DDDD
>>>> ---------- Forwarded message ---------
>>>> De: Antón Méixome <cert...@certima.net>
>>>> Date: mié, 17 feb 2021 a las 13:04
>>>> Subject: Re: Fwd: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta
>>>> "Méixome" contigo.
>>>> To: Lista de correo de Proxecto Trasno <proxecto@trasno.gal>
>>>>
>>>>
>>>> Con esta orde
>>>>
>>>> dos2unix -v -f -iso -n PRICON.TXT pricon-iso.TXT
>>>>
>>>> Consigo un ficheiro creo que aceptable. Se alguén o sabe facer
>>>> mellor... agradécese
>>>>
>>>> (non sei como se verá en Windows o orixinal, claro)
>>>>
>>>>
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> O mér., 17 de feb. de 2021 ás 12:46, Antón Méixome (<
>>>> cert...@certima.net>) escribiu:
>>>>
>>>>> Santamarina advírteme do seguinte
>>>>>
>>>>> "Van algo manipulados porque os usei para facer unha base de datos
>>>>> lexicográfica e levan por exemplo demarcadores para nomes propios .
>>>>>
>>>>> Tamén separei os pronomes enclíticos do verbo, porque so dúas palabras.
>>>>>
>>>>> Ás veces inclúen textos en castelán ou noutros idiomas; van entre {}.
>>>>>
>>>>>
>>>>>
>>>>> Para textos dialogados se cadra che viña algo mellor algunha obra de
>>>>> teatro
>>>>>
>>>>>
>>>>>
>>>>> Pide os que queiras, non teño problema e facilitarchos."
>>>>>
>>>>>
>>>>> De feito, no meu equipo dime que están en "binario"
>>>>>
>>>>> Parece que non consigo arranxalos
>>>>>
>>>>>
>>>>>
>>>>> O mér., 17 de feb. de 2021 ás 11:45, Antón Méixome (<
>>>>> cert...@certima.net>) escribiu:
>>>>>
>>>>>>
>>>>>> A mensaxe anterior contén a bd co índice que obras do TILG. Con esta
>>>>>> accédese aos textos que está procesando manualmente Lucía.
>>>>>> A ver se puidésemos automatizar un pouco a extracción de frases.
>>>>>>
>>>>>>
>>>>>>
>>>>>> ---------- Forwarded message ---------
>>>>>> De: SANTAMARINA FERNANDEZ ANTONIO <anton.santamar...@usc.es>
>>>>>> Date: mér., 17 de feb. de 2021 ás 10:05
>>>>>> Subject: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta "Méixome"
>>>>>> contigo.
>>>>>> To: cert...@certima.net <cert...@certima.net>
>>>>>>
>>>>>>
>>>>>> SANTAMARINA FERNANDEZ ANTONIO compartió una carpeta contigo
>>>>>>
>>>>>> Aquí está la carpeta que SANTAMARINA FERNANDEZ ANTONIO compartió
>>>>>> contigo.
>>>>>> [image: icon] Méixome
>>>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9>
>>>>>>
>>>>>> [image: permission globe icon] Este vínculo funcionará para
>>>>>> cualquier persona.
>>>>>> Abrir
>>>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9>
>>>>>> [image: Microsoft logo] [image: Custom logo]
>>>>>> Declaración de privacidad
>>>>>> <https://westeuroper-notifyp.svc.ms:443/api/v2/tracking/method/Click?mi=fiB_RGJXt0K0Q_CNUipZmg&tc=PrivacyStatement&cs=f97d4ae4336b3342c9a937ee3f36e84e&ru=https%3a%2f%2fprivacy.microsoft.com%2fprivacystatement%5c>
>>>>>>
>>>>>
>>>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>>>> proxecto@trasno.gal
>>>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>>>>> Trasno
>>>>> - Cancelar a subscrición  no URL:
>>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7327&h=3afa62a1eb4964da21bdc93145d12cca3721cd76&sa=239831088
>>>>>
>>>>
>>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>>> proxecto@trasno.gal
>>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>>>> Trasno
>>>> - Cancelar a subscrición  no URL:
>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7328&h=e4cd54a3b24db90764dbdaa699b953bb94b4fb7f&sa=585566664
>>>>
>>>>
>>>> --
>>>>
>>>> Xabier Villar
>>>>
>>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>>> proxecto@trasno.gal
>>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>>>> Trasno
>>>> - Cancelar a subscrición  no URL:
>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7338&h=e3ae06e280fa03a2f22b124a77624632cfd845c7&sa=1832087367
>>>>
>>>
>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>> proxecto@trasno.gal
>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>>> Trasno
>>> - Cancelar a subscrición  no URL:
>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7341&h=d467096faf50da7027b190afd4d46418dafed60b&sa=1316051188
>>>
>>
>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>> proxecto@trasno.gal
>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>> Trasno
>> - Cancelar a subscrición  no URL:
>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7344&h=2228ed7539ff49c70c895ee58de7154601cd34eb&sa=545143267
>>
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> proxecto@trasno.gal
> - Correo do administrador - administra...@trasno.gal - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7372&h=5d0802b5542d330257ffdb0b6c1fc94e1b920172&sa=282170197
>

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7378&h=2ddf65b0a608ecfcadd0f9b9a5b6c0124bae7012&sa=139166789

Responderlle a