@Lucía, podes coordinar ti a extracción de frases do TILG?

Depurando o que fixo Xabier.
Pide os textos do TILG que che parezan. Eu transmítollo a Santamarina.
Se che parece, súbeos ti xa directamente ao sistema de sentence-collect de
Mozill

Vai informando, porfa.
Antón




O xov., 18 de feb. de 2021 ás 21:27, Lu cía (<luciamor...@gmail.com>)
escribiu:

> Ola,
>
> Xabier, vaia traballo! Parabéns!
>
>
> Se utilizamos o teu filtro, poderíamos centrarnos en escoller os textos do
> TILG (ou CORGA se nos dan permiso) que sexan máis axeitados porque xa vin
> algúns do TILG que conteñen tamén texto en castelán ou a temática non é a
> máis acorde co que se busca no cv. E así perdermos menos tempo no
> postprocesado das frases (imaxino manual polo menos para revisalas no
> sentence collector) que pasen este primeiro filtro. Ou igual é mellor meter
> todo e ver o que sae, non sei como o vedes.
>
> *>>>A partires de aquí podemos afinar aínda moito mais (eliminar as que
> teñan números ou certas construcións e caracteres que non nos interesen,
> hai que eliminar o ÷ que aparece en moitos sítios, etc...*
>
> Si, ao quitar o ÷ tamén habería que ver se lle podemos pasar un corrector
> para amañar os problemas dos acentos. Por exemplo, casos como "dixo÷lle.".
>
>
>
> Eu andaba buscando frases case unha por unha, (buscando verbos en
> imperativo, 2a persoa, etc. co buscador do TILG,  e agora que xa tiña os
> textos completos andaba buscando signos gráficos de diálogos), pero así
> manualmente como facía eu non acabaríamos nunca :).
>
>
>
> Unha aperta,
>
>
>
> Lucía
>
>
> Le jeu. 18 févr. 2021 à 19:42, Antón Méixome <cert...@certima.net> a
> écrit :
>
>> Xenial, Xabier un traballo de trasnego enxebre
>>
>> Sobe os resultados, gustaríame saber o que opina Lucía que é quen está
>> depurando esas fontes de textos.
>> Se conseguimos automatizalo un chisco podemos pedir todo o Tilg
>>
>>
>> Aproveito para comentar
>> Hoxe pedín formalmente ao Centro Ramón Piñeiro acceso ao Corga
>> Teñen un corpus de 40 millóns de formas que se nos permitisen filtrar ou
>> mesmo acceder cunha API (creo que agora xa teñen nivel para pedir iso)
>> sería unha gran solución porque recolle transcricións de series da TVG,
>> xornais, etc.
>>
>>
>>
>>
>>
>> O xov., 18 de feb. de 2021 ás 18:58, Xabier Villar (<
>> xabier.vil...@gmail.com>) escribiu:
>>
>>>
>>> Boas a todos! Ando desaparecido do mapa, pero estouvos a vixiar :P
>>>
>>> Estiven enredando un chisco cos ficheiros estes, coa intención de limpar
>>> un pouquiño, separar as frases e facer unha selección inicial daquelas que
>>> cumpran algúns dos parámetros (por exemplo, 14 palabras ou menos). Non
>>> controlo case nada das ferramentas que empreguei, pero explícovos o que
>>> fixen por se algún de vos pode refinar o proceso ou mesmo sacar unha
>>> ferramenta que nos permita preprocesar mais textos que poidan ir aparecendo.
>>>
>>> En primeiro lugar asegureime de que os ficheiros estiveran formato UNIX
>>> e UTF8, como fixo Antón coa orde dos2unix. Como son poucos tamén se pode
>>> facer cun editor (Kate, que é o que eu emprego, faino bastante sinxelo).
>>>
>>> Logo, e tendo en conta que estes ficheiros teñen certas construcións
>>> "estranas", paseille varios filtros con sed. É moi chafulleiro, e funo
>>> sacando por proba e erro, e aínda así escapáronseme cousas, pero algo
>>> axudou:
>>> A orde que empreguei sería:
>>> sed -r 's,\.\*([a-zA-Z]+)[.:;],\1 ,g' IGTRAP-iso.TXT|sed -r
>>> 's,<\*([a-zA-Z,\ ,\*]+)>,\1,g'|sed -r 's/\|[0-9]+\|//'|sed 's/^\ *\.//' >
>>> IGTRAP-iso-sed.TXT
>>> O primeiro cambiaría .*NOME. por NOME, o segundo <*NOME> por NOME, o
>>> terceiro eliminaría as etiquetas con números |##|, e o último amañaba
>>> algunhas liñas que comezan por espazo e .
>>> Aínda así escápanse cousas que seguramente se poderían amañar, e
>>> seguramente estrague algunha frase polo medio, pero penso que paga a pena.
>>>
>>> Posteriormente, con python e a libraría nltk separei as frases unha por
>>> cada liña, e finalmente tamñen con python, creei un ficheiro final coas
>>> frases de 14 palabras ou menos.
>>>
>>> A partires de aquí podemos afinar aínda moito mais (eliminar as que
>>> teñan números ou certas construcións e caracteres que non nos interesen,
>>> hai que eliminar o ÷ que aparece en moitos sítios, etc...
>>>
>>> Co resultado penso que xa se pode traballar á man eliminando aquilo que
>>> non cumpra uns requisitos mínimos.
>>>
>>> Con todo, penso que o importante aquí está en que probablemente tirando
>>> de ferramentas como o NLTK https://www.nltk.org/ ou Freeling
>>> http://nlp.lsi.upc.edu/freeling/node/1 se poida adiantar moito traballo
>>> para tratar con orixes de texto masivas. Estou pensando concretamente en
>>> quen teña algún blog, ou que chíe moito en twitter, que podería baixar eses
>>> datos, filtralos, e traballar sobre esa base filtrada. Nas mans dalgún dos
>>> que sabedes penso que pode dar moito de sí (eu soupen de NLTK e Freeling
>>> onte pola noite, e de python copio mais de stackexchange e similares que do
>>> que sei XD)
>>>
>>> Pégovos por aquí os ficheiros resultado e mais o par de ferramentas (por
>>> chamarlle algo) que fixen. Sobre o ficheiro filtrado (IGTRAP-iso-sed.TXT no
>>> pipe anterior) executaría:
>>>
>>> python3 nltk-sent.py IGTRAP-iso-sed.TXT IGTRAP-sentences.TXT
>>> python3 14word-sent.py IGTRAP-sentences.TXT IGTRAP-14Wsentences.TXT
>>>
>>> Saúdos e graciñas polo traballo que estades a facer!
>>>
>>> PD: Insisto, non teño nin idea, así que non me deades moito na cabeza
>>> pola chapuza :DDDD
>>> ---------- Forwarded message ---------
>>> De: Antón Méixome <cert...@certima.net>
>>> Date: mié, 17 feb 2021 a las 13:04
>>> Subject: Re: Fwd: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta
>>> "Méixome" contigo.
>>> To: Lista de correo de Proxecto Trasno <proxecto@trasno.gal>
>>>
>>>
>>> Con esta orde
>>>
>>> dos2unix -v -f -iso -n PRICON.TXT pricon-iso.TXT
>>>
>>> Consigo un ficheiro creo que aceptable. Se alguén o sabe facer mellor...
>>> agradécese
>>>
>>> (non sei como se verá en Windows o orixinal, claro)
>>>
>>>
>>>
>>>
>>>
>>>
>>>
>>> O mér., 17 de feb. de 2021 ás 12:46, Antón Méixome (<cert...@certima.net>)
>>> escribiu:
>>>
>>>> Santamarina advírteme do seguinte
>>>>
>>>> "Van algo manipulados porque os usei para facer unha base de datos
>>>> lexicográfica e levan por exemplo demarcadores para nomes propios .
>>>>
>>>> Tamén separei os pronomes enclíticos do verbo, porque so dúas palabras.
>>>>
>>>> Ás veces inclúen textos en castelán ou noutros idiomas; van entre {}.
>>>>
>>>>
>>>>
>>>> Para textos dialogados se cadra che viña algo mellor algunha obra de
>>>> teatro
>>>>
>>>>
>>>>
>>>> Pide os que queiras, non teño problema e facilitarchos."
>>>>
>>>>
>>>> De feito, no meu equipo dime que están en "binario"
>>>>
>>>> Parece que non consigo arranxalos
>>>>
>>>>
>>>>
>>>> O mér., 17 de feb. de 2021 ás 11:45, Antón Méixome (<
>>>> cert...@certima.net>) escribiu:
>>>>
>>>>>
>>>>> A mensaxe anterior contén a bd co índice que obras do TILG. Con esta
>>>>> accédese aos textos que está procesando manualmente Lucía.
>>>>> A ver se puidésemos automatizar un pouco a extracción de frases.
>>>>>
>>>>>
>>>>>
>>>>> ---------- Forwarded message ---------
>>>>> De: SANTAMARINA FERNANDEZ ANTONIO <anton.santamar...@usc.es>
>>>>> Date: mér., 17 de feb. de 2021 ás 10:05
>>>>> Subject: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta "Méixome"
>>>>> contigo.
>>>>> To: cert...@certima.net <cert...@certima.net>
>>>>>
>>>>>
>>>>> SANTAMARINA FERNANDEZ ANTONIO compartió una carpeta contigo
>>>>>
>>>>> Aquí está la carpeta que SANTAMARINA FERNANDEZ ANTONIO compartió
>>>>> contigo.
>>>>> [image: icon] Méixome
>>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9>
>>>>>
>>>>> [image: permission globe icon] Este vínculo funcionará para cualquier
>>>>> persona.
>>>>> Abrir
>>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9>
>>>>> [image: Microsoft logo] [image: Custom logo]
>>>>> Declaración de privacidad
>>>>> <https://westeuroper-notifyp.svc.ms:443/api/v2/tracking/method/Click?mi=fiB_RGJXt0K0Q_CNUipZmg&tc=PrivacyStatement&cs=f97d4ae4336b3342c9a937ee3f36e84e&ru=https%3a%2f%2fprivacy.microsoft.com%2fprivacystatement%5c>
>>>>>
>>>>
>>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>>> proxecto@trasno.gal
>>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>>>> Trasno
>>>> - Cancelar a subscrición  no URL:
>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7327&h=3afa62a1eb4964da21bdc93145d12cca3721cd76&sa=239831088
>>>>
>>>
>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>> proxecto@trasno.gal
>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>>> Trasno
>>> - Cancelar a subscrición  no URL:
>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7328&h=e4cd54a3b24db90764dbdaa699b953bb94b4fb7f&sa=585566664
>>>
>>>
>>> --
>>>
>>> Xabier Villar
>>>
>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>> proxecto@trasno.gal
>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>>> Trasno
>>> - Cancelar a subscrición  no URL:
>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7338&h=e3ae06e280fa03a2f22b124a77624632cfd845c7&sa=1832087367
>>>
>>
>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>> proxecto@trasno.gal
>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>> Trasno
>> - Cancelar a subscrición  no URL:
>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7341&h=d467096faf50da7027b190afd4d46418dafed60b&sa=1316051188
>>
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> proxecto@trasno.gal
> - Correo do administrador - administra...@trasno.gal - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7344&h=2228ed7539ff49c70c895ee58de7154601cd34eb&sa=545143267
>

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7372&h=d7b8e5bbca7a4f6343ff4e12d394c338ffb36817&sa=330912548

Responderlle a