@Antón. Sen problema. Podo crear a lista dos textos máis axeitados e pasarcha (esta fin de semana), pensarei tamén nun sistema para que poidamos facer este tema de forma ordenada. Un saúdo, Lucía
Le dim. 21 févr. 2021 à 20:50, Antón Méixome <cert...@certima.net> a écrit : > @Lucía, podes coordinar ti a extracción de frases do TILG? > > Depurando o que fixo Xabier. > Pide os textos do TILG que che parezan. Eu transmítollo a Santamarina. > Se che parece, súbeos ti xa directamente ao sistema de sentence-collect de > Mozill > > Vai informando, porfa. > Antón > > > > > O xov., 18 de feb. de 2021 ás 21:27, Lu cía (<luciamor...@gmail.com>) > escribiu: > >> Ola, >> >> Xabier, vaia traballo! Parabéns! >> >> >> Se utilizamos o teu filtro, poderíamos centrarnos en escoller os textos >> do TILG (ou CORGA se nos dan permiso) que sexan máis axeitados porque xa >> vin algúns do TILG que conteñen tamén texto en castelán ou a temática non é >> a máis acorde co que se busca no cv. E así perdermos menos tempo no >> postprocesado das frases (imaxino manual polo menos para revisalas no >> sentence collector) que pasen este primeiro filtro. Ou igual é mellor meter >> todo e ver o que sae, non sei como o vedes. >> >> *>>>A partires de aquí podemos afinar aínda moito mais (eliminar as que >> teñan números ou certas construcións e caracteres que non nos interesen, >> hai que eliminar o ÷ que aparece en moitos sítios, etc...* >> >> Si, ao quitar o ÷ tamén habería que ver se lle podemos pasar un >> corrector para amañar os problemas dos acentos. Por exemplo, casos como >> "dixo÷lle.". >> >> >> >> Eu andaba buscando frases case unha por unha, (buscando verbos en >> imperativo, 2a persoa, etc. co buscador do TILG, e agora que xa tiña os >> textos completos andaba buscando signos gráficos de diálogos), pero así >> manualmente como facía eu non acabaríamos nunca :). >> >> >> >> Unha aperta, >> >> >> >> Lucía >> >> >> Le jeu. 18 févr. 2021 à 19:42, Antón Méixome <cert...@certima.net> a >> écrit : >> >>> Xenial, Xabier un traballo de trasnego enxebre >>> >>> Sobe os resultados, gustaríame saber o que opina Lucía que é quen está >>> depurando esas fontes de textos. >>> Se conseguimos automatizalo un chisco podemos pedir todo o Tilg >>> >>> >>> Aproveito para comentar >>> Hoxe pedín formalmente ao Centro Ramón Piñeiro acceso ao Corga >>> Teñen un corpus de 40 millóns de formas que se nos permitisen filtrar ou >>> mesmo acceder cunha API (creo que agora xa teñen nivel para pedir iso) >>> sería unha gran solución porque recolle transcricións de series da TVG, >>> xornais, etc. >>> >>> >>> >>> >>> >>> O xov., 18 de feb. de 2021 ás 18:58, Xabier Villar (< >>> xabier.vil...@gmail.com>) escribiu: >>> >>>> >>>> Boas a todos! Ando desaparecido do mapa, pero estouvos a vixiar :P >>>> >>>> Estiven enredando un chisco cos ficheiros estes, coa intención de >>>> limpar un pouquiño, separar as frases e facer unha selección inicial >>>> daquelas que cumpran algúns dos parámetros (por exemplo, 14 palabras ou >>>> menos). Non controlo case nada das ferramentas que empreguei, pero >>>> explícovos o que fixen por se algún de vos pode refinar o proceso ou mesmo >>>> sacar unha ferramenta que nos permita preprocesar mais textos que poidan ir >>>> aparecendo. >>>> >>>> En primeiro lugar asegureime de que os ficheiros estiveran formato UNIX >>>> e UTF8, como fixo Antón coa orde dos2unix. Como son poucos tamén se pode >>>> facer cun editor (Kate, que é o que eu emprego, faino bastante sinxelo). >>>> >>>> Logo, e tendo en conta que estes ficheiros teñen certas construcións >>>> "estranas", paseille varios filtros con sed. É moi chafulleiro, e funo >>>> sacando por proba e erro, e aínda así escapáronseme cousas, pero algo >>>> axudou: >>>> A orde que empreguei sería: >>>> sed -r 's,\.\*([a-zA-Z]+)[.:;],\1 ,g' IGTRAP-iso.TXT|sed -r >>>> 's,<\*([a-zA-Z,\ ,\*]+)>,\1,g'|sed -r 's/\|[0-9]+\|//'|sed 's/^\ *\.//' > >>>> IGTRAP-iso-sed.TXT >>>> O primeiro cambiaría .*NOME. por NOME, o segundo <*NOME> por NOME, o >>>> terceiro eliminaría as etiquetas con números |##|, e o último amañaba >>>> algunhas liñas que comezan por espazo e . >>>> Aínda así escápanse cousas que seguramente se poderían amañar, e >>>> seguramente estrague algunha frase polo medio, pero penso que paga a pena. >>>> >>>> Posteriormente, con python e a libraría nltk separei as frases unha por >>>> cada liña, e finalmente tamñen con python, creei un ficheiro final coas >>>> frases de 14 palabras ou menos. >>>> >>>> A partires de aquí podemos afinar aínda moito mais (eliminar as que >>>> teñan números ou certas construcións e caracteres que non nos interesen, >>>> hai que eliminar o ÷ que aparece en moitos sítios, etc... >>>> >>>> Co resultado penso que xa se pode traballar á man eliminando aquilo que >>>> non cumpra uns requisitos mínimos. >>>> >>>> Con todo, penso que o importante aquí está en que probablemente tirando >>>> de ferramentas como o NLTK https://www.nltk.org/ ou Freeling >>>> http://nlp.lsi.upc.edu/freeling/node/1 se poida adiantar moito >>>> traballo para tratar con orixes de texto masivas. Estou pensando >>>> concretamente en quen teña algún blog, ou que chíe moito en twitter, que >>>> podería baixar eses datos, filtralos, e traballar sobre esa base filtrada. >>>> Nas mans dalgún dos que sabedes penso que pode dar moito de sí (eu soupen >>>> de NLTK e Freeling onte pola noite, e de python copio mais de stackexchange >>>> e similares que do que sei XD) >>>> >>>> Pégovos por aquí os ficheiros resultado e mais o par de ferramentas >>>> (por chamarlle algo) que fixen. Sobre o ficheiro filtrado >>>> (IGTRAP-iso-sed.TXT no pipe anterior) executaría: >>>> >>>> python3 nltk-sent.py IGTRAP-iso-sed.TXT IGTRAP-sentences.TXT >>>> python3 14word-sent.py IGTRAP-sentences.TXT IGTRAP-14Wsentences.TXT >>>> >>>> Saúdos e graciñas polo traballo que estades a facer! >>>> >>>> PD: Insisto, non teño nin idea, así que non me deades moito na cabeza >>>> pola chapuza :DDDD >>>> ---------- Forwarded message --------- >>>> De: Antón Méixome <cert...@certima.net> >>>> Date: mié, 17 feb 2021 a las 13:04 >>>> Subject: Re: Fwd: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta >>>> "Méixome" contigo. >>>> To: Lista de correo de Proxecto Trasno <proxecto@trasno.gal> >>>> >>>> >>>> Con esta orde >>>> >>>> dos2unix -v -f -iso -n PRICON.TXT pricon-iso.TXT >>>> >>>> Consigo un ficheiro creo que aceptable. Se alguén o sabe facer >>>> mellor... agradécese >>>> >>>> (non sei como se verá en Windows o orixinal, claro) >>>> >>>> >>>> >>>> >>>> >>>> >>>> >>>> O mér., 17 de feb. de 2021 ás 12:46, Antón Méixome (< >>>> cert...@certima.net>) escribiu: >>>> >>>>> Santamarina advírteme do seguinte >>>>> >>>>> "Van algo manipulados porque os usei para facer unha base de datos >>>>> lexicográfica e levan por exemplo demarcadores para nomes propios . >>>>> >>>>> Tamén separei os pronomes enclíticos do verbo, porque so dúas palabras. >>>>> >>>>> Ás veces inclúen textos en castelán ou noutros idiomas; van entre {}. >>>>> >>>>> >>>>> >>>>> Para textos dialogados se cadra che viña algo mellor algunha obra de >>>>> teatro >>>>> >>>>> >>>>> >>>>> Pide os que queiras, non teño problema e facilitarchos." >>>>> >>>>> >>>>> De feito, no meu equipo dime que están en "binario" >>>>> >>>>> Parece que non consigo arranxalos >>>>> >>>>> >>>>> >>>>> O mér., 17 de feb. de 2021 ás 11:45, Antón Méixome (< >>>>> cert...@certima.net>) escribiu: >>>>> >>>>>> >>>>>> A mensaxe anterior contén a bd co índice que obras do TILG. Con esta >>>>>> accédese aos textos que está procesando manualmente Lucía. >>>>>> A ver se puidésemos automatizar un pouco a extracción de frases. >>>>>> >>>>>> >>>>>> >>>>>> ---------- Forwarded message --------- >>>>>> De: SANTAMARINA FERNANDEZ ANTONIO <anton.santamar...@usc.es> >>>>>> Date: mér., 17 de feb. de 2021 ás 10:05 >>>>>> Subject: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta "Méixome" >>>>>> contigo. >>>>>> To: cert...@certima.net <cert...@certima.net> >>>>>> >>>>>> >>>>>> SANTAMARINA FERNANDEZ ANTONIO compartió una carpeta contigo >>>>>> >>>>>> Aquí está la carpeta que SANTAMARINA FERNANDEZ ANTONIO compartió >>>>>> contigo. >>>>>> [image: icon] Méixome >>>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9> >>>>>> >>>>>> [image: permission globe icon] Este vínculo funcionará para >>>>>> cualquier persona. >>>>>> Abrir >>>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9> >>>>>> [image: Microsoft logo] [image: Custom logo] >>>>>> Declaración de privacidad >>>>>> <https://westeuroper-notifyp.svc.ms:443/api/v2/tracking/method/Click?mi=fiB_RGJXt0K0Q_CNUipZmg&tc=PrivacyStatement&cs=f97d4ae4336b3342c9a937ee3f36e84e&ru=https%3a%2f%2fprivacy.microsoft.com%2fprivacystatement%5c> >>>>>> >>>>> >>>>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>>>> proxecto@trasno.gal >>>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto >>>>> Trasno >>>>> - Cancelar a subscrición no URL: >>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7327&h=3afa62a1eb4964da21bdc93145d12cca3721cd76&sa=239831088 >>>>> >>>> >>>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>>> proxecto@trasno.gal >>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto >>>> Trasno >>>> - Cancelar a subscrición no URL: >>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7328&h=e4cd54a3b24db90764dbdaa699b953bb94b4fb7f&sa=585566664 >>>> >>>> >>>> -- >>>> >>>> Xabier Villar >>>> >>>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>>> proxecto@trasno.gal >>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto >>>> Trasno >>>> - Cancelar a subscrición no URL: >>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7338&h=e3ae06e280fa03a2f22b124a77624632cfd845c7&sa=1832087367 >>>> >>> >>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>> proxecto@trasno.gal >>> - Correo do administrador - administra...@trasno.gal - de - Proxecto >>> Trasno >>> - Cancelar a subscrición no URL: >>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7341&h=d467096faf50da7027b190afd4d46418dafed60b&sa=1316051188 >>> >> >> - Lista de correo de Proxecto Trasno - Enviar correo a - >> proxecto@trasno.gal >> - Correo do administrador - administra...@trasno.gal - de - Proxecto >> Trasno >> - Cancelar a subscrición no URL: >> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7344&h=2228ed7539ff49c70c895ee58de7154601cd34eb&sa=545143267 >> > > - Lista de correo de Proxecto Trasno - Enviar correo a - > proxecto@trasno.gal > - Correo do administrador - administra...@trasno.gal - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7372&h=5d0802b5542d330257ffdb0b6c1fc94e1b920172&sa=282170197 > - Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal - Administrador - administra...@trasno.gal - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7378&h=2ddf65b0a608ecfcadd0f9b9a5b6c0124bae7012&sa=139166789