@Lucía, podes coordinar ti a extracción de frases do TILG? Depurando o que fixo Xabier. Pide os textos do TILG que che parezan. Eu transmítollo a Santamarina. Se che parece, súbeos ti xa directamente ao sistema de sentence-collect de Mozill
Vai informando, porfa. Antón O xov., 18 de feb. de 2021 ás 21:27, Lu cía (<luciamor...@gmail.com>) escribiu: > Ola, > > Xabier, vaia traballo! Parabéns! > > > Se utilizamos o teu filtro, poderíamos centrarnos en escoller os textos do > TILG (ou CORGA se nos dan permiso) que sexan máis axeitados porque xa vin > algúns do TILG que conteñen tamén texto en castelán ou a temática non é a > máis acorde co que se busca no cv. E así perdermos menos tempo no > postprocesado das frases (imaxino manual polo menos para revisalas no > sentence collector) que pasen este primeiro filtro. Ou igual é mellor meter > todo e ver o que sae, non sei como o vedes. > > *>>>A partires de aquí podemos afinar aínda moito mais (eliminar as que > teñan números ou certas construcións e caracteres que non nos interesen, > hai que eliminar o ÷ que aparece en moitos sítios, etc...* > > Si, ao quitar o ÷ tamén habería que ver se lle podemos pasar un corrector > para amañar os problemas dos acentos. Por exemplo, casos como "dixo÷lle.". > > > > Eu andaba buscando frases case unha por unha, (buscando verbos en > imperativo, 2a persoa, etc. co buscador do TILG, e agora que xa tiña os > textos completos andaba buscando signos gráficos de diálogos), pero así > manualmente como facía eu non acabaríamos nunca :). > > > > Unha aperta, > > > > Lucía > > > Le jeu. 18 févr. 2021 à 19:42, Antón Méixome <cert...@certima.net> a > écrit : > >> Xenial, Xabier un traballo de trasnego enxebre >> >> Sobe os resultados, gustaríame saber o que opina Lucía que é quen está >> depurando esas fontes de textos. >> Se conseguimos automatizalo un chisco podemos pedir todo o Tilg >> >> >> Aproveito para comentar >> Hoxe pedín formalmente ao Centro Ramón Piñeiro acceso ao Corga >> Teñen un corpus de 40 millóns de formas que se nos permitisen filtrar ou >> mesmo acceder cunha API (creo que agora xa teñen nivel para pedir iso) >> sería unha gran solución porque recolle transcricións de series da TVG, >> xornais, etc. >> >> >> >> >> >> O xov., 18 de feb. de 2021 ás 18:58, Xabier Villar (< >> xabier.vil...@gmail.com>) escribiu: >> >>> >>> Boas a todos! Ando desaparecido do mapa, pero estouvos a vixiar :P >>> >>> Estiven enredando un chisco cos ficheiros estes, coa intención de limpar >>> un pouquiño, separar as frases e facer unha selección inicial daquelas que >>> cumpran algúns dos parámetros (por exemplo, 14 palabras ou menos). Non >>> controlo case nada das ferramentas que empreguei, pero explícovos o que >>> fixen por se algún de vos pode refinar o proceso ou mesmo sacar unha >>> ferramenta que nos permita preprocesar mais textos que poidan ir aparecendo. >>> >>> En primeiro lugar asegureime de que os ficheiros estiveran formato UNIX >>> e UTF8, como fixo Antón coa orde dos2unix. Como son poucos tamén se pode >>> facer cun editor (Kate, que é o que eu emprego, faino bastante sinxelo). >>> >>> Logo, e tendo en conta que estes ficheiros teñen certas construcións >>> "estranas", paseille varios filtros con sed. É moi chafulleiro, e funo >>> sacando por proba e erro, e aínda así escapáronseme cousas, pero algo >>> axudou: >>> A orde que empreguei sería: >>> sed -r 's,\.\*([a-zA-Z]+)[.:;],\1 ,g' IGTRAP-iso.TXT|sed -r >>> 's,<\*([a-zA-Z,\ ,\*]+)>,\1,g'|sed -r 's/\|[0-9]+\|//'|sed 's/^\ *\.//' > >>> IGTRAP-iso-sed.TXT >>> O primeiro cambiaría .*NOME. por NOME, o segundo <*NOME> por NOME, o >>> terceiro eliminaría as etiquetas con números |##|, e o último amañaba >>> algunhas liñas que comezan por espazo e . >>> Aínda así escápanse cousas que seguramente se poderían amañar, e >>> seguramente estrague algunha frase polo medio, pero penso que paga a pena. >>> >>> Posteriormente, con python e a libraría nltk separei as frases unha por >>> cada liña, e finalmente tamñen con python, creei un ficheiro final coas >>> frases de 14 palabras ou menos. >>> >>> A partires de aquí podemos afinar aínda moito mais (eliminar as que >>> teñan números ou certas construcións e caracteres que non nos interesen, >>> hai que eliminar o ÷ que aparece en moitos sítios, etc... >>> >>> Co resultado penso que xa se pode traballar á man eliminando aquilo que >>> non cumpra uns requisitos mínimos. >>> >>> Con todo, penso que o importante aquí está en que probablemente tirando >>> de ferramentas como o NLTK https://www.nltk.org/ ou Freeling >>> http://nlp.lsi.upc.edu/freeling/node/1 se poida adiantar moito traballo >>> para tratar con orixes de texto masivas. Estou pensando concretamente en >>> quen teña algún blog, ou que chíe moito en twitter, que podería baixar eses >>> datos, filtralos, e traballar sobre esa base filtrada. Nas mans dalgún dos >>> que sabedes penso que pode dar moito de sí (eu soupen de NLTK e Freeling >>> onte pola noite, e de python copio mais de stackexchange e similares que do >>> que sei XD) >>> >>> Pégovos por aquí os ficheiros resultado e mais o par de ferramentas (por >>> chamarlle algo) que fixen. Sobre o ficheiro filtrado (IGTRAP-iso-sed.TXT no >>> pipe anterior) executaría: >>> >>> python3 nltk-sent.py IGTRAP-iso-sed.TXT IGTRAP-sentences.TXT >>> python3 14word-sent.py IGTRAP-sentences.TXT IGTRAP-14Wsentences.TXT >>> >>> Saúdos e graciñas polo traballo que estades a facer! >>> >>> PD: Insisto, non teño nin idea, así que non me deades moito na cabeza >>> pola chapuza :DDDD >>> ---------- Forwarded message --------- >>> De: Antón Méixome <cert...@certima.net> >>> Date: mié, 17 feb 2021 a las 13:04 >>> Subject: Re: Fwd: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta >>> "Méixome" contigo. >>> To: Lista de correo de Proxecto Trasno <proxecto@trasno.gal> >>> >>> >>> Con esta orde >>> >>> dos2unix -v -f -iso -n PRICON.TXT pricon-iso.TXT >>> >>> Consigo un ficheiro creo que aceptable. Se alguén o sabe facer mellor... >>> agradécese >>> >>> (non sei como se verá en Windows o orixinal, claro) >>> >>> >>> >>> >>> >>> >>> >>> O mér., 17 de feb. de 2021 ás 12:46, Antón Méixome (<cert...@certima.net>) >>> escribiu: >>> >>>> Santamarina advírteme do seguinte >>>> >>>> "Van algo manipulados porque os usei para facer unha base de datos >>>> lexicográfica e levan por exemplo demarcadores para nomes propios . >>>> >>>> Tamén separei os pronomes enclíticos do verbo, porque so dúas palabras. >>>> >>>> Ás veces inclúen textos en castelán ou noutros idiomas; van entre {}. >>>> >>>> >>>> >>>> Para textos dialogados se cadra che viña algo mellor algunha obra de >>>> teatro >>>> >>>> >>>> >>>> Pide os que queiras, non teño problema e facilitarchos." >>>> >>>> >>>> De feito, no meu equipo dime que están en "binario" >>>> >>>> Parece que non consigo arranxalos >>>> >>>> >>>> >>>> O mér., 17 de feb. de 2021 ás 11:45, Antón Méixome (< >>>> cert...@certima.net>) escribiu: >>>> >>>>> >>>>> A mensaxe anterior contén a bd co índice que obras do TILG. Con esta >>>>> accédese aos textos que está procesando manualmente Lucía. >>>>> A ver se puidésemos automatizar un pouco a extracción de frases. >>>>> >>>>> >>>>> >>>>> ---------- Forwarded message --------- >>>>> De: SANTAMARINA FERNANDEZ ANTONIO <anton.santamar...@usc.es> >>>>> Date: mér., 17 de feb. de 2021 ás 10:05 >>>>> Subject: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta "Méixome" >>>>> contigo. >>>>> To: cert...@certima.net <cert...@certima.net> >>>>> >>>>> >>>>> SANTAMARINA FERNANDEZ ANTONIO compartió una carpeta contigo >>>>> >>>>> Aquí está la carpeta que SANTAMARINA FERNANDEZ ANTONIO compartió >>>>> contigo. >>>>> [image: icon] Méixome >>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9> >>>>> >>>>> [image: permission globe icon] Este vínculo funcionará para cualquier >>>>> persona. >>>>> Abrir >>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9> >>>>> [image: Microsoft logo] [image: Custom logo] >>>>> Declaración de privacidad >>>>> <https://westeuroper-notifyp.svc.ms:443/api/v2/tracking/method/Click?mi=fiB_RGJXt0K0Q_CNUipZmg&tc=PrivacyStatement&cs=f97d4ae4336b3342c9a937ee3f36e84e&ru=https%3a%2f%2fprivacy.microsoft.com%2fprivacystatement%5c> >>>>> >>>> >>>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>>> proxecto@trasno.gal >>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto >>>> Trasno >>>> - Cancelar a subscrición no URL: >>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7327&h=3afa62a1eb4964da21bdc93145d12cca3721cd76&sa=239831088 >>>> >>> >>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>> proxecto@trasno.gal >>> - Correo do administrador - administra...@trasno.gal - de - Proxecto >>> Trasno >>> - Cancelar a subscrición no URL: >>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7328&h=e4cd54a3b24db90764dbdaa699b953bb94b4fb7f&sa=585566664 >>> >>> >>> -- >>> >>> Xabier Villar >>> >>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>> proxecto@trasno.gal >>> - Correo do administrador - administra...@trasno.gal - de - Proxecto >>> Trasno >>> - Cancelar a subscrición no URL: >>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7338&h=e3ae06e280fa03a2f22b124a77624632cfd845c7&sa=1832087367 >>> >> >> - Lista de correo de Proxecto Trasno - Enviar correo a - >> proxecto@trasno.gal >> - Correo do administrador - administra...@trasno.gal - de - Proxecto >> Trasno >> - Cancelar a subscrición no URL: >> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7341&h=d467096faf50da7027b190afd4d46418dafed60b&sa=1316051188 >> > > - Lista de correo de Proxecto Trasno - Enviar correo a - > proxecto@trasno.gal > - Correo do administrador - administra...@trasno.gal - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7344&h=2228ed7539ff49c70c895ee58de7154601cd34eb&sa=545143267 > - Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal - Administrador - administra...@trasno.gal - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7372&h=d7b8e5bbca7a4f6343ff4e12d394c338ffb36817&sa=330912548