Andaba eu polas congrostras da internet e atopei isto https://github.com/google/corpuscrawler
Recolle perfil para case 1000 idiomas, pero o galego non está (neste caso poderíamos dicir que afortunadamente). Polo que entendo o resultado é obter u corpus de textos limpo e de acceso libre nun determinado idioma. En todo caso pódese adaptar e mesmo contribuír cunhas liñas de código para que se recollan datos de galego Está vinculado con este outro proxecto https://github.com/lingua-libre/unilex que pertence a Wikimédia France <https://twitter.com/Wikimedia_Fr> @Wikimedia_Fr <https://twitter.com/Wikimedia_Fr> que están co proxecto Lingua Libre (así tal cal sen traducir) https://lingualibre.org/wiki/LinguaLibre:Main_Page - Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal - Administrador - administra...@trasno.gal - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7443&h=9f0b7a67b4210d673664dcbb8c1d6c2feb0a751a&sa=1177703656