Andaba eu polas congrostras da internet e atopei isto

https://github.com/google/corpuscrawler

Recolle perfil para case 1000 idiomas, pero o galego non está (neste caso
poderíamos dicir que afortunadamente).
Polo que entendo o resultado é obter u corpus de textos limpo e de acceso
libre nun determinado idioma.

En todo caso pódese adaptar e mesmo contribuír cunhas liñas de código para
que se recollan datos de galego

Está vinculado con este outro proxecto

https://github.com/lingua-libre/unilex
que pertence a
Wikimédia France
<https://twitter.com/Wikimedia_Fr>
@Wikimedia_Fr
<https://twitter.com/Wikimedia_Fr>

que están co proxecto Lingua Libre (así tal cal sen traducir)

https://lingualibre.org/wiki/LinguaLibre:Main_Page

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7443&h=9f0b7a67b4210d673664dcbb8c1d6c2feb0a751a&sa=1177703656

Responderlle a