Re: [gnome-gl] Proxecto de servizo web centralizado de corpus lingüístico e plugin para gtranslator

2011-02-01 Conversa Fran Dieguez
Para o caso das buscas coido que lucene é a mellor opción.

Grazas polas suxestións, vou completando o documento.

O Mar, 01-02-2011 ás 13:29 +0100, Leandro Regueiro escribiu:
> 2011/2/1 Leandro Regueiro :
> > 2011/1/31 Fran Diéguez :
> >> Nas vindeiras semanas comezará o desenvolvemento do proxecto do servidor
> >> de TMX centralizado.
> >>
> >> Temos un pequeno documento descritivo do proxecto accesíbel en linha.
> >> https://docs.google.com/document/pub?id=1BbNy-aUMXyLAwh2Y5RQ7fvvGbqCDbChBuFF9_4HN7IA
> >>
> >> Calquera suxestión é ben recibida mediante esta mesma rolda de correo.
> >
> > Que fai aí a referencia a TBX?
> >
> > Na lista de «Aplicativos existentes» pódense indicar outros como
> > «Virtaal», «Pootle», «WordForge Editor» que tamén usan memorias de
> > tradución.
> >
> > En «Servizos existentes» non sei se a intención é listar os servizos
> > ofrecidos pola comunidade ou se tamén se poden incluír outros como o
> > Logaliza http://sli.uvigo.es/CLUVI/index.html#logaliza ou o corpus de
> > Mancomún http://corpus.mancomun.org/xestermos.php
> >
> > Non uses «insertar», é «inserir».
> >
> > «Comom podes ver aínda»??
> >
> > Que sexa capaz de xestionar memorias non só para en->gl, senón tamén
> > para en->es, en->fr... É máis, nin sequera se debería asumir que o
> > inglés é o idioma de partida.
> >
> > Permitir busca inversa gl->en (como en openTran).
> >
> > Unha característica interesante podería ser a posibilidade de poder
> > crear áreas temáticas e permitir incluír/quitar memorias a unha
> > temática concreta (ou a varias). Por exemplo as memorias de GIMP e
> > Krita corresponderían á temática de «Retoque de imaxe» e pertencerían
> > a diferentes proxectos. Ademais diso podería haber varias memorias
> > para cada un deses programas (como xa tedes indicado no documento).
> > Evidentemente deberíase poder listar as memorias pertencentes a unha
> > temática, e habería que listar as temáticas ás que pertence unha
> > memoria dada. Isto poderiase implementar como unha especie de nube de
> > etiquetas ou algo polo estilo.
> >
> > Outra cousa importante é poder eliminar ou corrixir traducións
> > puntuais de calquera memoria de tradución, porque despois de xerarse
> > puido atoparse algún erro na tradución.
> >
> > Tamén se debería poder substituír unha versión específica dunha
> > memoria de tradución (por exemplo a memoria da versión 2.6.0 de GIMP)
> > cunha nova versión (por exemplo un novo TMX da versión 2.6.0 de GIMP
> > pero con varias cadeas corrixidas).
> >
> > Para buscas puntuais (consulta en vivo) como a do exemplo de «This
> > button closes the window» eu de vós nin sequera devolvía os resultados
> > en XML senón só directamente en JSON.
> >
> > Poñede un sistema que permita descargar mediante REST (ou o que sexa)
> > unha/varias/todas as memorias de tradución que haxa no servidor. Así
> > por exemplo o Gtranslator ao detectar que se traduce do inglés ao
> > galego, enviaria unha consulta ao servidor para recuperar a lista de
> > memorias de tradución do inglés ao galego e permitirialle ao usuario
> > seleccionar as que desexe descargar, e a continuación Gtranslator
> > solicitaría o envío de todos eses TMX para gardalos en local. Despois
> > Gtranslator permitiria crear memorias de tradución con eses TMX e en
> > cada proxecto poderianse configurar as memorias de tradución a usar. A
> > parte interesante é que o servidor permita baixar a chuzo todas as
> > memorias e que o programa CAT as recupere automaticamente sen molestar
> > ao usuario demasiado.
> >
> > Isto último complementariase con Autoterm, que ven sendo unha
> > funcionalidade Virtaal que le dun ficheiro de configuración de Virtaal
> > onde está o glosario para cada idioma, e de non ter xa unha copia
> > local descárgao automaticamente e o usuario xa pode traballar usando o
> > glosario, e todo isto sen molestar ao usuario para nada:
> > http://translate.sourceforge.net/wiki/virtaal/autoterm
> >
> >
> > No engadido para Gtranslator eu indicaría que ademais de buscar
> > automáticamente resultados para a cadea actual, sería boa idea
> > permitir seleccionar parte da cadea orixinal e premendo un atallo de
> > teclado (ou usando unha opción do menú contextual ao premer enriba do
> > texto seleccionado) se poida buscar esa subcadea no servidor de
> > memorias. É moi común ao traducir documentación que haxa cadeas longas
> > con referencias nomes de accións ou opcións que se traduciron na GUI,
> > e polo tanto esta opción sería útil.
> >
> > Ademais no engadido para Gtranslator debería ser útil poder indicar
> > que só se pidan resultados para certas memorias de tradución. Isto
> > reduciría a carga no servidor, e ademais tamén pode ser que elimine
> > resultados non desexados xa que por exemplo no servidor pode haber
> > memorias de tradución de versións moi vellas de Firefox onde «tab»
> > aparece seguido como «separador» e non como «lapela». Estas
> > indicacións de memorias a usar pode que incluso interese poñelas na
> > confi

Re: [gnome-gl] Proxecto de servizo web centralizado de corpus lingüístico e plugin para gtranslator

2011-02-01 Conversa Leandro Regueiro
2011/2/1 Leandro Regueiro :
> 2011/1/31 Fran Diéguez :
>> Nas vindeiras semanas comezará o desenvolvemento do proxecto do servidor
>> de TMX centralizado.
>>
>> Temos un pequeno documento descritivo do proxecto accesíbel en linha.
>> https://docs.google.com/document/pub?id=1BbNy-aUMXyLAwh2Y5RQ7fvvGbqCDbChBuFF9_4HN7IA
>>
>> Calquera suxestión é ben recibida mediante esta mesma rolda de correo.
>
> Que fai aí a referencia a TBX?
>
> Na lista de «Aplicativos existentes» pódense indicar outros como
> «Virtaal», «Pootle», «WordForge Editor» que tamén usan memorias de
> tradución.
>
> En «Servizos existentes» non sei se a intención é listar os servizos
> ofrecidos pola comunidade ou se tamén se poden incluír outros como o
> Logaliza http://sli.uvigo.es/CLUVI/index.html#logaliza ou o corpus de
> Mancomún http://corpus.mancomun.org/xestermos.php
>
> Non uses «insertar», é «inserir».
>
> «Comom podes ver aínda»??
>
> Que sexa capaz de xestionar memorias non só para en->gl, senón tamén
> para en->es, en->fr... É máis, nin sequera se debería asumir que o
> inglés é o idioma de partida.
>
> Permitir busca inversa gl->en (como en openTran).
>
> Unha característica interesante podería ser a posibilidade de poder
> crear áreas temáticas e permitir incluír/quitar memorias a unha
> temática concreta (ou a varias). Por exemplo as memorias de GIMP e
> Krita corresponderían á temática de «Retoque de imaxe» e pertencerían
> a diferentes proxectos. Ademais diso podería haber varias memorias
> para cada un deses programas (como xa tedes indicado no documento).
> Evidentemente deberíase poder listar as memorias pertencentes a unha
> temática, e habería que listar as temáticas ás que pertence unha
> memoria dada. Isto poderiase implementar como unha especie de nube de
> etiquetas ou algo polo estilo.
>
> Outra cousa importante é poder eliminar ou corrixir traducións
> puntuais de calquera memoria de tradución, porque despois de xerarse
> puido atoparse algún erro na tradución.
>
> Tamén se debería poder substituír unha versión específica dunha
> memoria de tradución (por exemplo a memoria da versión 2.6.0 de GIMP)
> cunha nova versión (por exemplo un novo TMX da versión 2.6.0 de GIMP
> pero con varias cadeas corrixidas).
>
> Para buscas puntuais (consulta en vivo) como a do exemplo de «This
> button closes the window» eu de vós nin sequera devolvía os resultados
> en XML senón só directamente en JSON.
>
> Poñede un sistema que permita descargar mediante REST (ou o que sexa)
> unha/varias/todas as memorias de tradución que haxa no servidor. Así
> por exemplo o Gtranslator ao detectar que se traduce do inglés ao
> galego, enviaria unha consulta ao servidor para recuperar a lista de
> memorias de tradución do inglés ao galego e permitirialle ao usuario
> seleccionar as que desexe descargar, e a continuación Gtranslator
> solicitaría o envío de todos eses TMX para gardalos en local. Despois
> Gtranslator permitiria crear memorias de tradución con eses TMX e en
> cada proxecto poderianse configurar as memorias de tradución a usar. A
> parte interesante é que o servidor permita baixar a chuzo todas as
> memorias e que o programa CAT as recupere automaticamente sen molestar
> ao usuario demasiado.
>
> Isto último complementariase con Autoterm, que ven sendo unha
> funcionalidade Virtaal que le dun ficheiro de configuración de Virtaal
> onde está o glosario para cada idioma, e de non ter xa unha copia
> local descárgao automaticamente e o usuario xa pode traballar usando o
> glosario, e todo isto sen molestar ao usuario para nada:
> http://translate.sourceforge.net/wiki/virtaal/autoterm
>
>
> No engadido para Gtranslator eu indicaría que ademais de buscar
> automáticamente resultados para a cadea actual, sería boa idea
> permitir seleccionar parte da cadea orixinal e premendo un atallo de
> teclado (ou usando unha opción do menú contextual ao premer enriba do
> texto seleccionado) se poida buscar esa subcadea no servidor de
> memorias. É moi común ao traducir documentación que haxa cadeas longas
> con referencias nomes de accións ou opcións que se traduciron na GUI,
> e polo tanto esta opción sería útil.
>
> Ademais no engadido para Gtranslator debería ser útil poder indicar
> que só se pidan resultados para certas memorias de tradución. Isto
> reduciría a carga no servidor, e ademais tamén pode ser que elimine
> resultados non desexados xa que por exemplo no servidor pode haber
> memorias de tradución de versións moi vellas de Firefox onde «tab»
> aparece seguido como «separador» e non como «lapela». Estas
> indicacións de memorias a usar pode que incluso interese poñelas na
> configuración do proxecto de Gtranslator.
>
> Unha cousa importante é que o servidor ao devolver resultados de busca
> devolva primeiro os resultados das memorias máis recentes.
> Evidentemente habería que limitar o número de resultados devoltos (15
> xa serían excesivos, creo eu).
>
> Nas buscas non deberían devolverse resultados cun «match ratio»
> inferior ao 70

Re: [gnome-gl] Proxecto de servizo web centralizado de corpus lingüístico e plugin para gtranslator

2011-02-01 Conversa Leandro Regueiro
2011/1/31 Fran Diéguez :
> Nas vindeiras semanas comezará o desenvolvemento do proxecto do servidor
> de TMX centralizado.
>
> Temos un pequeno documento descritivo do proxecto accesíbel en linha.
> https://docs.google.com/document/pub?id=1BbNy-aUMXyLAwh2Y5RQ7fvvGbqCDbChBuFF9_4HN7IA
>
> Calquera suxestión é ben recibida mediante esta mesma rolda de correo.

Que fai aí a referencia a TBX?

Na lista de «Aplicativos existentes» pódense indicar outros como
«Virtaal», «Pootle», «WordForge Editor» que tamén usan memorias de
tradución.

En «Servizos existentes» non sei se a intención é listar os servizos
ofrecidos pola comunidade ou se tamén se poden incluír outros como o
Logaliza http://sli.uvigo.es/CLUVI/index.html#logaliza ou o corpus de
Mancomún http://corpus.mancomun.org/xestermos.php

Non uses «insertar», é «inserir».

«Comom podes ver aínda»??

Que sexa capaz de xestionar memorias non só para en->gl, senón tamén
para en->es, en->fr... É máis, nin sequera se debería asumir que o
inglés é o idioma de partida.

Permitir busca inversa gl->en (como en openTran).

Unha característica interesante podería ser a posibilidade de poder
crear áreas temáticas e permitir incluír/quitar memorias a unha
temática concreta (ou a varias). Por exemplo as memorias de GIMP e
Krita corresponderían á temática de «Retoque de imaxe» e pertencerían
a diferentes proxectos. Ademais diso podería haber varias memorias
para cada un deses programas (como xa tedes indicado no documento).
Evidentemente deberíase poder listar as memorias pertencentes a unha
temática, e habería que listar as temáticas ás que pertence unha
memoria dada. Isto poderiase implementar como unha especie de nube de
etiquetas ou algo polo estilo.

Outra cousa importante é poder eliminar ou corrixir traducións
puntuais de calquera memoria de tradución, porque despois de xerarse
puido atoparse algún erro na tradución.

Tamén se debería poder substituír unha versión específica dunha
memoria de tradución (por exemplo a memoria da versión 2.6.0 de GIMP)
cunha nova versión (por exemplo un novo TMX da versión 2.6.0 de GIMP
pero con varias cadeas corrixidas).

Para buscas puntuais (consulta en vivo) como a do exemplo de «This
button closes the window» eu de vós nin sequera devolvía os resultados
en XML senón só directamente en JSON.

Poñede un sistema que permita descargar mediante REST (ou o que sexa)
unha/varias/todas as memorias de tradución que haxa no servidor. Así
por exemplo o Gtranslator ao detectar que se traduce do inglés ao
galego, enviaria unha consulta ao servidor para recuperar a lista de
memorias de tradución do inglés ao galego e permitirialle ao usuario
seleccionar as que desexe descargar, e a continuación Gtranslator
solicitaría o envío de todos eses TMX para gardalos en local. Despois
Gtranslator permitiria crear memorias de tradución con eses TMX e en
cada proxecto poderianse configurar as memorias de tradución a usar. A
parte interesante é que o servidor permita baixar a chuzo todas as
memorias e que o programa CAT as recupere automaticamente sen molestar
ao usuario demasiado.

Isto último complementariase con Autoterm, que ven sendo unha
funcionalidade Virtaal que le dun ficheiro de configuración de Virtaal
onde está o glosario para cada idioma, e de non ter xa unha copia
local descárgao automaticamente e o usuario xa pode traballar usando o
glosario, e todo isto sen molestar ao usuario para nada:
http://translate.sourceforge.net/wiki/virtaal/autoterm


No engadido para Gtranslator eu indicaría que ademais de buscar
automáticamente resultados para a cadea actual, sería boa idea
permitir seleccionar parte da cadea orixinal e premendo un atallo de
teclado (ou usando unha opción do menú contextual ao premer enriba do
texto seleccionado) se poida buscar esa subcadea no servidor de
memorias. É moi común ao traducir documentación que haxa cadeas longas
con referencias nomes de accións ou opcións que se traduciron na GUI,
e polo tanto esta opción sería útil.

Ademais no engadido para Gtranslator debería ser útil poder indicar
que só se pidan resultados para certas memorias de tradución. Isto
reduciría a carga no servidor, e ademais tamén pode ser que elimine
resultados non desexados xa que por exemplo no servidor pode haber
memorias de tradución de versións moi vellas de Firefox onde «tab»
aparece seguido como «separador» e non como «lapela». Estas
indicacións de memorias a usar pode que incluso interese poñelas na
configuración do proxecto de Gtranslator.

Unha cousa importante é que o servidor ao devolver resultados de busca
devolva primeiro os resultados das memorias máis recentes.
Evidentemente habería que limitar o número de resultados devoltos (15
xa serían excesivos, creo eu).

Nas buscas non deberían devolverse resultados cun «match ratio»
inferior ao 70%. En certos sistemas de memorias de tradución incluso
piden unha concordancia maior. Pero evidentemente isto non debería
aplicarse a cadeas moi longas, xa que é común que na tradución de
documentación a