Re: [gnome-gl] Proxecto de servizo web centralizado de corpus lingüístico e plugin para gtranslator
Para o caso das buscas coido que lucene é a mellor opción. Grazas polas suxestións, vou completando o documento. O Mar, 01-02-2011 ás 13:29 +0100, Leandro Regueiro escribiu: > 2011/2/1 Leandro Regueiro : > > 2011/1/31 Fran Diéguez : > >> Nas vindeiras semanas comezará o desenvolvemento do proxecto do servidor > >> de TMX centralizado. > >> > >> Temos un pequeno documento descritivo do proxecto accesíbel en linha. > >> https://docs.google.com/document/pub?id=1BbNy-aUMXyLAwh2Y5RQ7fvvGbqCDbChBuFF9_4HN7IA > >> > >> Calquera suxestión é ben recibida mediante esta mesma rolda de correo. > > > > Que fai aí a referencia a TBX? > > > > Na lista de «Aplicativos existentes» pódense indicar outros como > > «Virtaal», «Pootle», «WordForge Editor» que tamén usan memorias de > > tradución. > > > > En «Servizos existentes» non sei se a intención é listar os servizos > > ofrecidos pola comunidade ou se tamén se poden incluír outros como o > > Logaliza http://sli.uvigo.es/CLUVI/index.html#logaliza ou o corpus de > > Mancomún http://corpus.mancomun.org/xestermos.php > > > > Non uses «insertar», é «inserir». > > > > «Comom podes ver aínda»?? > > > > Que sexa capaz de xestionar memorias non só para en->gl, senón tamén > > para en->es, en->fr... É máis, nin sequera se debería asumir que o > > inglés é o idioma de partida. > > > > Permitir busca inversa gl->en (como en openTran). > > > > Unha característica interesante podería ser a posibilidade de poder > > crear áreas temáticas e permitir incluír/quitar memorias a unha > > temática concreta (ou a varias). Por exemplo as memorias de GIMP e > > Krita corresponderían á temática de «Retoque de imaxe» e pertencerían > > a diferentes proxectos. Ademais diso podería haber varias memorias > > para cada un deses programas (como xa tedes indicado no documento). > > Evidentemente deberíase poder listar as memorias pertencentes a unha > > temática, e habería que listar as temáticas ás que pertence unha > > memoria dada. Isto poderiase implementar como unha especie de nube de > > etiquetas ou algo polo estilo. > > > > Outra cousa importante é poder eliminar ou corrixir traducións > > puntuais de calquera memoria de tradución, porque despois de xerarse > > puido atoparse algún erro na tradución. > > > > Tamén se debería poder substituír unha versión específica dunha > > memoria de tradución (por exemplo a memoria da versión 2.6.0 de GIMP) > > cunha nova versión (por exemplo un novo TMX da versión 2.6.0 de GIMP > > pero con varias cadeas corrixidas). > > > > Para buscas puntuais (consulta en vivo) como a do exemplo de «This > > button closes the window» eu de vós nin sequera devolvía os resultados > > en XML senón só directamente en JSON. > > > > Poñede un sistema que permita descargar mediante REST (ou o que sexa) > > unha/varias/todas as memorias de tradución que haxa no servidor. Así > > por exemplo o Gtranslator ao detectar que se traduce do inglés ao > > galego, enviaria unha consulta ao servidor para recuperar a lista de > > memorias de tradución do inglés ao galego e permitirialle ao usuario > > seleccionar as que desexe descargar, e a continuación Gtranslator > > solicitaría o envío de todos eses TMX para gardalos en local. Despois > > Gtranslator permitiria crear memorias de tradución con eses TMX e en > > cada proxecto poderianse configurar as memorias de tradución a usar. A > > parte interesante é que o servidor permita baixar a chuzo todas as > > memorias e que o programa CAT as recupere automaticamente sen molestar > > ao usuario demasiado. > > > > Isto último complementariase con Autoterm, que ven sendo unha > > funcionalidade Virtaal que le dun ficheiro de configuración de Virtaal > > onde está o glosario para cada idioma, e de non ter xa unha copia > > local descárgao automaticamente e o usuario xa pode traballar usando o > > glosario, e todo isto sen molestar ao usuario para nada: > > http://translate.sourceforge.net/wiki/virtaal/autoterm > > > > > > No engadido para Gtranslator eu indicaría que ademais de buscar > > automáticamente resultados para a cadea actual, sería boa idea > > permitir seleccionar parte da cadea orixinal e premendo un atallo de > > teclado (ou usando unha opción do menú contextual ao premer enriba do > > texto seleccionado) se poida buscar esa subcadea no servidor de > > memorias. É moi común ao traducir documentación que haxa cadeas longas > > con referencias nomes de accións ou opcións que se traduciron na GUI, > > e polo tanto esta opción sería útil. > > > > Ademais no engadido para Gtranslator debería ser útil poder indicar > > que só se pidan resultados para certas memorias de tradución. Isto > > reduciría a carga no servidor, e ademais tamén pode ser que elimine > > resultados non desexados xa que por exemplo no servidor pode haber > > memorias de tradución de versións moi vellas de Firefox onde «tab» > > aparece seguido como «separador» e non como «lapela». Estas > > indicacións de memorias a usar pode que incluso interese poñelas na > > confi
Re: [gnome-gl] Proxecto de servizo web centralizado de corpus lingüístico e plugin para gtranslator
2011/2/1 Leandro Regueiro : > 2011/1/31 Fran Diéguez : >> Nas vindeiras semanas comezará o desenvolvemento do proxecto do servidor >> de TMX centralizado. >> >> Temos un pequeno documento descritivo do proxecto accesíbel en linha. >> https://docs.google.com/document/pub?id=1BbNy-aUMXyLAwh2Y5RQ7fvvGbqCDbChBuFF9_4HN7IA >> >> Calquera suxestión é ben recibida mediante esta mesma rolda de correo. > > Que fai aí a referencia a TBX? > > Na lista de «Aplicativos existentes» pódense indicar outros como > «Virtaal», «Pootle», «WordForge Editor» que tamén usan memorias de > tradución. > > En «Servizos existentes» non sei se a intención é listar os servizos > ofrecidos pola comunidade ou se tamén se poden incluír outros como o > Logaliza http://sli.uvigo.es/CLUVI/index.html#logaliza ou o corpus de > Mancomún http://corpus.mancomun.org/xestermos.php > > Non uses «insertar», é «inserir». > > «Comom podes ver aínda»?? > > Que sexa capaz de xestionar memorias non só para en->gl, senón tamén > para en->es, en->fr... É máis, nin sequera se debería asumir que o > inglés é o idioma de partida. > > Permitir busca inversa gl->en (como en openTran). > > Unha característica interesante podería ser a posibilidade de poder > crear áreas temáticas e permitir incluír/quitar memorias a unha > temática concreta (ou a varias). Por exemplo as memorias de GIMP e > Krita corresponderían á temática de «Retoque de imaxe» e pertencerían > a diferentes proxectos. Ademais diso podería haber varias memorias > para cada un deses programas (como xa tedes indicado no documento). > Evidentemente deberíase poder listar as memorias pertencentes a unha > temática, e habería que listar as temáticas ás que pertence unha > memoria dada. Isto poderiase implementar como unha especie de nube de > etiquetas ou algo polo estilo. > > Outra cousa importante é poder eliminar ou corrixir traducións > puntuais de calquera memoria de tradución, porque despois de xerarse > puido atoparse algún erro na tradución. > > Tamén se debería poder substituír unha versión específica dunha > memoria de tradución (por exemplo a memoria da versión 2.6.0 de GIMP) > cunha nova versión (por exemplo un novo TMX da versión 2.6.0 de GIMP > pero con varias cadeas corrixidas). > > Para buscas puntuais (consulta en vivo) como a do exemplo de «This > button closes the window» eu de vós nin sequera devolvía os resultados > en XML senón só directamente en JSON. > > Poñede un sistema que permita descargar mediante REST (ou o que sexa) > unha/varias/todas as memorias de tradución que haxa no servidor. Así > por exemplo o Gtranslator ao detectar que se traduce do inglés ao > galego, enviaria unha consulta ao servidor para recuperar a lista de > memorias de tradución do inglés ao galego e permitirialle ao usuario > seleccionar as que desexe descargar, e a continuación Gtranslator > solicitaría o envío de todos eses TMX para gardalos en local. Despois > Gtranslator permitiria crear memorias de tradución con eses TMX e en > cada proxecto poderianse configurar as memorias de tradución a usar. A > parte interesante é que o servidor permita baixar a chuzo todas as > memorias e que o programa CAT as recupere automaticamente sen molestar > ao usuario demasiado. > > Isto último complementariase con Autoterm, que ven sendo unha > funcionalidade Virtaal que le dun ficheiro de configuración de Virtaal > onde está o glosario para cada idioma, e de non ter xa unha copia > local descárgao automaticamente e o usuario xa pode traballar usando o > glosario, e todo isto sen molestar ao usuario para nada: > http://translate.sourceforge.net/wiki/virtaal/autoterm > > > No engadido para Gtranslator eu indicaría que ademais de buscar > automáticamente resultados para a cadea actual, sería boa idea > permitir seleccionar parte da cadea orixinal e premendo un atallo de > teclado (ou usando unha opción do menú contextual ao premer enriba do > texto seleccionado) se poida buscar esa subcadea no servidor de > memorias. É moi común ao traducir documentación que haxa cadeas longas > con referencias nomes de accións ou opcións que se traduciron na GUI, > e polo tanto esta opción sería útil. > > Ademais no engadido para Gtranslator debería ser útil poder indicar > que só se pidan resultados para certas memorias de tradución. Isto > reduciría a carga no servidor, e ademais tamén pode ser que elimine > resultados non desexados xa que por exemplo no servidor pode haber > memorias de tradución de versións moi vellas de Firefox onde «tab» > aparece seguido como «separador» e non como «lapela». Estas > indicacións de memorias a usar pode que incluso interese poñelas na > configuración do proxecto de Gtranslator. > > Unha cousa importante é que o servidor ao devolver resultados de busca > devolva primeiro os resultados das memorias máis recentes. > Evidentemente habería que limitar o número de resultados devoltos (15 > xa serían excesivos, creo eu). > > Nas buscas non deberían devolverse resultados cun «match ratio» > inferior ao 70
Re: [gnome-gl] Proxecto de servizo web centralizado de corpus lingüístico e plugin para gtranslator
2011/1/31 Fran Diéguez : > Nas vindeiras semanas comezará o desenvolvemento do proxecto do servidor > de TMX centralizado. > > Temos un pequeno documento descritivo do proxecto accesíbel en linha. > https://docs.google.com/document/pub?id=1BbNy-aUMXyLAwh2Y5RQ7fvvGbqCDbChBuFF9_4HN7IA > > Calquera suxestión é ben recibida mediante esta mesma rolda de correo. Que fai aí a referencia a TBX? Na lista de «Aplicativos existentes» pódense indicar outros como «Virtaal», «Pootle», «WordForge Editor» que tamén usan memorias de tradución. En «Servizos existentes» non sei se a intención é listar os servizos ofrecidos pola comunidade ou se tamén se poden incluír outros como o Logaliza http://sli.uvigo.es/CLUVI/index.html#logaliza ou o corpus de Mancomún http://corpus.mancomun.org/xestermos.php Non uses «insertar», é «inserir». «Comom podes ver aínda»?? Que sexa capaz de xestionar memorias non só para en->gl, senón tamén para en->es, en->fr... É máis, nin sequera se debería asumir que o inglés é o idioma de partida. Permitir busca inversa gl->en (como en openTran). Unha característica interesante podería ser a posibilidade de poder crear áreas temáticas e permitir incluír/quitar memorias a unha temática concreta (ou a varias). Por exemplo as memorias de GIMP e Krita corresponderían á temática de «Retoque de imaxe» e pertencerían a diferentes proxectos. Ademais diso podería haber varias memorias para cada un deses programas (como xa tedes indicado no documento). Evidentemente deberíase poder listar as memorias pertencentes a unha temática, e habería que listar as temáticas ás que pertence unha memoria dada. Isto poderiase implementar como unha especie de nube de etiquetas ou algo polo estilo. Outra cousa importante é poder eliminar ou corrixir traducións puntuais de calquera memoria de tradución, porque despois de xerarse puido atoparse algún erro na tradución. Tamén se debería poder substituír unha versión específica dunha memoria de tradución (por exemplo a memoria da versión 2.6.0 de GIMP) cunha nova versión (por exemplo un novo TMX da versión 2.6.0 de GIMP pero con varias cadeas corrixidas). Para buscas puntuais (consulta en vivo) como a do exemplo de «This button closes the window» eu de vós nin sequera devolvía os resultados en XML senón só directamente en JSON. Poñede un sistema que permita descargar mediante REST (ou o que sexa) unha/varias/todas as memorias de tradución que haxa no servidor. Así por exemplo o Gtranslator ao detectar que se traduce do inglés ao galego, enviaria unha consulta ao servidor para recuperar a lista de memorias de tradución do inglés ao galego e permitirialle ao usuario seleccionar as que desexe descargar, e a continuación Gtranslator solicitaría o envío de todos eses TMX para gardalos en local. Despois Gtranslator permitiria crear memorias de tradución con eses TMX e en cada proxecto poderianse configurar as memorias de tradución a usar. A parte interesante é que o servidor permita baixar a chuzo todas as memorias e que o programa CAT as recupere automaticamente sen molestar ao usuario demasiado. Isto último complementariase con Autoterm, que ven sendo unha funcionalidade Virtaal que le dun ficheiro de configuración de Virtaal onde está o glosario para cada idioma, e de non ter xa unha copia local descárgao automaticamente e o usuario xa pode traballar usando o glosario, e todo isto sen molestar ao usuario para nada: http://translate.sourceforge.net/wiki/virtaal/autoterm No engadido para Gtranslator eu indicaría que ademais de buscar automáticamente resultados para a cadea actual, sería boa idea permitir seleccionar parte da cadea orixinal e premendo un atallo de teclado (ou usando unha opción do menú contextual ao premer enriba do texto seleccionado) se poida buscar esa subcadea no servidor de memorias. É moi común ao traducir documentación que haxa cadeas longas con referencias nomes de accións ou opcións que se traduciron na GUI, e polo tanto esta opción sería útil. Ademais no engadido para Gtranslator debería ser útil poder indicar que só se pidan resultados para certas memorias de tradución. Isto reduciría a carga no servidor, e ademais tamén pode ser que elimine resultados non desexados xa que por exemplo no servidor pode haber memorias de tradución de versións moi vellas de Firefox onde «tab» aparece seguido como «separador» e non como «lapela». Estas indicacións de memorias a usar pode que incluso interese poñelas na configuración do proxecto de Gtranslator. Unha cousa importante é que o servidor ao devolver resultados de busca devolva primeiro os resultados das memorias máis recentes. Evidentemente habería que limitar o número de resultados devoltos (15 xa serían excesivos, creo eu). Nas buscas non deberían devolverse resultados cun «match ratio» inferior ao 70%. En certos sistemas de memorias de tradución incluso piden unha concordancia maior. Pero evidentemente isto non debería aplicarse a cadeas moi longas, xa que é común que na tradución de documentación a