Re: Unha petición e unha consulta
2012/12/7 Xusto Rodriguez Rio : > Ola Leandro, > > Un millón de grazas pola información e pola revisión do tbx. > > Vou ir mirando con calma as ferramentas que me recomendas, a ver se atopo > algunha que me sexa máis funcional ca que estamos usando (efectivamente, é a > que está en http://www.ttt.org/tbx). > > Terminator xa o coñezo -moi por riba, a verdade-, pero non vexo como > integrar un traballo xa elaborado (como ocorre neste caso) para facer desde > aí a exportación a tbx. O certo é que agora mesmo só admite a importación desde TBX. Xa me reclamaron insistentemente que poña tamén a importación desde CSV e heino facer en canto teña algo de tempo libre. > En relación co da licenza CC, aínda non está decidido cal se vai usar, pero > probablemente será esta: > http://creativecommons.org/licenses/by-sa/3.0/deed.gl Esa licenza sería perfecta para permitir a súa reutilización. > En relación cos teus comentarios, vou intentar aclarar aquilo que máis ou > menos entendo (se digo algunha burrada, disimula; se é moi moi grande, > avísame, vale?) :-) > > 1. A codificación.- Cando gardei o ficheiro anterior (un .rtf) como .txt > para desde aí xerar o .tbx gardeino con codificación UTF-8. E cando vexo o > tbx co Caderno de notas de Windows os erros que mencionas non aparecen. Iso > é todo o que che podo dicir. En todo caso o ficheiro resultante pódese converter a outra codificación en caso de ser necesario. > 2. Efectivamente, non hai definicións, como acontece na práctica totalidade > dos vocabularios que nós elaboramos. Ah. Vale. Aínda que me segue parecendo raro.v Realmente tería máis utilidade con definicións. > 3. As "phrase" e as "phraseologicalUnit".- Non acabo de ter claro que > "phraseologicalUnit" -e por extensión "phrase" e n tbx-basic- sexa o máis > acaído para casos como "memoria caché", vista a definición das ISO > (http://www.isocat.org/rest/dc/339) . Fíxate que di que 'the meaning of > which frequently cannot be deduced based on the combined sense of the words > making up the phrase'. Precisamente polo que di ISO é polo que se debería usar "phrase". Só con "memoria" ou só con "caché" non se pode entender claramente o termo, polo menos ata certo punto. > Se a iso lle sumamos que nos vocabularios do SNL tratamos esas expresións da > mesma forma ca as palabras simples, optamos por deixalo así. Eu en caso de dúbida non poñería o termType e vía. Pero sigo pensando que debería ser "phrase" neses casos. > 4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a > seguinte mensaxe de erro: > Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine > processed. See line 11. > Term C001gl2 is lacking an element necessary for TBX-Basic. > To make it valid for human use only, add one of: > a definition (at the language level) > an example of use in context (at the term level). > To make it valid for human or machine processing, add its part of > speech (at the term level). > See line 11. Curioso. Pode que sexa un bug no mrc2tbx. Habería que contactar co desenvolvedor e comentarllo, porque igual o fai así por algunha razón que descoñezo. Habería que probar ademais a ver se falla se lle pos definicións e lle quitas o partOfSpeech. > 5. Etiquetas descripGrp.- Pois a verdade é que non teño nin idea, así que > vou seguir a túa recomendación e eliminar á man as etiquetas e > . Porque é iso o que me estás recomendando, non? Exactamente. > Un saúdo e mil grazas outra vez. De nada. > Xusto A. Rodríguez > SNL da USC > > -Mensaje original- > De: Leandro Regueiro [mailto:leandro.regue...@gmail.com] > Enviado el: mércores, 05 de decembro de 2012 16:15 > Para: proxecto@trasno.net > Asunto: Re: Unha petición e unha consulta > > 2012/12/5 Xusto Rodriguez Rio : >> >> Ola, > > Ola Xusto. > >> Aproveitando que tedes experiencia na publicación de glosarios >> terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades >> para xerar os ficheiros .tbx e de que estrutura de datos partides. > > Eu adoito empregar diversos métodos, pero moitas veces escribo scripts > en Python para conversións ad-hoc complicadas. Outras veces só teño > que converter un ficheiro XML e polo tanto realizo tres ou catro > substitucións co editor de texto Gedit porque me é moito máis sinxelo. > > Ademais disto existe unha ferramenta chamada csv2tbx que forma parte > do Translate Toolkit e que permite converter ficheiros CSV a formato > TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit > non funciona, aínda que non vexo ningún bug relacionado con isto en > http://bugs.locamotion.org/ nin teño confirmación de primeira man de > que realmente non funcione. > > Outra alternativa é usar > http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for > _terminology_mistakes/Create_a_dictionary.htm#Calc > para converter follas de cálculo desde OpenOffice (e creo que > LibreOffice tamén) a TBX. Este método proboun
RE: Unha petición e unha consulta
Ola Leandro, Un millón de grazas pola información e pola revisión do tbx. Vou ir mirando con calma as ferramentas que me recomendas, a ver se atopo algunha que me sexa máis funcional ca que estamos usando (efectivamente, é a que está en http://www.ttt.org/tbx). Terminator xa o coñezo -moi por riba, a verdade-, pero non vexo como integrar un traballo xa elaborado (como ocorre neste caso) para facer desde aí a exportación a tbx. En relación co da licenza CC, aínda non está decidido cal se vai usar, pero probablemente será esta: http://creativecommons.org/licenses/by-sa/3.0/deed.gl En relación cos teus comentarios, vou intentar aclarar aquilo que máis ou menos entendo (se digo algunha burrada, disimula; se é moi moi grande, avísame, vale?) :-) 1. A codificación.- Cando gardei o ficheiro anterior (un .rtf) como .txt para desde aí xerar o .tbx gardeino con codificación UTF-8. E cando vexo o tbx co Caderno de notas de Windows os erros que mencionas non aparecen. Iso é todo o que che podo dicir. 2. Efectivamente, non hai definicións, como acontece na práctica totalidade dos vocabularios que nós elaboramos. 3. As "phrase" e as "phraseologicalUnit".- Non acabo de ter claro que "phraseologicalUnit" -e por extensión "phrase" e n tbx-basic- sexa o máis acaído para casos como "memoria caché", vista a definición das ISO (http://www.isocat.org/rest/dc/339) . Fíxate que di que 'the meaning of which frequently cannot be deduced based on the combined sense of the words making up the phrase'. Se a iso lle sumamos que nos vocabularios do SNL tratamos esas expresións da mesma forma ca as palabras simples, optamos por deixalo así. 4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a seguinte mensaxe de erro: Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine processed. See line 11. Term C001gl2 is lacking an element necessary for TBX-Basic. To make it valid for human use only, add one of: a definition (at the language level) an example of use in context (at the term level). To make it valid for human or machine processing, add its part of speech (at the term level). See line 11. 5. Etiquetas descripGrp.- Pois a verdade é que non teño nin idea, así que vou seguir a túa recomendación e eliminar á man as etiquetas e . Porque é iso o que me estás recomendando, non? Un saúdo e mil grazas outra vez. Xusto A. Rodríguez SNL da USC -Mensaje original- De: Leandro Regueiro [mailto:leandro.regue...@gmail.com] Enviado el: mércores, 05 de decembro de 2012 16:15 Para: proxecto@trasno.net Asunto: Re: Unha petición e unha consulta 2012/12/5 Xusto Rodriguez Rio : > > Ola, Ola Xusto. > Aproveitando que tedes experiencia na publicación de glosarios > terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades > para xerar os ficheiros .tbx e de que estrutura de datos partides. Eu adoito empregar diversos métodos, pero moitas veces escribo scripts en Python para conversións ad-hoc complicadas. Outras veces só teño que converter un ficheiro XML e polo tanto realizo tres ou catro substitucións co editor de texto Gedit porque me é moito máis sinxelo. Ademais disto existe unha ferramenta chamada csv2tbx que forma parte do Translate Toolkit e que permite converter ficheiros CSV a formato TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit non funciona, aínda que non vexo ningún bug relacionado con isto en http://bugs.locamotion.org/ nin teño confirmación de primeira man de que realmente non funcione. Outra alternativa é usar http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for _terminology_mistakes/Create_a_dictionary.htm#Calc para converter follas de cálculo desde OpenOffice (e creo que LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo me consta) e funciona, aínda que polo visto é necesario realizar algunhas modificacións posteriores a man no ficheiro xerado para que funcione con ferramentas como Virtaal. Para realizar comprobacións sobre ficheiros TBX e ver se realmente cumpren a especificación pódese utilizar TBXChecker http://sourceforge.net/projects/tbxutil/ E claro, tamén utilizo o Terminator, unha ferramenta web para a xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros TBX correctos baixo demanda. A ferramenta segue en desenvolvemento activo e espero que nos vindeiros meses reciba diversas melloras, aínda que agora xa é funcional. O código está dispoñible en http://gitorious.org/terminator Ademais hai unha instancia en funcionamento en http://terminator.trasno.net/ > Isto vén a conto de que nas vindeiras semanas imos editar uns "Termos > básicos de arquitectura de computadores" (676 conceptos) e queriamos > difundilo baixo licenza Creative Commons e en formatos .pdf e tbx. Que licenza Creative Commons exactamente? > Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato > tbx-basic, e agradeceríavos que lle bota