2012/12/5 Xusto Rodriguez Rio <xusto.rodrig...@usc.es>: > > Ola,
Ola Xusto. > Aproveitando que tedes experiencia na publicación de glosarios > terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades > para xerar os ficheiros .tbx e de que estrutura de datos partides. Eu adoito empregar diversos métodos, pero moitas veces escribo scripts en Python para conversións ad-hoc complicadas. Outras veces só teño que converter un ficheiro XML e polo tanto realizo tres ou catro substitucións co editor de texto Gedit porque me é moito máis sinxelo. Ademais disto existe unha ferramenta chamada csv2tbx que forma parte do Translate Toolkit e que permite converter ficheiros CSV a formato TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit non funciona, aínda que non vexo ningún bug relacionado con isto en http://bugs.locamotion.org/ nin teño confirmación de primeira man de que realmente non funcione. Outra alternativa é usar http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for_terminology_mistakes/Create_a_dictionary.htm#Calc para converter follas de cálculo desde OpenOffice (e creo que LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo me consta) e funciona, aínda que polo visto é necesario realizar algunhas modificacións posteriores a man no ficheiro xerado para que funcione con ferramentas como Virtaal. Para realizar comprobacións sobre ficheiros TBX e ver se realmente cumpren a especificación pódese utilizar TBXChecker http://sourceforge.net/projects/tbxutil/ E claro, tamén utilizo o Terminator, unha ferramenta web para a xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros TBX correctos baixo demanda. A ferramenta segue en desenvolvemento activo e espero que nos vindeiros meses reciba diversas melloras, aínda que agora xa é funcional. O código está dispoñible en http://gitorious.org/terminator Ademais hai unha instancia en funcionamento en http://terminator.trasno.net/ > Isto vén a conto de que nas vindeiras semanas imos editar uns "Termos > básicos de arquitectura de computadores" (676 conceptos) e queriamos > difundilo baixo licenza Creative Commons e en formatos .pdf e tbx. Que licenza Creative Commons exactamente? > Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato > tbx-basic, e agradeceríavos que lle botarades un ollo a unha mostra do > ficheiro (engádoa a seguir) e me dixésedes se lle vedes algún erro > relevante. Descoñecía esa ferramenta. É a ferramenta da que falan en http://www.ttt.org/tbx ou vén sendo outra? Poño os comentarios que teño sobre a mostra do ficheiro ao final da mensaxe. > Mil grazas A ti. > Xusto > SNL da USC > > ---Mostra do ficheiro tbx------------------- > > <?xml version='1.0' encoding="UTF-8"?> > <!DOCTYPE martif SYSTEM "TBXBasiccoreStructV02.dtd"> > <martif type="TBX-Basic-V1" xml:lang="gl"> > <martifHeader> > <fileDesc> > <titleStmt> > <title>termbase from MRC file</title> > </titleStmt> > <sourceDesc> > <p>generated by mrc2tbx version 3.3</p> > </sourceDesc> > <sourceDesc> > <p>Antelo Suárez, E.; X. A. RodrÃguez RÃo (2012) Termos esenciais de > arquitectura de computadores. Santiago de Compostela : Universidade</p> > </sourceDesc> > </fileDesc> > <encodingDesc> > <p type="DCSName">TBXBasicXCSV02.xcs</p> > </encodingDesc> > </martifHeader> > <text> > <body> > <termEntry id="C001"> > <descripGrp> > <descrip type="subjectField">Sistemas de interconexión</descrip> > </descripGrp> > <langSet xml:lang="gl"> > <tig id="C001gl1"> > <term>acceso directo a memoria remota</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > <termNote type="grammaticalGender">masculine</termNote> > </tig> > <tig id="C001gl2"> > <term>RDMA</term> > <termNote type="termType">abbreviation</termNote> > <termNote type="partOfSpeech">other</termNote> > <termNote type="grammaticalGender">masculine</termNote> > </tig> > </langSet> > <langSet xml:lang="es"> > <tig id="C001es1"> > <term>acceso directo a memoria remota</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C001es2"> > <term>RDMA</term> > <termNote type="termType">abbreviation</termNote> > <termNote type="partOfSpeech">other</termNote> > </tig> > </langSet> > <langSet xml:lang="en"> > <tig id="C001en1"> > <term>RDMA</term> > <termNote type="termType">abbreviation</termNote> > <termNote type="partOfSpeech">other</termNote> > </tig> > <tig id="C001en2"> > <term>remote direct memory access</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > </langSet> > </termEntry> > <termEntry id="C002"> > <descripGrp> > <descrip type="subjectField">Procesador. Memoria caché</descrip> > </descripGrp> > <langSet xml:lang="gl"> > <tig id="C002gl1"> > <term>acceso non uniforme a memoria</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > <termNote type="grammaticalGender">masculine</termNote> > </tig> > <tig id="C002gl2"> > <term>arquitectura NUMA</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > <termNote type="grammaticalGender">feminine</termNote> > </tig> > </langSet> > <langSet xml:lang="es"> > <tig id="C002es1"> > <term>acceso no uniforme a memoria</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C002es2"> > <term>arquitectura NUMA</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C002es3"> > <term>NUMA</term> > <termNote type="termType">abbreviation</termNote> > <termNote type="partOfSpeech">other</termNote> > </tig> > </langSet> > <langSet xml:lang="en"> > <tig id="C002en1"> > <term>non-uniform memory access</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C002en2"> > <term>non-uniform memory architecture</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C002en3"> > <term>NUMA</term> > <termNote type="termType">abbreviation</termNote> > <termNote type="partOfSpeech">other</termNote> > </tig> > </langSet> > </termEntry> > <termEntry id="C003"> > <descripGrp> > <descrip type="subjectField">Procesador. Memoria caché</descrip> > </descripGrp> > <langSet xml:lang="gl"> > <tig id="C003gl1"> > <term>acerto de escritura na memoria caché</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > <termNote type="grammaticalGender">masculine</termNote> > </tig> > </langSet> > <langSet xml:lang="es"> > <tig id="C003es1"> > <term>acierto de escritura en la caché</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C003es2"> > <term>acierto de escritura en la memoria caché</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > </langSet> > <langSet xml:lang="en"> > <tig id="C003en1"> > <term>write cache hit</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > </langSet> > </termEntry> > [...] > </body> > </text> > </martif> Agora os comentarios sobre o exemplo. O primeiro que me chama a atención é que parece haber erros de codificación, por exemplo «caché» en vez de «caché». Igual é debido a que pegaches o exemplo no corpo da mensaxe en vez de incluílo como un anexo, pero coméntoo por se acaso, non vaia ser o demo... Segundo, non hai definicións? Sorpréndeme un chisco. Terceiro, cando o termo é unha frase utilízase: <termNote type="termType">fullForm</termNote> <termNote type="partOfSpeech">noun</termNote> cando conviría usar simplemente: <termNote type="termType">phrase</termNote> que creo que é mellor (isto supoñendo TBX-Basic porque en TBX é «phraselogicalUnit» e non «phrase»). Cuarto, creo que non se debería poñer partOfSpeech cando é unha abreviación (aínda que tecnicamente non está mal): <termNote type="termType">abbreviation</termNote> <termNote type="partOfSpeech">other</termNote> Quinto, utilízase a etiqueta descripGrp: <descripGrp> <descrip type="subjectField">Sistemas de interconexión</descrip> </descripGrp> e o certo é que para agrupar unha única etiqueta descrip, pois non é necesario e de feito en TBX-Basic recomendan non facelo así a menos que sexa imprescindible. Ademais evitar a utilización de descripGrp nestes casos reducirá o tamaño o do ficheiro e farao máis lexible. Creo que isto é todo. Antes de que me esqueza, creo que non metín a zoca en nada, pero non o descarto aínda que estiven mirando referencias para comprobar boa parte das cousas que escribín. Deica _______________________________________________ Proxecto mailing list Proxecto@trasno.net http://listas.trasno.net/listinfo/proxecto