Re: Unha petición e unha consulta

2012-12-07 Conversa Leandro Regueiro
2012/12/7 Xusto Rodriguez Rio :
> Ola Leandro,
>
> Un millón de grazas pola información e pola revisión do tbx.
>
> Vou ir mirando con calma as ferramentas que me recomendas, a ver se atopo
> algunha que me sexa máis funcional ca que estamos usando (efectivamente, é a
> que está en http://www.ttt.org/tbx).
>
> Terminator xa o coñezo -moi por riba, a verdade-, pero non vexo como
> integrar un traballo xa elaborado (como ocorre neste caso) para facer desde
> aí a exportación a tbx.

O certo é que agora mesmo só admite a importación desde TBX. Xa me
reclamaron insistentemente que poña tamén a importación desde CSV e
heino facer en canto teña algo de tempo libre.

> En relación co da licenza CC, aínda non está decidido cal se vai usar, pero
> probablemente será esta:
> http://creativecommons.org/licenses/by-sa/3.0/deed.gl

Esa licenza sería perfecta para permitir a súa reutilización.

> En relación cos teus comentarios, vou intentar aclarar aquilo que máis ou
> menos entendo (se digo algunha burrada, disimula; se é moi moi grande,
> avísame, vale?) :-)
>
> 1. A codificación.- Cando gardei o ficheiro anterior (un .rtf) como .txt
> para desde aí xerar o .tbx gardeino con codificación UTF-8. E cando vexo o
> tbx co Caderno de notas de Windows os erros que mencionas non aparecen. Iso
> é todo o que che podo dicir.

En todo caso o ficheiro resultante pódese converter a outra
codificación en caso de ser necesario.

> 2. Efectivamente, non hai definicións, como acontece na práctica totalidade
> dos vocabularios que nós elaboramos.

Ah. Vale. Aínda que me segue parecendo raro.v Realmente tería máis
utilidade con definicións.

> 3. As "phrase" e as "phraseologicalUnit".- Non acabo de ter claro que
> "phraseologicalUnit" -e por extensión "phrase" e n tbx-basic- sexa o máis
> acaído para casos como "memoria caché", vista a definición das ISO
> (http://www.isocat.org/rest/dc/339) . Fíxate que di que 'the meaning of
> which frequently cannot be deduced based on the combined sense of the words
> making up the phrase'.

Precisamente polo que di ISO é polo que se debería usar "phrase". Só
con "memoria" ou só con "caché" non se pode entender claramente o
termo, polo menos ata certo punto.

> Se a iso lle sumamos que nos vocabularios do SNL tratamos esas expresións da
> mesma forma ca as palabras simples, optamos por deixalo así.

Eu en caso de dúbida non poñería o termType e vía. Pero sigo pensando
que debería ser "phrase" neses casos.

> 4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
> seguinte mensaxe de erro:
> Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
> processed. See line 11.
> Term C001gl2 is lacking an element necessary for TBX-Basic.
> To make it valid for human use only, add one of:
> a definition (at the language level)
> an example of use in context (at the term level).
> To make it valid for human or machine processing, add its part of
> speech (at the term level).
> See line 11.

Curioso. Pode que sexa un bug no mrc2tbx. Habería que contactar co
desenvolvedor e comentarllo, porque igual o fai así por algunha razón
que descoñezo. Habería que probar ademais a ver se falla se lle pos
definicións e lle quitas o partOfSpeech.

> 5. Etiquetas descripGrp.- Pois a verdade é que non teño nin idea, así que
> vou seguir a túa recomendación e eliminar á man as etiquetas  e
> . Porque é iso o que me estás recomendando, non?

Exactamente.

> Un saúdo e mil grazas outra vez.

De nada.

> Xusto A. Rodríguez
> SNL da USC
>
> -Mensaje original-
> De: Leandro Regueiro [mailto:leandro.regue...@gmail.com]
> Enviado el: mércores, 05 de decembro de 2012 16:15
> Para: proxecto@trasno.net
> Asunto: Re: Unha petición e unha consulta
>
> 2012/12/5 Xusto Rodriguez Rio :
>>
>> Ola,
>
> Ola Xusto.
>
>> Aproveitando que tedes experiencia na publicación de glosarios
>> terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades
>> para xerar os ficheiros .tbx e de que estrutura de datos partides.
>
> Eu adoito empregar diversos métodos, pero moitas veces escribo scripts
> en Python para conversións ad-hoc complicadas. Outras veces só teño
> que converter un ficheiro XML e polo tanto realizo tres ou catro
> substitucións co editor de texto Gedit porque me é moito máis sinxelo.
>
> Ademais disto existe unha ferramenta chamada csv2tbx que forma parte
> do Translate Toolkit e que permite converter ficheiros CSV a formato
> TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit
> non funciona, aínda que non vexo ningún bug relacionado con isto en
> http://bugs.locamotion.org/ nin teño confirmación de primeira man de
> que realmente non funcione.
>
> Outra alternativa é usar
> http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for
> _terminology_mistakes/Create_a_dictionary.htm#Calc
> para converter follas de cálculo desde OpenOffice (e creo que
> LibreOffice tamén) a TBX. Este método proboun

RE: Unha petición e unha consulta

2012-12-07 Conversa Xusto Rodriguez Rio
Ola Leandro, 

Un millón de grazas pola información e pola revisión do tbx. 

Vou ir mirando con calma as ferramentas que me recomendas, a ver se atopo
algunha que me sexa máis funcional ca que estamos usando (efectivamente, é a
que está en http://www.ttt.org/tbx).

Terminator xa o coñezo -moi por riba, a verdade-, pero non vexo como
integrar un traballo xa elaborado (como ocorre neste caso) para facer desde
aí a exportación a tbx.

En relación co da licenza CC, aínda non está decidido cal se vai usar, pero
probablemente será esta:
http://creativecommons.org/licenses/by-sa/3.0/deed.gl


En relación cos teus comentarios, vou intentar aclarar aquilo que máis ou
menos entendo (se digo algunha burrada, disimula; se é moi moi grande,
avísame, vale?) :-)

1. A codificación.- Cando gardei o ficheiro anterior (un .rtf) como .txt
para desde aí xerar o .tbx gardeino con codificación UTF-8. E cando vexo o
tbx co Caderno de notas de Windows os erros que mencionas non aparecen. Iso
é todo o que che podo dicir.

2. Efectivamente, non hai definicións, como acontece na práctica totalidade
dos vocabularios que nós elaboramos.

3. As "phrase" e as "phraseologicalUnit".- Non acabo de ter claro que
"phraseologicalUnit" -e por extensión "phrase" e n tbx-basic- sexa o máis
acaído para casos como "memoria caché", vista a definición das ISO
(http://www.isocat.org/rest/dc/339) . Fíxate que di que 'the meaning of
which frequently cannot be deduced based on the combined sense of the words
making up the phrase'.
Se a iso lle sumamos que nos vocabularios do SNL tratamos esas expresións da
mesma forma ca as palabras simples, optamos por deixalo así.

4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
seguinte mensaxe de erro:
Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
processed. See line 11.
Term C001gl2 is lacking an element necessary for TBX-Basic.
To make it valid for human use only, add one of:
a definition (at the language level)
an example of use in context (at the term level).
To make it valid for human or machine processing, add its part of
speech (at the term level).
See line 11.

5. Etiquetas descripGrp.- Pois a verdade é que non teño nin idea, así que
vou seguir a túa recomendación e eliminar á man as etiquetas  e
. Porque é iso o que me estás recomendando, non?

Un saúdo e mil grazas outra vez.


Xusto A. Rodríguez
SNL da USC

-Mensaje original-
De: Leandro Regueiro [mailto:leandro.regue...@gmail.com] 
Enviado el: mércores, 05 de decembro de 2012 16:15
Para: proxecto@trasno.net
Asunto: Re: Unha petición e unha consulta

2012/12/5 Xusto Rodriguez Rio :
>
> Ola,

Ola Xusto.

> Aproveitando que tedes experiencia na publicación de glosarios
> terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades
> para xerar os ficheiros .tbx e de que estrutura de datos partides.

Eu adoito empregar diversos métodos, pero moitas veces escribo scripts
en Python para conversións ad-hoc complicadas. Outras veces só teño
que converter un ficheiro XML e polo tanto realizo tres ou catro
substitucións co editor de texto Gedit porque me é moito máis sinxelo.

Ademais disto existe unha ferramenta chamada csv2tbx que forma parte
do Translate Toolkit e que permite converter ficheiros CSV a formato
TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit
non funciona, aínda que non vexo ningún bug relacionado con isto en
http://bugs.locamotion.org/ nin teño confirmación de primeira man de
que realmente non funcione.

Outra alternativa é usar
http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for
_terminology_mistakes/Create_a_dictionary.htm#Calc
para converter follas de cálculo desde OpenOffice (e creo que
LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo
me consta) e funciona, aínda que polo visto é necesario realizar
algunhas modificacións posteriores a man no ficheiro xerado para que
funcione con ferramentas como Virtaal.

Para realizar comprobacións sobre ficheiros TBX e ver se realmente
cumpren a especificación pódese utilizar TBXChecker
http://sourceforge.net/projects/tbxutil/

E claro, tamén utilizo o Terminator, unha ferramenta web para a
xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros
TBX correctos baixo demanda. A ferramenta segue en desenvolvemento
activo e espero que nos vindeiros meses reciba diversas melloras,
aínda que agora xa é funcional. O código está dispoñible en
http://gitorious.org/terminator Ademais hai unha instancia en
funcionamento en http://terminator.trasno.net/

> Isto vén a conto de que nas vindeiras semanas imos editar uns "Termos
> básicos de arquitectura de computadores" (676 conceptos) e queriamos
> difundilo baixo licenza Creative Commons e en formatos .pdf e tbx.

Que licenza Creative Commons exactamente?

> Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato
> tbx-basic, e agradeceríavos que lle bota