Re: Unha petición e unha consulta

2012-12-11 Conversa Leandro Regueiro
2012/12/11 Xusto Rodriguez Rio :
> Esa era máis ou menos a conclusión á que eu chegara: partOfSpeech, si ou si.

Sinceramente non lle vexo sentido, pero non vou discutir que non sexa así.

Deica

> Xusto A. Rodríguez
> SNL da USC
>
> -Mensaje original-
> De: mvillarino [mailto:mvillar...@kde-espana.es]
> Enviado el: luns, 10 de decembro de 2012 13:51
> Para: proxecto@trasno.net
> Asunto: Re: Unha petición e unha consulta
>
>>> 4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
>>> seguinte mensaxe de erro:
>>> Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
>>> processed. See line 11.
>>> Term C001gl2 is lacking an element necessary for TBX-Basic.
>>> To make it valid for human use only, add one of:
>>> a definition (at the language level)
>>> an example of use in context (at the term level).
>>> To make it valid for human or machine processing, add its part of
>>> speech (at the term level).
>>> See line 11.
>>
>> Curioso. Pode que sexa un bug no mrc2tbx. Habería que contactar co
>> desenvolvedor e comentarllo, porque igual o fai así por algunha razón
>> que descoñezo. Habería que probar ademais a ver se falla se lle pos
>> definicións e lle quitas o partOfSpeech.
>
> Nunha das ligazóns que dades pode descargarse un .zip que contén un
> documento coa especificación do Tbx-basic en formato pdf.
> Nese ficheiro dise literalmente
> «
> 7. Compliance
> A terminology resource (database, file, or repository) is compliant
> with TBX-Basic if it meets all of the followingconditions:
> [...]
> [...]
> [...]
> [...]
> ●Each entry contains at least one language section ( xml:lang='xx-XX'>) and at least one Term()
> ●One of the following conditions has been met:
> ○If the resource is intended to be submitted to any form of machine
> processing (see definition below), eachterm level () has a Part
> of speech explicitly indicated through a 
> element.
> ○If the resource is only intended for human consultation, the Part of
> speech may be omitted if either aDefinition or a Context is provided.
> »
>
> Logo se o ficheiro que queredes producir está destinado a uso por
> humanos, e os termos non conteñen definicións, deben necesariamente
> conter o campo "partOfSpeech". Se por contra o ficheiro está destinado
> a ser usado programaticamente, debe necesariamente conter o
> "partOfSpeech".
>
> A consecuencia prática é que hai que meter un partOfSpeech por collós,
> dado que see lle pós definicións e lle quitas o partOfSpeech,
> legalmente calquera ferramenta de TAO pode non cargar o ficheiro
> porque si.
>
>
> ___
> Proxecto mailing list
> Proxecto@trasno.net
> http://listas.trasno.net/listinfo/proxecto
___
Proxecto mailing list
Proxecto@trasno.net
http://listas.trasno.net/listinfo/proxecto


RE: Unha petición e unha consulta

2012-12-11 Conversa Xusto Rodriguez Rio
Esa era máis ou menos a conclusión á que eu chegara: partOfSpeech, si ou si. 


Xusto A. Rodríguez
SNL da USC

-Mensaje original-
De: mvillarino [mailto:mvillar...@kde-espana.es] 
Enviado el: luns, 10 de decembro de 2012 13:51
Para: proxecto@trasno.net
Asunto: Re: Unha petición e unha consulta

>> 4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
>> seguinte mensaxe de erro:
>> Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
>> processed. See line 11.
>> Term C001gl2 is lacking an element necessary for TBX-Basic.
>> To make it valid for human use only, add one of:
>> a definition (at the language level)
>> an example of use in context (at the term level).
>> To make it valid for human or machine processing, add its part of
>> speech (at the term level).
>> See line 11.
>
> Curioso. Pode que sexa un bug no mrc2tbx. Habería que contactar co
> desenvolvedor e comentarllo, porque igual o fai así por algunha razón
> que descoñezo. Habería que probar ademais a ver se falla se lle pos
> definicións e lle quitas o partOfSpeech.

Nunha das ligazóns que dades pode descargarse un .zip que contén un
documento coa especificación do Tbx-basic en formato pdf.
Nese ficheiro dise literalmente
«
7. Compliance
A terminology resource (database, file, or repository) is compliant
with TBX-Basic if it meets all of the followingconditions:
[...]
[...]
[...]
[...]
●Each entry contains at least one language section () and at least one Term()
●One of the following conditions has been met:
○If the resource is intended to be submitted to any form of machine
processing (see definition below), eachterm level () has a Part
of speech explicitly indicated through a 
element.
○If the resource is only intended for human consultation, the Part of
speech may be omitted if either aDefinition or a Context is provided.
»

Logo se o ficheiro que queredes producir está destinado a uso por
humanos, e os termos non conteñen definicións, deben necesariamente
conter o campo "partOfSpeech". Se por contra o ficheiro está destinado
a ser usado programaticamente, debe necesariamente conter o
"partOfSpeech".

A consecuencia prática é que hai que meter un partOfSpeech por collós,
dado que see lle pós definicións e lle quitas o partOfSpeech,
legalmente calquera ferramenta de TAO pode non cargar o ficheiro
porque si.


___
Proxecto mailing list
Proxecto@trasno.net
http://listas.trasno.net/listinfo/proxecto


Re: Unha petición e unha consulta

2012-12-10 Conversa mvillarino
>> 4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
>> seguinte mensaxe de erro:
>> Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
>> processed. See line 11.
>> Term C001gl2 is lacking an element necessary for TBX-Basic.
>> To make it valid for human use only, add one of:
>> a definition (at the language level)
>> an example of use in context (at the term level).
>> To make it valid for human or machine processing, add its part of
>> speech (at the term level).
>> See line 11.
>
> Curioso. Pode que sexa un bug no mrc2tbx. Habería que contactar co
> desenvolvedor e comentarllo, porque igual o fai así por algunha razón
> que descoñezo. Habería que probar ademais a ver se falla se lle pos
> definicións e lle quitas o partOfSpeech.

Nunha das ligazóns que dades pode descargarse un .zip que contén un
documento coa especificación do Tbx-basic en formato pdf.
Nese ficheiro dise literalmente
«
7. Compliance
A terminology resource (database, file, or repository) is compliant
with TBX-Basic if it meets all of the followingconditions:
[...]
[...]
[...]
[...]
●Each entry contains at least one language section () and at least one Term()
●One of the following conditions has been met:
○If the resource is intended to be submitted to any form of machine
processing (see definition below), eachterm level () has a Part
of speech explicitly indicated through a 
element.
○If the resource is only intended for human consultation, the Part of
speech may be omitted if either aDefinition or a Context is provided.
»

Logo se o ficheiro que queredes producir está destinado a uso por
humanos, e os termos non conteñen definicións, deben necesariamente
conter o campo "partOfSpeech". Se por contra o ficheiro está destinado
a ser usado programaticamente, debe necesariamente conter o
"partOfSpeech".

A consecuencia prática é que hai que meter un partOfSpeech por collós,
dado que see lle pós definicións e lle quitas o partOfSpeech,
legalmente calquera ferramenta de TAO pode non cargar o ficheiro
porque si.
___
Proxecto mailing list
Proxecto@trasno.net
http://listas.trasno.net/listinfo/proxecto


Re: Unha petición e unha consulta

2012-12-07 Conversa Leandro Regueiro
2012/12/7 Xusto Rodriguez Rio :
> Ola Leandro,
>
> Un millón de grazas pola información e pola revisión do tbx.
>
> Vou ir mirando con calma as ferramentas que me recomendas, a ver se atopo
> algunha que me sexa máis funcional ca que estamos usando (efectivamente, é a
> que está en http://www.ttt.org/tbx).
>
> Terminator xa o coñezo -moi por riba, a verdade-, pero non vexo como
> integrar un traballo xa elaborado (como ocorre neste caso) para facer desde
> aí a exportación a tbx.

O certo é que agora mesmo só admite a importación desde TBX. Xa me
reclamaron insistentemente que poña tamén a importación desde CSV e
heino facer en canto teña algo de tempo libre.

> En relación co da licenza CC, aínda non está decidido cal se vai usar, pero
> probablemente será esta:
> http://creativecommons.org/licenses/by-sa/3.0/deed.gl

Esa licenza sería perfecta para permitir a súa reutilización.

> En relación cos teus comentarios, vou intentar aclarar aquilo que máis ou
> menos entendo (se digo algunha burrada, disimula; se é moi moi grande,
> avísame, vale?) :-)
>
> 1. A codificación.- Cando gardei o ficheiro anterior (un .rtf) como .txt
> para desde aí xerar o .tbx gardeino con codificación UTF-8. E cando vexo o
> tbx co Caderno de notas de Windows os erros que mencionas non aparecen. Iso
> é todo o que che podo dicir.

En todo caso o ficheiro resultante pódese converter a outra
codificación en caso de ser necesario.

> 2. Efectivamente, non hai definicións, como acontece na práctica totalidade
> dos vocabularios que nós elaboramos.

Ah. Vale. Aínda que me segue parecendo raro.v Realmente tería máis
utilidade con definicións.

> 3. As "phrase" e as "phraseologicalUnit".- Non acabo de ter claro que
> "phraseologicalUnit" -e por extensión "phrase" e n tbx-basic- sexa o máis
> acaído para casos como "memoria caché", vista a definición das ISO
> (http://www.isocat.org/rest/dc/339) . Fíxate que di que 'the meaning of
> which frequently cannot be deduced based on the combined sense of the words
> making up the phrase'.

Precisamente polo que di ISO é polo que se debería usar "phrase". Só
con "memoria" ou só con "caché" non se pode entender claramente o
termo, polo menos ata certo punto.

> Se a iso lle sumamos que nos vocabularios do SNL tratamos esas expresións da
> mesma forma ca as palabras simples, optamos por deixalo así.

Eu en caso de dúbida non poñería o termType e vía. Pero sigo pensando
que debería ser "phrase" neses casos.

> 4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
> seguinte mensaxe de erro:
> Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
> processed. See line 11.
> Term C001gl2 is lacking an element necessary for TBX-Basic.
> To make it valid for human use only, add one of:
> a definition (at the language level)
> an example of use in context (at the term level).
> To make it valid for human or machine processing, add its part of
> speech (at the term level).
> See line 11.

Curioso. Pode que sexa un bug no mrc2tbx. Habería que contactar co
desenvolvedor e comentarllo, porque igual o fai así por algunha razón
que descoñezo. Habería que probar ademais a ver se falla se lle pos
definicións e lle quitas o partOfSpeech.

> 5. Etiquetas descripGrp.- Pois a verdade é que non teño nin idea, así que
> vou seguir a túa recomendación e eliminar á man as etiquetas  e
> . Porque é iso o que me estás recomendando, non?

Exactamente.

> Un saúdo e mil grazas outra vez.

De nada.

> Xusto A. Rodríguez
> SNL da USC
>
> -Mensaje original-
> De: Leandro Regueiro [mailto:leandro.regue...@gmail.com]
> Enviado el: mércores, 05 de decembro de 2012 16:15
> Para: proxecto@trasno.net
> Asunto: Re: Unha petición e unha consulta
>
> 2012/12/5 Xusto Rodriguez Rio :
>>
>> Ola,
>
> Ola Xusto.
>
>> Aproveitando que tedes experiencia na publicación de glosarios
>> terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades
>> para xerar os ficheiros .tbx e de que estrutura de datos partides.
>
> Eu adoito empregar diversos métodos, pero moitas veces escribo scripts
> en Python para conversións ad-hoc complicadas. Outras veces só teño
> que converter un ficheiro XML e polo tanto realizo tres ou catro
> substitucións co editor de texto Gedit porque me é moito máis sinxelo.
>
> Ademais disto existe unha ferramenta chamada csv2tbx que forma parte
> do Translate Toolkit e que permite converter ficheiros CSV a formato
> TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit
> non funciona, aínda que non vexo ningún bug relacionado con isto en
> http://bug

RE: Unha petición e unha consulta

2012-12-07 Conversa Xusto Rodriguez Rio
Ola Leandro, 

Un millón de grazas pola información e pola revisión do tbx. 

Vou ir mirando con calma as ferramentas que me recomendas, a ver se atopo
algunha que me sexa máis funcional ca que estamos usando (efectivamente, é a
que está en http://www.ttt.org/tbx).

Terminator xa o coñezo -moi por riba, a verdade-, pero non vexo como
integrar un traballo xa elaborado (como ocorre neste caso) para facer desde
aí a exportación a tbx.

En relación co da licenza CC, aínda non está decidido cal se vai usar, pero
probablemente será esta:
http://creativecommons.org/licenses/by-sa/3.0/deed.gl


En relación cos teus comentarios, vou intentar aclarar aquilo que máis ou
menos entendo (se digo algunha burrada, disimula; se é moi moi grande,
avísame, vale?) :-)

1. A codificación.- Cando gardei o ficheiro anterior (un .rtf) como .txt
para desde aí xerar o .tbx gardeino con codificación UTF-8. E cando vexo o
tbx co Caderno de notas de Windows os erros que mencionas non aparecen. Iso
é todo o que che podo dicir.

2. Efectivamente, non hai definicións, como acontece na práctica totalidade
dos vocabularios que nós elaboramos.

3. As "phrase" e as "phraseologicalUnit".- Non acabo de ter claro que
"phraseologicalUnit" -e por extensión "phrase" e n tbx-basic- sexa o máis
acaído para casos como "memoria caché", vista a definición das ISO
(http://www.isocat.org/rest/dc/339) . Fíxate que di que 'the meaning of
which frequently cannot be deduced based on the combined sense of the words
making up the phrase'.
Se a iso lle sumamos que nos vocabularios do SNL tratamos esas expresións da
mesma forma ca as palabras simples, optamos por deixalo así.

4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
seguinte mensaxe de erro:
Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
processed. See line 11.
Term C001gl2 is lacking an element necessary for TBX-Basic.
To make it valid for human use only, add one of:
a definition (at the language level)
an example of use in context (at the term level).
To make it valid for human or machine processing, add its part of
speech (at the term level).
See line 11.

5. Etiquetas descripGrp.- Pois a verdade é que non teño nin idea, así que
vou seguir a túa recomendación e eliminar á man as etiquetas  e
. Porque é iso o que me estás recomendando, non?

Un saúdo e mil grazas outra vez.


Xusto A. Rodríguez
SNL da USC

-Mensaje original-
De: Leandro Regueiro [mailto:leandro.regue...@gmail.com] 
Enviado el: mércores, 05 de decembro de 2012 16:15
Para: proxecto@trasno.net
Asunto: Re: Unha petición e unha consulta

2012/12/5 Xusto Rodriguez Rio :
>
> Ola,

Ola Xusto.

> Aproveitando que tedes experiencia na publicación de glosarios
> terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades
> para xerar os ficheiros .tbx e de que estrutura de datos partides.

Eu adoito empregar diversos métodos, pero moitas veces escribo scripts
en Python para conversións ad-hoc complicadas. Outras veces só teño
que converter un ficheiro XML e polo tanto realizo tres ou catro
substitucións co editor de texto Gedit porque me é moito máis sinxelo.

Ademais disto existe unha ferramenta chamada csv2tbx que forma parte
do Translate Toolkit e que permite converter ficheiros CSV a formato
TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit
non funciona, aínda que non vexo ningún bug relacionado con isto en
http://bugs.locamotion.org/ nin teño confirmación de primeira man de
que realmente non funcione.

Outra alternativa é usar
http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for
_terminology_mistakes/Create_a_dictionary.htm#Calc
para converter follas de cálculo desde OpenOffice (e creo que
LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo
me consta) e funciona, aínda que polo visto é necesario realizar
algunhas modificacións posteriores a man no ficheiro xerado para que
funcione con ferramentas como Virtaal.

Para realizar comprobacións sobre ficheiros TBX e ver se realmente
cumpren a especificación pódese utilizar TBXChecker
http://sourceforge.net/projects/tbxutil/

E claro, tamén utilizo o Terminator, unha ferramenta web para a
xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros
TBX correctos baixo demanda. A ferramenta segue en desenvolvemento
activo e espero que nos vindeiros meses reciba diversas melloras,
aínda que agora xa é funcional. O código está dispoñible en
http://gitorious.org/terminator Ademais hai unha instancia en
funcionamento en http://terminator.trasno.net/

> Isto vén a conto de que nas vindeiras semanas imos editar uns "Termos
> básicos de arquitectura de computadores" (676 conceptos) e queriamos
> difundilo baixo licenza Creative Commons e en formatos .pdf e tbx.

Que licenza Creative Commons exactamente?

> Us

Re: Unha petición e unha consulta

2012-12-05 Conversa Leandro Regueiro
2012/12/5 Xusto Rodriguez Rio :
>
> Ola,

Ola Xusto.

> Aproveitando que tedes experiencia na publicación de glosarios
> terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades
> para xerar os ficheiros .tbx e de que estrutura de datos partides.

Eu adoito empregar diversos métodos, pero moitas veces escribo scripts
en Python para conversións ad-hoc complicadas. Outras veces só teño
que converter un ficheiro XML e polo tanto realizo tres ou catro
substitucións co editor de texto Gedit porque me é moito máis sinxelo.

Ademais disto existe unha ferramenta chamada csv2tbx que forma parte
do Translate Toolkit e que permite converter ficheiros CSV a formato
TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit
non funciona, aínda que non vexo ningún bug relacionado con isto en
http://bugs.locamotion.org/ nin teño confirmación de primeira man de
que realmente non funcione.

Outra alternativa é usar
http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for_terminology_mistakes/Create_a_dictionary.htm#Calc
para converter follas de cálculo desde OpenOffice (e creo que
LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo
me consta) e funciona, aínda que polo visto é necesario realizar
algunhas modificacións posteriores a man no ficheiro xerado para que
funcione con ferramentas como Virtaal.

Para realizar comprobacións sobre ficheiros TBX e ver se realmente
cumpren a especificación pódese utilizar TBXChecker
http://sourceforge.net/projects/tbxutil/

E claro, tamén utilizo o Terminator, unha ferramenta web para a
xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros
TBX correctos baixo demanda. A ferramenta segue en desenvolvemento
activo e espero que nos vindeiros meses reciba diversas melloras,
aínda que agora xa é funcional. O código está dispoñible en
http://gitorious.org/terminator Ademais hai unha instancia en
funcionamento en http://terminator.trasno.net/

> Isto vén a conto de que nas vindeiras semanas imos editar uns "Termos
> básicos de arquitectura de computadores" (676 conceptos) e queriamos
> difundilo baixo licenza Creative Commons e en formatos .pdf e tbx.

Que licenza Creative Commons exactamente?

> Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato
> tbx-basic, e agradeceríavos que lle botarades un ollo a unha mostra do
> ficheiro (engádoa a seguir) e me dixésedes se lle vedes algún erro
> relevante.

Descoñecía esa ferramenta. É a ferramenta da que falan en
http://www.ttt.org/tbx ou vén sendo outra?

Poño os comentarios que teño sobre a mostra do ficheiro ao final da mensaxe.

> Mil grazas

A ti.

> Xusto
> SNL da USC
>
> ---Mostra do ficheiro tbx---
>
> 
> 
> 
> 
> 
> 
> termbase from MRC file
> 
> 
> generated by mrc2tbx version 3.3
> 
> 
> Antelo Suárez, E.; X. A. Rodríguez Río (2012) Termos esenciais de
> arquitectura de computadores. Santiago de Compostela : Universidade
> 
> 
> 
> TBXBasicXCSV02.xcs
> 
> 
> 
> 
> 
> 
> Sistemas de interconexión
> 
> 
> 
> acceso directo a memoria remota
> fullForm
> noun
> masculine
> 
> 
> RDMA
> abbreviation
> other
> masculine
> 
> 
> 
> 
> acceso directo a memoria remota
> fullForm
> noun
> 
> 
> RDMA
> abbreviation
> other
> 
> 
> 
> 
> RDMA
> abbreviation
> other
> 
> 
> remote direct memory access
> fullForm
> noun
> 
> 
> 
> 
> 
> Procesador. Memoria caché
> 
> 
> 
> acceso non uniforme a memoria
> fullForm
> noun
> masculine
> 
> 
> arquitectura NUMA
> fullForm
> noun
> feminine
> 
> 
> 
> 
> acceso no uniforme a memoria
> fullForm
> noun
> 
> 
> arquitectura NUMA
> fullForm
> noun
> 
> 
> NUMA
> abbreviation
> other
> 
> 
> 
> 
> non-uniform memory access
> fullForm
> noun
> 
> 
> non-uniform memory architecture
> fullForm
> noun
> 
> 
> NUMA
> abbreviation
> other
> 
> 
> 
> 
> 
> Procesador. Memoria caché
> 
> 
> 
> acerto de escritura na memoria caché
> fullForm
> noun
> masculine
> 
> 
> 
> 
> acierto de escritura en la caché
> fullForm
> noun
> 
> 
> acierto de escritura en la memoria caché
> fullForm
> noun
> 
> 
> 
> 
> write cache hit
> fullForm
> noun
> 
> 
> 
> [...]
> 
> 
> 

Agora os comentarios sobre o exemplo.

O primeiro que me chama a atención é que parece haber erros de
codificación, por exemplo «caché» en vez de «caché». Igual é debido a
que pegaches o exemplo no corpo da mensaxe en vez de incluílo como un
anexo, pero coméntoo por se acaso, non vaia ser o demo...

Segundo, non hai definicións? Sorpréndeme un chisco.

Terceiro, cando o termo é unha frase utilízase:

fullForm
noun

cando conviría usar simplemente:

phrase

que creo que é mellor (isto supoñendo TBX-Basic porque en TBX é
«phraselogicalUnit» e non «phrase»).

Cuarto, creo que non se debería poñer partOfSpeech cando é unha
abreviación (aínda que tecnicamente non está mal):

abbreviation
other

Quinto, utilízase a etiqueta descripGrp:


Sistemas de interconexión


e o certo é que para agrupar unha única etiqueta