[G11n] Sobre lematizadores e stemmers para o galego ILG-RAG

jramompic...@imaxin.com Thu, 6 Aug 2009 13:41:21 +0200 (CEST)

Olá a todos,

Tentarei responder à tua pergunta.


Por um lado, em muitas aplicaçoes precisamos saber para as palavras qual é
a sua forma original sem estar flexionadas, isto é saber qual é o lema.

Existem duas aproximaçoes:

1. Usar stemmers. Sao algoritmos (como por exemplo o Algoritmo de Porter)
que obtêm a raíz automaticamente. Funcionam bem para línguas sem
demasiadas derivaçoes morfológicas, por exemplo o inglês. Para o caso de
línguas românicas e já nao digamos para o caso de línguas eslavas esta
soluçao nao é muito efetiva.

2. Usar lematizadores. Obtêm o lema das palavras a partir de dicionários
ad hoc. Vantagens? Funcionam bem para línguas com riqueza morfológica.
Inconvenientes? Quanto menos grande seja o dicionário menos palavras
lematizará. Poderiamos fazer heurísticas para lematizar automaticamente
palavras que nao tem o dicionário, mas tem taxa de erro bastante alta.

Por outro lado, em muitas aplicaçoes precisamos saber qual exatamente a
categoría morfológica duma palavra num determinado lugar do texto para
além do lema.

Para isso existem os Desambiguadores como Freeling ou Treetagger: aprendem
a partir dum corpus etiquetado manualmente quais sao as probabilidades de
que uma palavra tenha uma categoria determinada. Devolvem o lema e também
a categoría gramatical dessa palavra nesse lugar do texto.

Existe o Treetagger para português e o galego ILG-RAG, e o Freeling
(licença LGPL) tem também versoes para o galego ILG-RAG, ou a lttoolbox da
plataforma de traduçao Opentrad, no matxin também verás um
lematizador-desambiguador mas centrado para o euskera.

Espero que isto che valha

Um saúdo e boas férias
José Ramom Pichel

[G11n] Sobre lematizadores e stemmers para o galego ILG-RAG

Responderlle a