Olá a todos, Tentarei responder à tua pergunta.
Por um lado, em muitas aplicaçoes precisamos saber para as palavras qual é a sua forma original sem estar flexionadas, isto é saber qual é o lema. Existem duas aproximaçoes: 1. Usar stemmers. Sao algoritmos (como por exemplo o Algoritmo de Porter) que obtêm a raíz automaticamente. Funcionam bem para línguas sem demasiadas derivaçoes morfológicas, por exemplo o inglês. Para o caso de línguas românicas e já nao digamos para o caso de línguas eslavas esta soluçao nao é muito efetiva. 2. Usar lematizadores. Obtêm o lema das palavras a partir de dicionários ad hoc. Vantagens? Funcionam bem para línguas com riqueza morfológica. Inconvenientes? Quanto menos grande seja o dicionário menos palavras lematizará. Poderiamos fazer heurísticas para lematizar automaticamente palavras que nao tem o dicionário, mas tem taxa de erro bastante alta. Por outro lado, em muitas aplicaçoes precisamos saber qual exatamente a categoría morfológica duma palavra num determinado lugar do texto para além do lema. Para isso existem os Desambiguadores como Freeling ou Treetagger: aprendem a partir dum corpus etiquetado manualmente quais sao as probabilidades de que uma palavra tenha uma categoria determinada. Devolvem o lema e também a categoría gramatical dessa palavra nesse lugar do texto. Existe o Treetagger para português e o galego ILG-RAG, e o Freeling (licença LGPL) tem também versoes para o galego ILG-RAG, ou a lttoolbox da plataforma de traduçao Opentrad, no matxin também verás um lematizador-desambiguador mas centrado para o euskera. Espero que isto che valha Um saúdo e boas férias José Ramom Pichel