Es pot utilitzar les frases que vaig extreure de la Viquipèdia com a corpus
a desambiguar. Tenint en compte que els traductors s'utilitzen molt per a
documents de l'administració, crec que el corpus també hauria de contenir
documents administratius (eventualment, de diferents administracions).
Pens
Hola,
Per entrenar el tagger, independentment de la tecnologia que s'utilitzi per
fer-ho, el que cal és un corpus monolingüe. Després cal analitzar-lo amb
Apertium per dividir-lo en unitats lèxiques segons el diccionari d'Apertium
i trobar les unitats lèxiques ambigües, i fer una desambiguació man
Moltes gràcies, Xavi. Molt interessant.
El problema del tagger (assignar probabilitats diferents a principi de
frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si no
continuarem exposats al mateix risc. Quan comença una frase nova, hauria de
començar sempre igual. No té sentit