> Anzitutto complimenti per Zefiro, lo proverò appena posso

No, no, non voglio prendermi meriti che non mi spettano.
Io non c'entro nulla con quel progetto, ho solo usato alcuni dei file che ne 
fanno parte, per i test.
 
> La tokenizzazione dell'italiano ha sicuramente una sua specificità, vista
> l'abbondanza e la complessità delle forme clitiche, con le particelle
> pronominali ficcate dappertutto, pure nei verbi.

Eh, ma ragioni da linguista, non da statistico ;)
La tokenizzazione, nei Transformer models, è ad opera degli algoritmi Byte-Pair 
Encoding (BPE) [1], WordPiece, Unigram, linguisticamente neutri.
In breve, un algoritmo del genere forma dei dizionari composti da un insieme 
iniziale di unigrammi (ad esempio le lettere dell'alfabeto) seguito da digrammi 
composti dalle coppie più frequenti e così via, finché non si ottiene un 
vocabolario delle dimensioni stabilite (32000 nel caso di LLaMA, 50257 di GPT, 
ecc.).
Scorrendo l'elenco del vocabolario di LLaMA saltano fuori token che, a prima 
vista, ti chiedi dove cavolo sono andati a prenderli, visto che non esistono in 
nessuna lingua del mondo, ad esempio: pgfscope.
Poi cerchi in rete e scopri che è un termine usato da "pgf package", "a TEX 
macro package", "Inside a picture, you can create nested scopes using pgfscope" 
[2]. Chissà in quanti documenti TEX hanno ravanato.

A.

[1] https://arxiv.org/pdf/1508.07909.pdf
[2] 
https://www.cs.cmu.edu/afs/cs/misc/tex/common/teTeX-3.0-distrib/share/texmf/doc/latex/pgf/pgfuserguide.pdf
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to