> Anzitutto complimenti per Zefiro, lo proverò appena posso No, no, non voglio prendermi meriti che non mi spettano. Io non c'entro nulla con quel progetto, ho solo usato alcuni dei file che ne fanno parte, per i test. > La tokenizzazione dell'italiano ha sicuramente una sua specificità, vista > l'abbondanza e la complessità delle forme clitiche, con le particelle > pronominali ficcate dappertutto, pure nei verbi.
Eh, ma ragioni da linguista, non da statistico ;) La tokenizzazione, nei Transformer models, è ad opera degli algoritmi Byte-Pair Encoding (BPE) [1], WordPiece, Unigram, linguisticamente neutri. In breve, un algoritmo del genere forma dei dizionari composti da un insieme iniziale di unigrammi (ad esempio le lettere dell'alfabeto) seguito da digrammi composti dalle coppie più frequenti e così via, finché non si ottiene un vocabolario delle dimensioni stabilite (32000 nel caso di LLaMA, 50257 di GPT, ecc.). Scorrendo l'elenco del vocabolario di LLaMA saltano fuori token che, a prima vista, ti chiedi dove cavolo sono andati a prenderli, visto che non esistono in nessuna lingua del mondo, ad esempio: pgfscope. Poi cerchi in rete e scopri che è un termine usato da "pgf package", "a TEX macro package", "Inside a picture, you can create nested scopes using pgfscope" [2]. Chissà in quanti documenti TEX hanno ravanato. A. [1] https://arxiv.org/pdf/1508.07909.pdf [2] https://www.cs.cmu.edu/afs/cs/misc/tex/common/teTeX-3.0-distrib/share/texmf/doc/latex/pgf/pgfuserguide.pdf _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa