Anzitutto complimenti per Zefiro, lo proverò appena posso

La tokenizzazione dell'italiano ha sicuramente una sua specificità, vista
l'abbondanza e la complessità delle forme clitiche, con le particelle
pronominali ficcate dapertutto, pure nei vebi.
Non so se il 'Modello Italia' adotti un tokenizzatore 'custom' o vada in
cerca di questi token (molto 'attenzionabili') con euristiche
'spannometriche'.
Di sicuro non potranno esserci effetti di 'transfer learning' da lingue
morfologicamente simili, come lo spagnolo.
Da questo originano le mie perplessità, ma naturalmente spero di essere
smentito.

G.

On Tue, 19 Mar 2024 at 19:50, Antonio <anto...@piumarossa.it> wrote:

> > fare un LLM competitivo con dataset limitati (solo italiano, no
> copyright,
> > no bias, etc) mi sembra una cosa tecnicamente improbabile ...
>
> Per quanto riguarda la lingua non sono d'accordo.
> Un foundation model in italiano sarebbe molto più efficiente, sia in fase
> di training che in inference.
> A cominciare dal tokenizer, meno token si usano per una parola, più è
> efficiente l'LLM.
> I termini inglesi hanno in media, rispetto ai corrispondenti italiani, uno
> o due caratteri in meno.
> Il tokenizer, e qui sta il maggiore spreco, è stato "composto" con i token
> più diffusi, per lo più termini inglesi.
> Per dire, la parola "misunderstanding" di ben 16 caratteri, viene
> "spezzata" in soli 3 token: mis-under-standing
> La parola "trasgredirebbero", sempre di 16, ne richiederebbe invece ben
> otto, tr-as-g-red-ire-b-ber-o.
> Ho testato il tokenizer del progetto Zefiro [1]. Qui [2] il file.
> Ebbene, su 32000 token, solo 831 hanno un "senso" in italiano. Uno
> "spreco" del 97,4%.
>
> A.
>
> [1] https://huggingface.co/giux78/zefiro-7b-beta-ITA-v0.1
> [2]
> https://huggingface.co/giux78/zefiro-7b-beta-ITA-v0.1/raw/main/tokenizer.json
>
>
> _______________________________________________
> nexa mailing list
> nexa@server-nexa.polito.it
> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
>
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to