Nexiane e nexiani, l'Università di Milano-Bicocca ha avuto l'idea di ricavare un benchmark dalle prove INVALSI per valutare come se la cavano i language model con italiano. Ne hanno poi fatto una leaderboard Huggingface che è consultabile qui <https://huggingface.co/spaces/Crisp-Unimib/INVALSIbenchmark>. Tra i modelli XXL vince claude-sonnet per distacco, ma la cosa interessante è filtrare i modelli per dimensione e 'apertura' (nel senso del LLM, per cortesia non ricominciamo) Tra i modelli aperti di taglia small gemma2 (DeepMind) svetta sulla concorrenza. I modelli 'italianissimi' annunciati e propagandati nei mesi scorsi cadono in fondo alla classifica. Se la cavano abbastanza bene i fine-tune di LLama3 Modello Italia, su cui tanti e tante aveva messo la faccia, era anch'esso in fondo alla leaderboard e ora pare sia stato ritirato. Naturalmente, su questo non c'è da aspettarsi alcuna intervista su Wired :-)
Buona giornata, G.