Grazie mille per la segnalazione

AB

Il giorno lun 15 lug 2024 alle ore 12:15 Guido Vetere <
vetere.gu...@gmail.com> ha scritto:

> Nexiane e nexiani,
>
> l'Università di Milano-Bicocca ha avuto l'idea di ricavare un benchmark
> dalle prove INVALSI per valutare come se la cavano i language model con
> italiano.
> Ne hanno poi fatto una leaderboard Huggingface che è consultabile qui
> <https://huggingface.co/spaces/Crisp-Unimib/INVALSIbenchmark>.
> Tra i modelli XXL vince claude-sonnet per distacco, ma la cosa
> interessante è filtrare i modelli per dimensione e 'apertura' (nel senso
> del LLM, per cortesia non ricominciamo)
> Tra i modelli aperti di taglia small gemma2 (DeepMind) svetta sulla
> concorrenza.
> I modelli 'italianissimi' annunciati e propagandati nei mesi scorsi cadono
> in fondo alla classifica.
> Se la cavano abbastanza bene i fine-tune di LLama3
> Modello Italia, su cui tanti e tante aveva messo la faccia, era anch'esso
> in fondo alla leaderboard e ora pare sia stato ritirato.
> Naturalmente, su questo non c'è da aspettarsi alcuna intervista su Wired
> :-)
>
> Buona giornata,
> G.
>
>

Reply via email to