OSCAR è un dump di CommonCrawl, contiene circa 230 GB di italiano non
filtrato, e se non lo filtri prima (e non lo educhi poi), sul fondo della
tazza del tuo LLM compare la figura di Vannacci, come è stato per Minerva
<https://ilmanifesto.it/minerva-lia-italiana-al-bivio-tra-vannacci-e-manzoni>
.
Paisà lo lascerei perdere, varca appena il giga e il formato CoNLL mostra
chiaramente che fu fatto ai suoi tempi per altri scopi.
Wikisource ok: ma sono pochi giga di roba un po' datata.
Insomma, con quello che c'è adesso dobbiamo accontentarci di modelli
piccoli, 3-5 GB, il che non è detto che sia un male (si sposta il carico
verso il fine-tuning, cioè verso 'il basso').
Tuttavia, non mi è ancora chiaro il vantaggio tecnico dell'approccio
monolinguistico, a meno di non voler fare un discorso di 'purezza dei
contenuti' che però potrebbe somigliare a una Gleichschaltung hitleriana
velleitaria e cialtronesca.
Eppure, la PA i 300 giga di testo che servono ce li avrebbe, basterebbe
solo che si avesse la capacità di promuovere una politica di cooperazione e
integrazione ... (e qui mi fermo per evitare sarcasmi).

Saluti,
G.





On Fri, 2 Aug 2024 at 09:41, Antonio <anto...@piumarossa.it> wrote:

> > (d'altra parte su come costruire
> > un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea),
>
> Non siamo proprio all'anno zero, qualcosa, su Internet e in italiano, di
> "lecito" c'è ;)
> L'italiano è la 23esima lingua più parlata al mondo [1], ma nelle
> statistiche di Common Crawl [2], è all'ottavo posto. Segno che c'è molto
> materiale lessicale italiano in rete.
> Wikipedia, ovviamente, ma ancora di più Wikisource (si può partire
> dall'analizzare questi file [3])
> C'è il corpus Paisà [4], c'è OSCAR [5] e chissà quanti altri in progetti
> più o meno pubblici.
>
> A.
>
> [1]
> https://it.wikipedia.org/wiki/Lingue_per_numero_di_parlanti_madrelingua
> [2] https://commoncrawl.github.io/cc-crawl-statistics/plots/languages.html
> [3] https://dumps.wikimedia.org/itwikisource/
> [4] https://www.corpusitaliano.it/en/contents/description.html
> [5] https://oscar-project.github.io/documentation/versions/oscar-2301/
>

Reply via email to