OSCAR è un dump di CommonCrawl, contiene circa 230 GB di italiano non filtrato, e se non lo filtri prima (e non lo educhi poi), sul fondo della tazza del tuo LLM compare la figura di Vannacci, come è stato per Minerva <https://ilmanifesto.it/minerva-lia-italiana-al-bivio-tra-vannacci-e-manzoni> . Paisà lo lascerei perdere, varca appena il giga e il formato CoNLL mostra chiaramente che fu fatto ai suoi tempi per altri scopi. Wikisource ok: ma sono pochi giga di roba un po' datata. Insomma, con quello che c'è adesso dobbiamo accontentarci di modelli piccoli, 3-5 GB, il che non è detto che sia un male (si sposta il carico verso il fine-tuning, cioè verso 'il basso'). Tuttavia, non mi è ancora chiaro il vantaggio tecnico dell'approccio monolinguistico, a meno di non voler fare un discorso di 'purezza dei contenuti' che però potrebbe somigliare a una Gleichschaltung hitleriana velleitaria e cialtronesca. Eppure, la PA i 300 giga di testo che servono ce li avrebbe, basterebbe solo che si avesse la capacità di promuovere una politica di cooperazione e integrazione ... (e qui mi fermo per evitare sarcasmi).
Saluti, G. On Fri, 2 Aug 2024 at 09:41, Antonio <anto...@piumarossa.it> wrote: > > (d'altra parte su come costruire > > un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea), > > Non siamo proprio all'anno zero, qualcosa, su Internet e in italiano, di > "lecito" c'è ;) > L'italiano è la 23esima lingua più parlata al mondo [1], ma nelle > statistiche di Common Crawl [2], è all'ottavo posto. Segno che c'è molto > materiale lessicale italiano in rete. > Wikipedia, ovviamente, ma ancora di più Wikisource (si può partire > dall'analizzare questi file [3]) > C'è il corpus Paisà [4], c'è OSCAR [5] e chissà quanti altri in progetti > più o meno pubblici. > > A. > > [1] > https://it.wikipedia.org/wiki/Lingue_per_numero_di_parlanti_madrelingua > [2] https://commoncrawl.github.io/cc-crawl-statistics/plots/languages.html > [3] https://dumps.wikimedia.org/itwikisource/ > [4] https://www.corpusitaliano.it/en/contents/description.html > [5] https://oscar-project.github.io/documentation/versions/oscar-2301/ >