On mar, 2024-02-27 at 14:08 +0100, Stefano Zacchiroli wrote:
> On Tue, Feb 27, 2024 at 12:04:52PM +0100, Marco A. Calamari wrote:
> > > Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è
> > > raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei
> > > loro dataset di training grandi parti del Web (solitamente ottenute via
> > > crawling fatto in casa), che nessuna parte terza può legittimamente
> > > redistribuire, dato che solo una piccolissima parte del Web è
> > > disponibile sotto licenze libere.
> > 
> > Un appunto, nessuna azienda *europea* lo può fare.
> > Quelle americane, ad esempio, legalmente possono e lo fanno.
> 
> Ho l'impressione che parliamo di diritti diversi.
> 
> Io mi riferisco a quello di redistribuire i training dataset acquisiti
> via web crawling (o simili). A mia conoscenza, non lo possono fare
> nemmeno quelle americane e non lo fanno. E la ragione è abbastanza
> ovvia: se fai web crawl recuperi pagine con milioni di detentori di
> diritto d'autore diversi e sotto migliaia di licenze diverse, la maggior
> parte delle quali non permette redistribuzione.
> 
> Se hai controesempi sono i benvenuti.

Non vorrei tediare la lista, quindi sarò sintetico

https://datarade.ai/data-categories/ai-ml-training-data/datasets

> Credo tu ti riferisca al diritto di fare mining di tali pagine, ai fini
> di machine learning, e su quello effettivamente la situazione tra EU e
> US e abbastanza diversa. (Anche se la recente riforma del copyright
> europea ha liberalizzato parecchio le cose anche qua da noi, per alcuni
> use case.)
> 
> > Poi nessuno acquisisce più dataset in proprio, tutti lo fanno tramite queste
> >  "aziende specializzate", in modo da avere comunque  un ulteriore schermo
> >  legale contro cause civili spicciole per diritto d'autore e proprietà
> > intellettuale.
> 
> Non ho una statistica esaustiva, ma per interazione diretta con gli
> autori di LLM sia specifici per il codice che general purpose (a-la
> ChatGPT), a me risulta il contrario. C'è molto crawling e mining in
> proprio da parte dei grandi attori, in aggiunta a quello che dici tu, ma
> che a mia conoscenza non è dominante negli LLM state-of-the-art.
> 
> Ciao

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to