On mar, 2024-02-27 at 14:08 +0100, Stefano Zacchiroli wrote: > On Tue, Feb 27, 2024 at 12:04:52PM +0100, Marco A. Calamari wrote: > > > Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è > > > raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei > > > loro dataset di training grandi parti del Web (solitamente ottenute via > > > crawling fatto in casa), che nessuna parte terza può legittimamente > > > redistribuire, dato che solo una piccolissima parte del Web è > > > disponibile sotto licenze libere. > > > > Un appunto, nessuna azienda *europea* lo può fare. > > Quelle americane, ad esempio, legalmente possono e lo fanno. > > Ho l'impressione che parliamo di diritti diversi. > > Io mi riferisco a quello di redistribuire i training dataset acquisiti > via web crawling (o simili). A mia conoscenza, non lo possono fare > nemmeno quelle americane e non lo fanno. E la ragione è abbastanza > ovvia: se fai web crawl recuperi pagine con milioni di detentori di > diritto d'autore diversi e sotto migliaia di licenze diverse, la maggior > parte delle quali non permette redistribuzione. > > Se hai controesempi sono i benvenuti.
Non vorrei tediare la lista, quindi sarò sintetico https://datarade.ai/data-categories/ai-ml-training-data/datasets > Credo tu ti riferisca al diritto di fare mining di tali pagine, ai fini > di machine learning, e su quello effettivamente la situazione tra EU e > US e abbastanza diversa. (Anche se la recente riforma del copyright > europea ha liberalizzato parecchio le cose anche qua da noi, per alcuni > use case.) > > > Poi nessuno acquisisce più dataset in proprio, tutti lo fanno tramite queste > > "aziende specializzate", in modo da avere comunque un ulteriore schermo > > legale contro cause civili spicciole per diritto d'autore e proprietà > > intellettuale. > > Non ho una statistica esaustiva, ma per interazione diretta con gli > autori di LLM sia specifici per il codice che general purpose (a-la > ChatGPT), a me risulta il contrario. C'è molto crawling e mining in > proprio da parte dei grandi attori, in aggiunta a quello che dici tu, ma > che a mia conoscenza non è dominante negli LLM state-of-the-art. > > Ciao
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa