Grazie mille per le integrazioni. Per quanto riguarda i dati personali presenti nei testi, dal punto di vista tecnico NLP una soluzione sarebbe l’anonimizzazione (eliminare dai testi i dati personali / identificatori per cui non si ha l’autorizzazione al trattamento). Soluzione complicata ma teoricamente possibile, che si può fare in modo più o meno restrittivo. Inoltre, i tipi di testi, e quindi anche le news, possono essere classificati automaticamente, scartando quelli che non si possono riutilizzare . Riguardo alle persone, si possono ad es fare distinzioni tra personaggi pubblici e no. Si tratta di tecnologie/metodologie di cui le grandi aziende Ai dispongono. Fino a un paio di anni fa, per creare LLM si è buttato dentro tutto, “ramazzando” tutto quanto con poco preprocessing.
Buona giornata, Andrea Il giorno gio 5 dic 2024 alle 00:41 Carlo Blengino < [email protected]> ha scritto: > Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di > chiarire la mia affermazione, forse un po' troppo secca, > sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle > considerazioni che precedono. Non mi riferivo infatti solo al problema > del diritto alla cancellazione. > > Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare > servizi basati su RAG, ma se anche così fosse, e i dati non fossero > utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati > ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si > aprirebbero comunque infinite diatribe sulla corretta attribuzione dei > ruoli di titolare e responsabile tra i diversi soggetti. Risolto > faticosamente quello, il problema per cui un archivio pubblico come > l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un > fornitore per l'addestramento è vera, quale che sia la modalità di > acquisizione (che sia con lo scraping o con accordi). Non ci sarà mai > infatti per fini commeriali/imprenditoriali una base giuridica che > legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè > quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari > ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che > quella è l'unica possibilità di liceità del trattamento (il consenso > ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin > troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ. > Per salvare il trattamento dei motori di ricerca quali titolari del > trattamento sulla base del legittimo interesse si sono compiute capriole > interpretative notevoli là dove tale base è recessiva rispetto al divieto > di trattamento di dati particolari, ma lì era più facile e nessuno poteva > vietare Google Search. > Con gli LLM però non se ne esce, ed i tempi sono cambiati. > Eppure gli archivi sono una fonte credo fondamentale e viene usata a man > bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione. > E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più > consono alle privative legate alla proprietà intellettuale (altra normativa > in frizione) che non al tema della protezione dati. Nel GDPR non esiste > nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act, > ma è riferito ad altro); i dati personali, a maggior ragione se pubblici, > non sono di nessuno (il titolare è il titolare del trattamento, non dei > dati, e l'interessato non possiede i suoi dati, può pretenderne la > protezione, a determinate condizioni). E bene che sia così, perchè i dati, > rectius le informazioni, anche personali devono circolare santo cielo! Sono > la base della conoscenza, anche quella delle macchine spara stronzate > (frankfurtianamente) > Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un > disastro per tutti, ma non perchè violino chissà quale diritto fondamentale > dei cittadini o la protezione dei dati, ma perché generano delle privative > e delle barriere economiche distorsive basate sul nulla, almeno sotto il > profilo della data protection (a mio giudizio anche sotto il profilo della > proprietà intellettuale, ma li le privative esistono davvero!). > > E di situazioni così, di incompatibilità, è piena la strada delle > tecnologie dell'informazione che necessitano della ruminazione di molte > informazioni. > > Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è > incompatibile con il BigData (in allora il termine era una buzzword). > Minimizzazione, limitazione della conservazione, stretta finalità...tutta > roba contraria al valore informativo dei dati, ma per fortuna c'erano mille > eccezioni, varianti e deroghe e soprattutto quei principi si potevano > piegare, adattare e soprattutto i pochi che si occupavano di protezione > dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile > e recessivo, molto diverso dalla riservatezza (che quella sì se la passava > già davvero male). > > Possiamo decidere che quelle macchine e quelle tecnologie sono un male, > che i Salami non hanno alcun interesse per l'umanità, e che non meritano > tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi > tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il > GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai > cattivi che la governano. I problemi sono altri e necessitano di risposte > diverse. > > Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma > sono comunque sempre grato a tutti in questa lista per gli stimoli e le > riflessioni che mi suscitate. > CB > > > > ne fondi il trattamento > > > Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere < > [email protected]> ha scritto: > >> Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si >> possono cedere dati sensibili di cui si è responsabili, che i giornali >> pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono >> farne usi diversi senza il consenso degli interessati. Quindi la cessione >> sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere >> e smentire le notizie 'on the fly' come possono fare i giornali. >> >> Il problema è che i LLM acquisiscono competenze linguistiche generali (ad >> es. quelle che servono per fare summarization) e fattuali (chi è David >> Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti >> progressi, tutto è più o meno fuso in un sol blocco. >> >> Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented >> Generation (RAG). In questi casi, le competenze fattuali si trovano nei >> documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM >> spetta solo il compito di mettere in bella prosa alcuni passaggi >> informativi che non si trovano nel modello ma appunto in qualche testo >> leggibile e emendabile. >> >> La notizia è che per questo esercizio bastano modelli relativamente >> piccoli, anche 'aperti', e non è impensabile che questi possano essere >> costruiti con dati 'puliti'. >> Nota a margine: quello che GEDI dice di voler fare, da quello che >> capisco, è esattamente un RAG, come quello che altre testate (es. >> Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI >> faccia training sul loro archivio. >> >> G. >> >> >> On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa < >> [email protected]> wrote: >> >>> Ciao Carlo >>> >>> On 02/12/24 23:55, Carlo Blengino wrote: >>> > Grazie! >>> > Interessante leggere come da lontano vedano il GDPR e il diritto >>> > all'oblio (o quello che è). >>> > La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se >>> > interpretato restrittivamente non è compatibile con la tecnologia >>> degli >>> > LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un >>> > totale contrasto, su più principi di base. E questo è un problema per >>> > l'Europa. >>> >>> non mi pare. >>> se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4 >>> re-training del modello all'anno. >>> >>> per l'azienda si tratta di trovare il punto di equilibrio costi/benefici >>> rispetto alle dimensioni del proprio modello (e per il sistema, fare un >>> po' di ricerca su metodi di ottimizzazione) >>> >>> https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gpu-inference/ >>> >>> d'altronde, anche il consorzio obbligatorio degli olii usati è una >>> maggiorazione di costi per i meccanici... >>> :-) >>> >>> >>> >>> > Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l- >>> > accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel- >>> > mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova >>> > (quell'accordo e tutti gli accordi in atto sono una pessima deriva, >>> sia >>> > chiaro, ma per altre ragioni) >>> > Aggiungo a scanso di equivoci, che questa considerazione non vuol dire >>> a >>> > mio parere che vi sia incompatibilità tra queste tecnologie ed il >>> > sacrosanto diritto fondamentale alla protezione dei dati personali. >>> > CB >>> > >>> > >>> > >>> > Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani >>> > <[email protected] <mailto:[email protected]>> ha scritto: >>> > >>> > Dec 01, 2024 - Georg Zoeller (AILTI) >>> > The Curious Case of David Mayer, the man ChatGPT cannot name. >>> > >>> > ChatGPT users have noticed a curious behavior: It refuses to talk >>> > about a 'David Mayer'. We have the explanation and point out less >>> > obvious implications. >>> > >>> > TL;DR: While not a juicy conspiracy, OpenAI cut some corners on >>> > regulatory compliance and the implications are less benign than >>> they >>> > seem. In fact, they can be weaponized with unexpected consequences. >>> > >>> > ChatGPT is well known for not knowing when to stop talking - the >>> > underlying transformer architecture lends itself to hallucinations >>> > in situations when the model is asked to generate text beyond the >>> > context it was trained on. Even more curious, sometimes it starts >>> > giving a response, only to change its mind mid sentence, and >>> > terminating the conversation. >>> > >>> > So naturally, when the software stops and refuses to answer, users >>> > take notice. In this case, ChatGPT users found that mention of the >>> > name “David Mayer”, whenever included in a message, would >>> > consistently cause the model to terminate the conversation. >>> > >>> > It’s a conspiracy! >>> > Creating even more mystery, chatGPT rejection messages quickly move >>> > from unhelpful to ominously threatening when the user starts >>> > investigating the phenomenon. >>> > >>> > Continua qui: >>> > <https://centreforaileadership.org/resources/ >>> > analysis_the_curious_case_of_one_david_mayer/ <https:// >>> > centreforaileadership.org/resources/ >>> > analysis_the_curious_case_of_one_david_mayer/>> >>> > >>> > >>> > >>> > -- >>> > * >>> > * >>> > *Avv. Carlo Blengino* >>> > * >>> > * >>> > /Via Duchessa Jolanda n. 19,/ >>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g> >>> >>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g>> >>> /10138 Torino (TO) - Italy >>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g> >>> / >>> > /tel. +39 011 4474035/ >>> > Penalistiassociati.it >>> > // >>> >>> -- >>> You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram) >>> >>> > > -- > *Avv. Carlo Blengino* > *Via Duchessa Jolanda n. 19, > <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* > *10138 Torino (TO) - Italy > <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>* > *tel. +39 011 4474035* > Penalistiassociati.it >
