Re: [nexa] The Curious Case of David Mayer, the man ChatGPT cannot name

Andrea Bolioli Thu, 05 Dec 2024 02:22:42 -0800

Grazie mille per le integrazioni.

Per quanto riguarda i dati personali presenti nei testi, dal punto di vista
tecnico NLP una soluzione sarebbe l’anonimizzazione (eliminare dai testi i
dati personali / identificatori per cui non si ha l’autorizzazione al
trattamento). Soluzione complicata ma teoricamente possibile, che si può
fare in modo più o meno restrittivo.
Inoltre, i tipi di testi, e quindi anche le news, possono essere
classificati automaticamente, scartando quelli che non si possono
riutilizzare . Riguardo alle persone, si possono ad es fare distinzioni tra
personaggi pubblici e no.
Si tratta di tecnologie/metodologie di cui le grandi aziende Ai dispongono.
Fino a un paio di anni fa, per creare LLM si è buttato dentro tutto,
“ramazzando” tutto quanto con poco preprocessing.


Buona giornata,
Andrea





Il giorno gio 5 dic 2024 alle 00:41 Carlo Blengino <
[email protected]> ha scritto:

> Sono molto d'accordo con Guido Vetere, e questo mi dà l'occasione di
> chiarire la mia affermazione, forse un po' troppo secca,
> sull'incompatibilità del GDPR, e anche di rispondere indirettamente alle
> considerazioni che precedono. Non mi riferivo infatti solo al problema
> del diritto alla cancellazione.
>
> Non sono sicuro che la cessione nel caso GEDI fosse per sperimentare
> servizi basati su RAG, ma se anche così fosse, e i dati non fossero
> utilizzati per addestramento, vi sarebbe comunque un trasferimento di dati
> ad OpenAI, quanto meno per la vettorializzazione (credo si dica così) e si
> aprirebbero comunque infinite diatribe sulla corretta attribuzione dei
> ruoli di titolare e responsabile tra i diversi soggetti. Risolto
> faticosamente quello, il problema per cui un archivio pubblico come
> l'archivio di un grande quotidiano per il GDPR non sarà mai usabile da un
> fornitore per l'addestramento è vera, quale che sia la modalità di
> acquisizione (che sia con lo scraping o con accordi).  Non ci sarà mai
> infatti per fini commeriali/imprenditoriali una base  giuridica che
> legittimi il trattamento di archivi così rilevanti, almeno in UE, perchè
> quel dataset contiene per forza dati particolari ex art.9 e dati giudiziari
> ex art. 10, circostanza questa che esclude il legittimo interesse. Solo che
> quella è l'unica possibilità di liceità del trattamento (il consenso
> ovviamente non è neppure pensabile), ed è già stata piegata e forzata fin
> troppo per i motori di ricerca dopo la sentenza Costeja Gonzales della ECJ.
> Per salvare il trattamento dei motori di ricerca quali titolari del
> trattamento sulla base del legittimo interesse si sono compiute capriole
> interpretative notevoli là dove tale base è recessiva rispetto al divieto
> di trattamento di dati particolari, ma lì era più facile e nessuno poteva
> vietare Google Search.
> Con gli LLM però non se ne esce, ed i tempi sono cambiati.
> Eppure gli archivi sono una fonte credo fondamentale e viene usata a man
> bassa, tant'è che adesso è oggetto di "licenze" e di monetizzazione.
> E mi chiedo cosa intenda il Garante quando parla di "licenza", termine più
> consono alle privative legate alla proprietà intellettuale (altra normativa
> in frizione) che non al tema della protezione dati. Nel GDPR non esiste
> nessuna "esclusiva" e nessuna licenza (c'è qualcosa di simile nel Data Act,
> ma è riferito ad altro); i dati personali, a maggior ragione se pubblici,
> non sono di nessuno (il titolare è il titolare del trattamento, non dei
> dati, e l'interessato non possiede i suoi dati, può pretenderne la
> protezione, a determinate condizioni). E bene che sia così, perchè i dati,
> rectius le informazioni, anche personali devono circolare santo cielo! Sono
> la base della conoscenza, anche quella delle macchine spara stronzate
> (frankfurtianamente)
> Aggiungo che, dal mio punto di vista, questo tipo di accordi sono un
> disastro per tutti, ma non perchè violino chissà quale diritto fondamentale
> dei cittadini o la protezione dei dati, ma perché generano delle privative
> e delle barriere economiche distorsive basate sul nulla, almeno sotto il
> profilo della data protection (a mio giudizio anche sotto il profilo della
> proprietà intellettuale, ma li le privative esistono davvero!).
>
> E di situazioni così, di incompatibilità, è piena la strada delle
> tecnologie dell'informazione che necessitano della ruminazione di molte
> informazioni.
>
> Quando uscì il GDPR (2016) ricordo che in studio ci dicemmo: ma sta roba è
> incompatibile con il BigData (in allora il termine era una buzzword).
> Minimizzazione, limitazione della conservazione, stretta finalità...tutta
> roba contraria al valore informativo dei dati, ma per fortuna c'erano mille
> eccezioni, varianti e deroghe e soprattutto quei principi si potevano
> piegare, adattare e soprattutto i pochi che si occupavano di protezione
> dati dal 1995 sapevano che era un diritto dai confini incerti, bilanciabile
> e recessivo, molto diverso dalla riservatezza (che quella sì se la passava
> già davvero male).
>
> Possiamo decidere che quelle macchine e quelle tecnologie sono un male,
> che i Salami non hanno alcun interesse per l'umanità, e che non meritano
> tutela alcuna. Bene. Non ne so abbastanza per dirlo e conto molto su di voi
> tecnici. Decidiamolo e lasciamole morire. Però non facciamolo usando il
> GDPR come fosse il baluardo che difende l'umanità dall'AI cattiva e dai
> cattivi che la governano. I problemi sono altri e necessitano di risposte
> diverse.
>
> Forse ho peggiorato la mia posizione e temo gli sfottò del buon Tesio, ma
> sono comunque sempre grato a tutti in questa lista per gli stimoli e le
> riflessioni che mi suscitate.
> CB
>
>
>
>  ne fondi il trattamento
>
>
> Il giorno mer 4 dic 2024 alle ore 22:40 Guido Vetere <
> [email protected]> ha scritto:
>
>> Credo che il rilievo del Garante sul caso GEDI sia un atto dovuto: non si
>> possono cedere dati sensibili di cui si è responsabili, che i giornali
>> pubblicano in base al diritto di cronaca, a soggetti terzi che ne vogliono
>> farne usi diversi senza il consenso degli interessati. Quindi la cessione
>> sarebbe illecita anche se OpenAI (o chi per essa) avesse modo di correggere
>> e smentire le notizie 'on the fly' come possono fare i giornali.
>>
>> Il problema è che i LLM acquisiscono competenze linguistiche generali (ad
>> es. quelle che servono per fare summarization) e fattuali (chi è David
>> Mayer) allo stesso modo, e anche se sulla modularizzazione si sono fatti
>> progressi, tutto è più o meno fuso in un sol blocco.
>>
>> Diverso è il caso in cui gli LLM sono usati per fare Retrieval Augmented
>> Generation (RAG). In questi casi, le competenze fattuali si trovano nei
>> documenti 'in chiaro' dove il RAG va a pescare, e alla componente LLM
>> spetta solo il compito di mettere in bella prosa alcuni passaggi
>> informativi che non si trovano nel modello ma appunto in qualche testo
>> leggibile e emendabile.
>>
>> La notizia è che per questo esercizio bastano modelli relativamente
>> piccoli, anche 'aperti', e non è impensabile che questi possano essere
>> costruiti con dati 'puliti'.
>> Nota a margine: quello che GEDI dice di voler fare, da quello che
>> capisco, è esattamente un RAG, come quello che altre testate (es.
>> Washington Post) stanno sperimentando. Non c'è davvero bisogno che OpenAI
>> faccia training sul loro archivio.
>>
>> G.
>>
>>
>> On Tue, 3 Dec 2024 at 12:04, Stefano Quintarelli via nexa <
>> [email protected]> wrote:
>>
>>> Ciao Carlo
>>>
>>> On 02/12/24 23:55, Carlo Blengino wrote:
>>> > Grazie!
>>> > Interessante leggere come da lontano vedano il GDPR e il diritto
>>> > all'oblio (o quello che è).
>>> > La cosa più certa, al di là del caso Mayer, è che, mi pare, il GDPR se
>>> > interpretato restrittivamente non è compatibile con la tecnologia
>>> degli
>>> > LLM. Punto. Si possono fare un po' di accrocchi, ma di fondo c'è un
>>>  > totale contrasto, su più principi di base. E questo è un problema per
>>>  > l'Europa.
>>>
>>> non mi pare.
>>> se non ricordo male c'e' un termine di 3 mesi, il che vorrebbe dire 4
>>> re-training del modello all'anno.
>>>
>>> per l'azienda si tratta di trovare il punto di equilibrio costi/benefici
>>> rispetto alle dimensioni del proprio modello (e per il sistema, fare un
>>> po' di ricerca su metodi di ottimizzazione)
>>>
>>> https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gpu-inference/
>>>
>>> d'altronde, anche il consorzio obbligatorio degli olii usati è una
>>> maggiorazione di costi per i meccanici...
>>> :-)
>>>
>>>
>>>
>>> > Il caso GEDI https://www.ilsole24ore.com/art/nel-mirino-garante-l-
>>> > accordo-gedi-openai-AGJLoOTB <https://www.ilsole24ore.com/art/nel-
>>> > mirino-garante-l-accordo-gedi-openai-AGJLoOTB> ne è ulteriore riprova
>>> > (quell'accordo e tutti gli accordi in atto sono una pessima deriva,
>>> sia
>>> > chiaro, ma per altre ragioni)
>>> > Aggiungo a scanso di equivoci, che questa considerazione non vuol dire
>>> a
>>> > mio parere che vi sia incompatibilità tra queste tecnologie ed il
>>> > sacrosanto diritto fondamentale alla protezione dei dati personali.
>>> > CB
>>> >
>>> >
>>> >
>>> > Il giorno lun 2 dic 2024 alle ore 22:32 Daniela Tafani
>>> > <[email protected] <mailto:[email protected]>> ha scritto:
>>> >
>>> >     Dec 01, 2024 - Georg Zoeller (AILTI)
>>> >     The Curious Case of David Mayer, the man ChatGPT cannot name.
>>> >
>>> >     ChatGPT users have noticed a curious behavior: It refuses to talk
>>> >     about a 'David Mayer'. We have the explanation and point out less
>>> >     obvious implications.
>>> >
>>> >     TL;DR: While not a juicy conspiracy, OpenAI cut some corners on
>>> >     regulatory compliance and the implications are less benign than
>>> they
>>> >     seem. In fact, they can be weaponized with unexpected consequences.
>>> >
>>> >     ChatGPT is well known for not knowing when to stop talking - the
>>> >     underlying transformer architecture lends itself to hallucinations
>>> >     in situations when the model is asked to generate text beyond the
>>> >     context it was trained on. Even more curious, sometimes it starts
>>> >     giving a response, only to change its mind mid sentence, and
>>> >     terminating the conversation.
>>> >
>>> >     So naturally, when the software stops and refuses to answer, users
>>> >     take notice. In this case, ChatGPT users found that mention of the
>>> >     name “David Mayer”, whenever included in a message, would
>>> >     consistently cause the model to terminate the conversation.
>>> >
>>> >     It’s a conspiracy!
>>> >     Creating even more mystery, chatGPT rejection messages quickly move
>>> >     from unhelpful to ominously threatening when the user starts
>>> >     investigating the phenomenon.
>>> >
>>> >     Continua qui:
>>> >     <https://centreforaileadership.org/resources/
>>> >     analysis_the_curious_case_of_one_david_mayer/ <https://
>>> >     centreforaileadership.org/resources/
>>> >     analysis_the_curious_case_of_one_david_mayer/>>
>>> >
>>> >
>>> >
>>> > --
>>> > *
>>> > *
>>> > *Avv. Carlo Blengino*
>>> > *
>>> > *
>>> > /Via Duchessa Jolanda n. 19,/
>>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g>
>>>
>>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g>>
>>> /10138 Torino (TO) - Italy
>>> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,%2F+%0D%0A+%2F10138+Torino+(TO)+-+Italy?entry=gmail&source=g>
>>> /
>>> > /tel. +39 011 4474035/
>>> > Penalistiassociati.it
>>> > //
>>>
>>> --
>>> You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)
>>>
>>>
>
> --
> *Avv. Carlo Blengino*
> *Via Duchessa Jolanda n. 19,
> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>*
> *10138 Torino (TO) - Italy
> <https://www.google.com/maps/search/Via+Duchessa+Jolanda+n.+19,+10138+Torino+(TO)+-+Italy?entry=gmail&source=g>*
> *tel. +39 011 4474035*
> Penalistiassociati.it
>

Re: [nexa] The Curious Case of David Mayer, the man ChatGPT cannot name

Reply via email to