[nexa] Se l'intelligenza artificiale inizia a cibarsi dei dati che ha prodotto, abbiamo un problema

Alberto Cammozzo via nexa Tue, 14 Nov 2023 03:56:01 -0800

QED

<https://www.wired.it/article/intelligenza-artificiale-collasso-modelli-fondativi-rischi/>

Da poco più di un anno, chiunque abbia accesso a internet puòsperimentare liberamente con l'intelligenza artificiale generativa. Icontenuti prodotti con ChatGPT, Bard, Mid Journey, Dall-E e StableDiffusion, solo per nominare le più diffuse, sono ovunque. Utilizzate daprofessionisti e utenti alle prime armi, le AI generative permettono dicreare testi e immagini che hanno improvvisamente invaso il web, dalleagenzie creative alle classifiche dei libri più venduti su Amazon. Laproliferazione di questi contenuti però, potrebbe creare un cortocircuito su cui ricercatori di diversi paesi si stanno concentrando: ilmodel collapse.

Il fenomeno è stato descritto per la prima volta da un gruppo di ricercadi cui fanno parte membri di università britanniche e canadesi. Lodefiniscono come un processo degenerativo in cui i contenuti generatifiniscono per inquinare i dataset delle prossime generazioni di modelli,che, addestrati con dati inquinati, avranno una percezione sbagliatadella realtà. In sostanza, se le informazioni a cui queste AI attingonosono quelli prodotte dalle stesse AI, potrebbe verificarsi un processodi degenerazione dei risultati.

L’idea di base è tutto sommato intuitiva: queste AI producono risultatisu base statistica e tendono a eliminare progressivamente ogni eventopoco probabile ad ogni successiva iterazione. I modelli linguistici digrandi dimensioni – comunemente chiamati Large Language Model o LLM –sono la tecnologia che permette a questi programmi di funzionare sullabase di prompt, o input, forniti in linguaggio naturale dall’utente.Basandosi su enormi quantità di parametri, gli algoritmi di deeplearning utilizzati per far funzionare queste tecnologie vengonoaddestrati su dati ricavati anche tramite scraping da fonti online. E sei dati contengono errori o bias, l'AI non farà che riprodurli.

Finora possiamo dire che i contenuti su cui si basano le risposte diChatGPT sono stati creati da esseri umani, ma questo era vero solo finoallo scorso anno. In futuro un ipotetico GPT-6 (la futura generazionedel LLM di ChatGPT) potrebbe trovare un dataset diverso da quello usatoda GPT-3, in cui molte informazioni sono state prodotte utilizzando leversioni precedenti della stessa tecnologia. Come sottolineato dairicercatori questo implica che “i dati sulle interazioni degli umani congli LLM saranno sempre più preziosi”. Ma cosa succede quando unacrescente quantità di informazioni è di origine “sintetica”, ovverocreata dalle macchine? Soffriranno di quello che un’altra ricercaamericana ha chiamato Mad, Model autophagy disorder. Una disfunzionedeterminata da modelli che si nutrono delle informazioni che hanno creato.

Il sistema di intelligenza artificiale ChatGPT

L'Europa vuole mettere più paletti ai grandi modelli di intelligenzaartificiale, come GPTÈ la proposta di accordo su cui convergono Parlamento, Commissione eConsiglio europeo nei negoziati sull'AI Act e prevede più obblighi per ifoundation models

Dagli studi effettuati emerge che la qualità del lessico peggiora,appiattendosi su un livello che offre una minore diversità dilinguaggio. Se pensiamo che una delle prime forme di intelligenzaartificiale con la quale siamo entrati in contatto quotidianamente èl’autocomplete del telefono, la cosa ci appare subito più chiara esemplice da estendere ad altre categorie. Il correttore automatico cioffre come soluzioni quelle più statisticamente più probabili. Con idovuti distinguo, anche altri sistemi di raccomandazione funzionanonello stesso modo, che siano combinazioni di parole, prodotti checompriamo online, contenuti social o canzoni su Spotify. La differenzaprincipale sta nei parametri considerati e nella capacità del sistema diimparare dai nuovi dati che vengono forniti alle macchine. Tutti isistemi basati su tecnologie simili sono sensibili all’inquinamento deidati. Questo non avviene solo per i testi, ma anche nel caso delleimmagini. E in questo caso i risultati sono forse ancora più visibili.Il “rumore” di fondo può aumentare a tal punto da rendere i soggettiquasi indistinguibili e coperti da una patina opaca, oppure le immaginipossono risultare visibilmente artefatte.

Di recente Microsoft e Google hanno incorporato i propri chatbot indiversi prodotti e nei loro motori di ricerca, una mossa che potrebbeamplificare i problemi che generano. Non solo espongono gli utenti allecosiddette allucinazioni, gli errori degli LLM che generano risposte chenon trovano riscontro nella realtà, ma anche a feedback loop in cui glieventi meno frequenti tendono a scomparire. I sistemi di raccomandazionepossono creare camere dell’eco in cui trovano rappresentazione solo glieventi più probabili.

Secondo Daniele Gambetta, dottorando in intelligenza artificiale pressol'Università di Pisa, “ognuno di questi casi è rilevante nellacomprensione di fenomeni che saranno sempre più diffusi e che potrebberoportare a implicazioni indesiderate. La ricerca si sta muovendo inquesta direzione, intersecando conoscenze tecniche e informatiche construmenti e teorie provenienti dalla sociologia e dalla psicologia".


_______________________________________________
nexa mailing list
[email protected]
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

[nexa] Se l'intelligenza artificiale inizia a cibarsi dei dati che ha prodotto, abbiamo un problema

Reply via email to