Grazie per la condivisione. Mi capita spesso di avere a che fare con persone laureate, professionisti e altro, che pensano che sia una buona idea far fare calcoli a sistemi LLM (ad es. i calcoli al posto di usare Excel) e usare LLM per altri task deterministici, task che richiedono una risposta univoca e possibilmente vera. Come fare a contrastare questa tendenza? La prima volta mi è successo anni fa lavorando in una azienda di consulenza "di alto livello", cioè con clienti aziendali grossi: il cliente grosso chiedeva proprio di usare LLM per fare calcoli invece di Excel o altro foglio di calcolo o sw di base. Se il cliente paga molto per farlo giocare in questo modo, chi rinuncia e dice di no, e perde il cliente? Altri generano analisi di mercato e le vendono . Altri generano software a partire da un volume di specifiche fornito dal cliente. L'elenco è lungo e abbastanza inquietante. Se uno prova a spiegare che non va bene, che gli LLM non sono deterministici, ecc, gli interlocutori restano stupiti e non ci credono. Suggerimenti su come gestire queste situazioni sono benvenuti.
Andrea On Tue, Nov 18, 2025 at 8:33 AM Alfredo Bregni <[email protected]> wrote: > Ho trovato su facebook questo "divertente" (per me) post di Walter > Quattrociocchi (https://www.facebook.com/share/p/1FuLevWrGQ/); relata > refero. > > *Quando si scambia un motore linguistico per altro* > > Qualche tempo fa spiegavo agli studenti a cosa si va incontro con un > esempio pratico usando gli LLM per fare analisi dei dati. > Ho preso una serie di dati epidemiologici dal 2010 al 2014 e ho chiesto al > modello di costruire un grafico. Il risultato conteneva anche valori del > 2020–2021, cioè il periodo in cui la disponibilità di dati esplode per via > della pandemia. Non ha “rispettato i dati”; ha seguito il punto di massima > densità informativa. > Questi sistemi non “leggono” il tuo dataset, si muovono in uno spazio > linguistico che è già stratificato intorno alle zone dove il dato è più > abbondante, più ripetuto, più recente, più statisticamente conveniente. Io > gli chiedo 2010–2014; lui mi porta comunque a 2020–2021 perché lì il > terreno è più fertile, più denso, più “sicuro” dal punto di vista della > plausibilità. > Se metto accanto a questo esperimento quello che via via raccolgo e > annoto, la trama è sempre la stessa. C’è chi prova a usare un modello per > generare codice o markup ripetitivo. All’inizio la procedura sembra > funzionare, poi, pagina dopo pagina, l’uscita si sfalda, la coerenza si > perde, le stesse istruzioni producono varianti divergenti, e il costo di > correzione supera quello di fare il lavoro a mano. > C’è chi usa il modello su contenuti specialistici (musica, armonia, > analisi di testi complessi) e ottiene risposte formalmente ben confezionate > ma concettualmente vuote. Dalle frasi lunghe con lessico corretto, ma > regole sbagliate in modo grossolano, come se il sistema imitasse il rumore > di fondo della disciplina senza averne mai incontrato la struttura. > Il meccanismo è sempre lo stesso, in ambito tecnico succede lo stesso: > conversioni numeriche semplici, corrette per le prime richieste, cominciano > a deragliare non appena si aumenta leggermente la complessità o la quantità > di esempi. La procedura non si stabilizza, non si “irrobustisce”, si > ridispone ogni volta come se fosse la prima. Quando si passa al dominio > fattuale, la cosa diventa più inquietante: cronologie storiche riscritte > con sicurezza, programmi esistiti dichiarati inesistenti o viceversa, > riferimenti geografici inventati, dettagli biografici attribuiti a persone > reali senza alcuna base; solo chi conosce già l’argomento ha gli strumenti > per riconoscere l’invenzione. Chi non sa, prende atto. E integra. > Nel dominio medico il pattern è ancora più evidente (alla faccia dei > racconti metaforici e appezzotati fatti a botte di epistemia). Un referto > viene interpretato con apparente competenza, alcuni dettagli sono spiegati > in modo plausibile, poi una sigla viene proiettata in un contesto > completamente incompatibile (ostetrico in presenza di un apparato genitale > maschile), e il sistema razionalizza l’errore invece di riconoscerlo. Non > dice “non lo so”, dice “ho capito, è un refuso”. Nella produzione di testi > culturali (guida turistica, analisi letteraria, citazione poetica) si vede > l’altro lato della stessa cosa, ovvero la capacità di generare un testo > perfettamente leggibile, tonalmente adeguato, ritmato nel modo “giusto”, ma > privo di informazioni. > Pagine intere che potresti spostare da un luogo all’altro del mondo senza > che cambi nulla. > Infine ci sono i casi di delega integrale con strumenti configurati per > monitorare notizie, che ripropongono come “nuovi” articoli vecchi di mesi, > oppure ne saltano di rilevanti senza criterio apparente; manager convinti > di risparmiare tempo affidando a un modello la ricostruzione di cifre > complesse, che si ritrovano con numeri sbagliati di ordini di grandezza, ma > esposti con tale sicurezza lessicale da passare il primo vaglio > superficiale. > > Quello che tiene insieme tutte queste situazioni non è il singolo errore, > ma la combinazione di tre elementi: la fluidità del linguaggio, la > pressione verso le aree ad alta densità di dato e l’assenza di una > rappresentazione del mondo che faccia da vincolo. > L’idea bislacca, ma molto diffusa, che “basterebbe cambiare la base di > conoscenza” per risolvere il problema è la versione aggiornata della > vecchia fede nella fonte giusta. Come se il difetto fosse “cosa ha letto il > modello”, e non il modo in cui funziona. Aggiungere più dati, o dati > migliori, può ridurre alcuni errori di superficie, ma questi sistemi non > operano su un modello del mondo, non possiedono strutture interne che > garantiscano coerenza temporale, causale o concettuale. > Operano su distribuzioni di probabilità condizionate: massimizzano la > plausibilità linguistica locale, frase per frase, token per token. Quando > c’è molta informazione su un certo periodo, un certo evento, un certo modo > di parlare, il gradiente le spinge lì, anche se tu stai chiedendo altro. > Quando una spiegazione è stilisticamente convincente, la produce, anche in > assenza di un criterio che la colleghi a qualcosa di vero. > L’EpistemIA nasce esattamente in questo punto di contatto: dove un > meccanismo cieco rispetto al mondo incontra un utente che cerca conoscenza, > non testo. L’utente vede coerenza grammaticale, tono competente, > riferimenti plausibili, e scambia tutto questo per prova. Ma il modello non > “sa” se ciò che dice è vero; non ha un luogo interno dove la verità possa > essere rappresentata o controllata. La verifica, se avviene, è sempre > esterna: siamo noi. E proprio mentre ci affidiamo al sistema per > risparmiarci la fatica della verifica, la verifica stessa scompare > dall’orizzonte cognitivo: non viene più concepita come fase necessaria del > processo, perché è delegata. > Infatti il numero di ricercatori indipendenti, dotti-immaginari e tutto il > cucuzzaro di gente che dice menate cresce ogni giorno di più. > Per questo i vostri esempi sono così importanti: mostrano che non siamo > davanti a una collezione di bug da correggere con l’aggiornamento > successivo, ma a una trasformazione strutturale del rapporto tra linguaggio > e conoscenza. Non è un problema di “accuratezza percentuale”, è lo > slittamento da un ecosistema informativo basato sulla ricerca e sul > confronto di fonti a uno basato sulla simulazione continua di risposte > plausibili. Se non teniamo fermo questo punto, ci ritroviamo a discutere di > queste tecnologie come se fossero motori di ricerca più evoluti o > assistenti infallibili, mentre sono un’altra cosa. > Sono interfacce che ricostruiscono il mondo a partire da come ne abbiamo > scritto, non da com'è. > Continuare a raccogliere casi non serve a fare l’elenco degli errori, ma a > mappare il perimetro di questa nuova condizione: un ambiente in cui la > facilità di produzione di testo può dare l’impressione che la conoscenza > sia a portata di chat, mentre in realtà si è solo spostato, e reso > invisibile, il lavoro più importante: quello della verifica. > > >
