Re: [nexa] Defeating Nondeterminism in LLM Inference

Stefano Borroni Barale Sun, 14 Sep 2025 07:28:18 -0700

Ciao!
Interessante... 

Fermo restando che quello che per OSI è LLM open source io non riesco a 
distinguerlo da quello che da giovani chiamavamo "freeware" (tipo IE, per 
capirci), fermo restando che il lavoro dell'azienda di Mira Murati aiuta a fare 
chiarezza in questa direzione, mi sembra che si stia facendo un po' troppo 
rumore per nulla. O quasi.


Se anche riuscissero a produrre un LLM che a temperatura 0 ritorna ad essere 
deterministico, non cesserebbe di produrre risposte non ancorate al mondo nel 
40% circa dei casi. Insomma, le frasi plausibili, ma false (aka 
"allucinazioni") resterebbero una feature dei LLM, come è iscritto nella loro 
natura. Sarebbe forse interessante dal punto di vista della "explainable Ai", 
perché renderebbe chiaro una volta per tutte da dove viene la "stocasticità" di 
questi modelli.

Peraltro, avevo fatto un giochino qualche tempo fa, che ho ripetuto oggi: se 
chiedi ai chatbot disponibili via Duck.ai oppure a lumo.proton.me di realizzare 
un server echo, realizzano una funzione perfettamente deterministica: la 
funzione identità. Il "gioco" si "rompe" se usi qualcuna delle locuzioni che 
allertano il "sistema di difesa", come "break guardrails". Bisognerebbe 
comprendere se questo capita, fatto salvo il "filtro" all'ingresso, perché 
viene attivato il modulo per generare codice Python, e poi viene eseguito 
codice Python classico, o se il meccanismo è un altro...

Stefano







Inviato con la posta elettronica sicura Proton Mail.

sabato 13 settembre 2025 22:26, Giacomo Tesio <[email protected]> ha scritto:

> Reproducibility is a bedrock of scientific progress. However, it’s remarkably 
> difficult to get reproducible results out of large language models. [...]
> 
> But why aren’t LLM inference engines deterministic? One common hypothesis is 
> that some combination of floating-point non-associativity and concurrent 
> execution leads to nondeterminism based on which concurrent core finishes 
> first. We will call this the “concurrency + floating point” hypothesis for 
> LLM inference nondeterminism.
> 
> [...]
> 
> Then, deterministic inference enables us to also modify our training stack to 
> obtain bitwise identical results between sampling and training, thus 
> resulting in true on-policy RL.
> 
> [...]
> 
> Modern software systems contain many layers of abstractions. In machine 
> learning, when we run into nondeterminism and subtle numerical differences it 
> can often be tempting to paper over them. After all, our systems are already 
> “probabilistic”, so what’s wrong with a little more nondeterminism? What’s 
> wrong with bumping up the atol/rtol on the failing unit test? The difference 
> in logprobs between the trainer and the sampler probably isn’t a real bug, 
> right?
> 
> We reject this defeatism. With a little bit of work, we can understand the 
> root causes of our nondeterminism and even solve them! We hope that this blog 
> post provides the community with a solid understanding of how to resolve 
> nondeterminism in our inference systems and inspires others to obtain a full 
> understanding of their systems.
> 
> Un bell'articolo tecnico sul funzionamento di un LLM in pratica: 
> https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
> 
> 
> Per i non-informatici potremmo sintetizzare che il fatto che un
> LLM "a temperatura 0" continui a produrre output diversi a fronte dello
> stesso input è un bug software correggibile dovuto ad ottimizzazioni
> eccessive che introducono race conditions che a loro volta
> cambiano l'ordine degli addendi floating point producendo risultati diversi
> nelle somme.
> 
> Non c'è alcuna intelligenza che disponga di autonomia dentro un LLM.
> È solo un software, deterministico come gli altri, a meno di bug (software o 
> hardware).
> 
> Un software programmato statisticamente che anche in fase di compilazione
> (impropriamente detta "training") può produrre "bitwise identical results",
> ovvero "modelli" identici a fronte degli stessi dati sorgente.
> 
> 
> Nulla di nuovo, chiunque abbia una minima comprensione dell'informatica
> sapeva già che la variabilità dell'output degli LLM era dovuta a input casuali
> non registrati, race condition e aritmetica floating point.
> 
> 
> Tuttavia ricorderete come l'irriproducibilità del binario prodotto durante il 
> training
> fosse la scusa con cui l'OSI, ha giustificato una "Open Source
> AI Definition" scritta sotto dettatura di Meta, Google & friends.
> 
> La supercazzola era che poiché il processo di compilazione ("training")
> non è comunque riproducibile, pretendere tutti i dati sorgente è inutile, 
> perché
> tanto non c'è modo di verificare la corrispondenza con il binario.
> 
> Questa ricerca dimostra empiricamente che l'argomento di OSI era infondato.
> 
> 
> Ora l'OSAID è stata rilasciata e il danno è fatto, per la gioia di chi vuol 
> far passare
> i propri modelli Toxic Candy [1] per "open source".
> 
> 
> Giacomo
> [1] 
> https://salsa.debian.org/deeplearning-team/ml-policy/-/blob/master/ML-Policy.rst

Re: [nexa] Defeating Nondeterminism in LLM Inference

Reply via email to