OpenAI rivela la radice delle allucinazioni nei modelli linguistici

I ricercatori di OpenAI hanno annunciato di aver individuato una delle ragioni fondamentali per cui i grandi modelli linguistici (LLM) manifestano le cosiddette "allucinazioni", ovvero la tendenza a generare informazioni inaccurate presentandole con la stessa sicurezza di fatti comprovati. Questa scoperta, descritta in un recente documento, rappresenta un passo significativo verso la risoluzione di uno degli ostacoli più persistenti allo sviluppo e all'affidabilità dell'intelligenza artificiale conversazionale. Le allucinazioni affliggono alcuni dei più popolari LLM, da GPT-5 di OpenAI a Claude di Anthropic, minando la fiducia degli utenti e limitando la loro applicabilità in contesti critici. Comprendere la causa principale di questo fenomeno è cruciale per costruire sistemi AI più precisi e trasparenti.

La rivelazione fondamentale di OpenAI, pubblicata di recente, indica che i modelli linguistici generano allucinazioni perché i metodi con cui vengono addestrati e valutati ricompensano la supposizione e la produzione di risposte apparentemente sicure, anziché l'ammissione di incertezza. In altre parole, gli LLM vengono involontariamente incoraggiati a "ingannare" finché non ci riescono. Questo approccio all'addestramento, pur massimizzando le performance nei test basati sulla correttezza binaria, finisce per penalizzare la vera accuratezza e l'onestà intellettuale del modello. È un paradosso intrinseco al modo in cui la maggior parte degli attuali sistemi di valutazione sono strutturati, e i ricercatori di OpenAI credono di averne individuato il punto debole.

I modelli linguistici sono sempre in "modalità test"

Secondo i ricercatori, "le allucinazioni persistono a causa del modo in cui la maggior parte delle valutazioni sono classificate: i modelli linguistici sono ottimizzati per essere bravi partecipanti ai test, e indovinare quando sono incerti migliora le prestazioni del test". Questa analogia con i test scolastici è particolarmente illuminante. I grandi modelli linguistici sono essenzialmente sempre in "modalità test", affrontando le domande come se ogni aspetto della realtà fosse binario, giusto o sbagliato, bianco o nero. In molti modi, non sono equipaggiati per la complessità della vita reale, dove l'incertezza è molto più comune della certezza assoluta e la vera accuratezza non è scontata. Questo li porta a riempire le lacune di conoscenza con risposte inventate, pur di fornire una soluzione "completa" e "sicura", che viene poi ricompensata dal sistema di valutazione.

La differenza con l'apprendimento umano è marcata. "Gli esseri umani imparano il valore di esprimere incertezza al di fuori della scuola, nella scuola delle difficoltà della vita. D'altra parte, i modelli linguistici vengono valutati principalmente tramite esami in cui l'incertezza è penalizzata", scrivono i ricercatori. Mentre un bambino impara con l'esperienza che è meglio ammettere di non sapere piuttosto che inventare una risposta, i modelli AI non hanno questa "scuola della vita". Le loro "esperienze" sono date unicamente dai set di dati e dai meccanismi di ricompensa, che, nella loro configurazione attuale, spingono verso l'affermazione di una conoscenza anche quando essa è assente. La buona notizia, tuttavia, è che esiste una soluzione praticabile, che risiede nella riprogettazione dei parametri di valutazione.

I LLM non devono più essere ricompensati per le supposizioni

Il problema fondamentale, come sottolineano i ricercatori, è la "moltitudine di valutazioni non allineate". Questo significa che i numerosi sistemi di valutazione primari devono essere adattati in modo che le astensioni, o l'ammissione di non conoscenza, non vengano più penalizzate quando il modello è incerto. In un post sul blog relativo al documento, OpenAI ha dettagliato cosa comporterebbe questo tipo di adattamento. Si tratta di un cambiamento significativo nella filosofia di valutazione, che potrebbe ridefinire il modo in cui i modelli AI vengono addestrati e percepiti.

"Le valutazioni diffuse basate sull'accuratezza devono essere aggiornate in modo che il loro punteggio impedisca l'indovinamento", ha affermato OpenAI. "Se le principali valutazioni continuano a premiare l'indovinamento 'fortunato', i modelli continueranno a imparare a indovinare". Questa dichiarazione evidenzia la necessità di un cambio di paradigma. Attualmente, un modello che indovina correttamente una risposta, anche se era insicuro, riceve un punteggio positivo, incoraggiando ulteriormente questo comportamento. La soluzione proposta implica la creazione di metriche che distinguano tra una risposta corretta derivante da una conoscenza solida e una risposta corretta frutto di una supposizione casuale, valorizzando la capacità del modello di segnalare la propria incertezza.

L'importanza di un'AI consapevole della propria incertezza

È interessante notare che alcuni modelli, come quelli di Anthropic (Claude), hanno dimostrato una maggiore consapevolezza della propria incertezza, spesso evitando di fare affermazioni imprecise. Tuttavia, lo stesso OpenAI ha riconosciuto che gli alti tassi di rifiuto di Claude, sebbene indichino una maggiore cautela, potrebbero al contempo limitarne l'utilità in alcune applicazioni. Questo suggerisce un delicato equilibrio: la capacità di un LLM di ammettere di non sapere è preziosa per l'affidabilità, ma non deve trasformarsi in una paralisi che ne impedisce l'impiego efficace.

La ricerca di OpenAI apre nuove prospettive per lo sviluppo di LLM più robusti e affidabili. L'eliminazione delle allucinazioni non è solo una questione di accuratezza, ma anche di etica e fiducia nell'AI. Immaginate applicazioni in cui l'accuratezza è critica, come la medicina, la consulenza legale o la finanza. Un modello che può onestamente dire "non so" o "non sono sicuro, ma posso fornirti informazioni correlate" è infinitamente più utile e meno rischioso di uno che inventa risposte plausibili ma errate. Questa scoperta spiana la strada a una nuova generazione di modelli di intelligenza artificiale che non solo sono potenti e versatili, ma anche onesti riguardo ai limiti della loro conoscenza.

In sintesi, la soluzione al problema delle allucinazioni non risiede necessariamente in un'AI più "intelligente" in senso tradizionale, ma in una che sia addestrata a essere più onesta e trasparente riguardo alla propria conoscenza. Riprogettare i sistemi di valutazione per premiare l'onestà intellettuale e penalizzare le supposizioni è il passo fondamentale. Questo cambierà non solo la performance dei modelli, ma anche la nostra interazione con essi, creando un ecosistema di intelligenza artificiale più degno di fiducia e in grado di comunicare con maggiore fedeltà la propria comprensione del mondo. La posta in gioco è alta, ma la direzione è chiara: verso modelli che non solo parlano, ma lo fanno con integrità.