I modelli linguistici ampi (LLM) sono diventati strumenti fondamentali nel moderno processamento del linguaggio naturale (NLP), abilitando applicazioni ad alta capacità che spaziano dagli agenti conversazionali agli assistenti per la scrittura scientifica e la generazione automatizzata di codice. Modelli come GPT-3 (Brown et al., 2020), GPT-4 (OpenAI, 2023b), LLaMA 2 (Touvron et al., 2023), Claude (Anthropic, 2023), DeepSeek (DeepSeek AI, 2023) e altri hanno dimostrato capacità straordinarie in compiti di apprendimento zero-shot e few-shot. Nonostante questi progressi, una sfida significativa rimane: le allucinazioni. Con questo termine si intende un output che appare fluido e coerente, ma è fattualmente scorretto, fabbricato o logicamente inconsistente (Ji et al., 2023; Maynez et al., 2020; Kazemi et al., 2023).

Le allucinazioni negli LLM compromettono l'affidabilità e l'efficienza dei sistemi di intelligenza artificiale, in particolare in settori ad alto impatto come la medicina (Lee et al., 2023), il diritto (Bommarito e Katz, 2022), il giornalismo (Andrews et al., 2023) e la comunicazione scientifica (Nakano et al., 2021; Liu et al., 2023). Esse generano inoltre rischi di disinformazione, riducono la fiducia degli utenti e creano lacune di responsabilità (Bommasani et al., 2021; Weidinger et al., 2022). Pertanto, comprendere e mitigare le allucinazioni è una priorità di ricerca cruciale per l'implementazione responsabile di queste tecnologie.

Generalmente, le allucinazioni negli LLM possono essere suddivise in due fonti primarie: (1) allucinazioni indotte da prompting, dove prompt mal strutturati, non specificati o fuorvianti causano output inefficienti (Reynolds e McDonell, 2021; Zhou et al., 2022; Wei et al., 2022), e (2) allucinazioni interne al modello, causate dall'architettura del modello, dalla distribuzione dei dati di pre-addestramento o dal comportamento di inferenza (Bang e Madotto, 2023; Chen et al., 2023; OpenAI, 2023a). Distinguere tra queste due cause è essenziale per sviluppare strategie di mitigazione efficaci. Questo studio si propone di colmare una lacuna nella ricerca esistente, fornendo un'analisi completa sull'attribuzione delle allucinazioni, ponendo la domanda chiave: in che misura le allucinazioni derivano da errori di prompting rispetto a limiti a livello di modello?

Matematicamente, questo problema può essere descritto all'interno del framework generativo probabilistico che sta alla base della moderna modellazione linguistica. Consideriamo un LLM modellato come un generatore probabilistico Pθ(y|x) parametrizzato da θ, dove x denota il prompt di input e y denota l'output generato. Le allucinazioni emergono quando il modello assegna una probabilità più alta a una sequenza di generazione scorretta o non fondata rispetto a un'alternativa fattualmente fondata. Questa disuguaglianza illustra un dilemma probabilistico fondamentale: l'ottimizzazione della fluidità e della coerenza spesso è in conflitto con il fondamento fattuale. Pertanto, comprendere le allucinazioni richiede l'analisi della distribuzione di probabilità del modello e l'identificazione dei contesti e delle condizioni in cui le imprecisioni diventano prevalenti.

Lavori recenti hanno tentato di ridurre le allucinazioni utilizzando tecniche di prompting migliorate, come il prompting "chain-of-thought" (CoT) (Wei et al., 2022), la decodifica per auto-consistenza (Wang ets al., 2022), la generazione aumentata da recupero (Retrieval-Augmented Generation, RAG) (Lewis et al., 2020; Shuster et al., 2022) e il raffinamento basato su verifica (Kadavath et al., 2022). Contemporaneamente, gli sforzi a livello di modello si concentrano sul fine-tuning supervisionato (SFT), sull'apprendimento per rinforzo dal feedback umano (RLHF) (Ouyang et al., 2022), sulla decodifica contrastiva (Li et al., 2022) e sul pre-addestramento fondato (Zhang et al., 2023). Tuttavia, l'interazione tra la qualità del prompt e i meccanismi interni del modello rimane poco approfondita.

Per affrontare questa lacuna, lo studio presenta un nuovo framework di attribuzione e confronta diversi modelli all'avanguardia in condizioni controllate, esaminando il loro comportamento attraverso diverse formulazioni di prompt. I contributi di questa ricerca sono triplici:

Forniamo una revisione completa della letteratura recente sulle allucinazioni negli LLM, categorizzando il lavoro in base all'attribuzione della causa (prompt vs. modello).
Progettiamo e implementiamo esperimenti controllati su più LLM (GPT-4, LLaMA 2, DeepSeek, Gwen) utilizzando benchmark di valutazione delle allucinazioni standardizzati [ad esempio, TruthfulQA (Lin et al., 2022), HallucinationEval (Wu et al., 2023), RealToxicityPrompts (Gehman et al., 2020)].
Proponiamo un framework diagnostico che separa empiricamente le allucinazioni sensibili al prompt da quelle intrinseche al modello, offrendo raccomandazioni pratiche per la mitigazione.

Contesto e Definizioni

Cosa sono le allucinazioni nei modelli linguistici ampi?

L'allucinazione nel contesto dei modelli linguistici ampi (LLM) si riferisce alla generazione di contenuti che potrebbero non essere correlati al prompt di input o a fonti di conoscenza confermate, anche se l'output può apparire linguisticamente coerente (Ji et al., 2023; Maynez et al., 2020). Questa circostanza evidenzia la differenza degli LLM dai modelli NLP tradizionali, sottolineando il compromesso tra fluidità e affidabilità fattuale.

Fondamento matematico delle allucinazioni degli LLM

Per formalizzare i fenomeni di allucinazione negli LLM, è utile concettualizzarli all'interno di un rigoroso framework matematico. I moderni LLM come GPT-4, LLaMA e DeepSeek impiegano tipicamente architetture neurali basate su transformer addestrate per stimare le probabilità condizionali di sequenze di token. Formalmente, dato un contesto o prompt di input x = (x₁, x₂, …, xₙ), il modello genera una sequenza di output y = (y₁, y₂, …, yₘ) fattorizzando la distribuzione di probabilità condizionale come:

Pθ(y|x) = Π(m i=1) Pθ(yi|x, y<i)

dove θ denota i parametri del modello, ottimizzati durante l'addestramento tramite stima di massima verosimiglianza o apprendimento per rinforzo dal feedback umano (RLHF). Le allucinazioni sono caratterizzate da istanze in cui la sequenza di output y diverge significativamente dalle informazioni fattuali o logicamente coerenti, nonostante spesso mantenga punteggi di probabilità condizionale elevati. Da una prospettiva di inferenza, l'allucinazione può essere concettualizzata come una discrepanza tra la distribuzione di probabilità interna del modello e la realtà fattuale.

Metodologia e Analisi Sperimentale

Il nostro framework di attribuzione introduce metriche per la Sensibilità al Prompt (PS) e la Variabilità del Modello (MV), che insieme quantificano il contributo dei prompt rispetto ai fattori interni al modello nelle allucinazioni. Attraverso esperimenti estesi e analisi comparative, abbiamo identificato schemi distinti nell'occorrenza, nella gravità e nella mitigazione delle allucinazioni tra i modelli.

Gli esperimenti controllati sono stati condotti su una serie di modelli linguistici all'avanguardia, tra cui GPT-4, LLaMA 2, DeepSeek e Gwen. Questi modelli sono stati valutati in diverse condizioni di prompting controllate, utilizzando benchmark consolidati per giudicare la fattualità, quali TruthfulQA, HallucinationEval e RealToxicityPrompts. L'obiettivo era osservare come le variazioni nel prompt influenzassero la qualità dell'output, separando gli effetti del prompt dai limiti intrinseci del modello.

I risultati hanno mostrato che strategie di prompt strutturate, come il prompting "chain-of-thought" (CoT), riducono significativamente le allucinazioni in scenari sensibili al prompt. Questo suggerisce che una formulazione attenta e strategica dei prompt può guidare il modello verso risposte più accurate. Tuttavia, le limitazioni intrinseche del modello persistono in alcuni casi, indicando che non tutte le allucinazioni possono essere risolte solo attraverso il miglioramento del prompt.

Strategie di Mitigazione e Best Practice

Le scoperte di questo studio offrono spunti preziosi per l'implementazione di strategie di mitigazione più mirate. L'approccio duale per affrontare le allucinazioni implica sia il miglioramento del design dei prompt sia l'evoluzione dello sviluppo del modello. Le strategie esistenti e quelle proposte includono:

Tecniche di Prompting Avanzate:
- Chain-of-Thought (CoT) Prompting: Incoraggia il modello a mostrare il suo processo di ragionamento passo dopo passo, portando a risposte più accurate e riducendo le allucinazioni in scenari complessi.
- Self-Consistency Decoding: Genera più percorsi di ragionamento e poi seleziona la risposta più comune o consistente, aumentando l'affidabilità.
- Retrieval-Augmented Generation (RAG): Integra i LLM con sistemi di recupero di informazioni esterne, permettendo ai modelli di attingere a basi di conoscenza aggiornate e verificate per fondare le loro risposte.
- Verification-Based Refinement: Implica la generazione di una risposta iniziale e poi l'utilizzo di meccanismi di verifica (interni o esterni) per controllare la fattualità e raffinare l'output.
Sforzi a Livello di Modello:
- Supervised Fine-Tuning (SFT): Addestramento aggiuntivo su dati annotati di alta qualità per migliorare la fedeltà fattuale e ridurre le tendenze allucinatorie.
- Reinforcement Learning from Human Feedback (RLHF): Utilizza il feedback umano per addestrare i modelli a produrre risposte più utili, oneste e innocue, riducendo così le allucinazioni.
- Contrastive Decoding: Migliora la qualità dell'output penalizzando le generazioni che sono simili a risposte irrilevanti o errate.
- Grounded Pretraining: Incorpora dati di conoscenza fattuale direttamente nella fase di pre-addestramento del modello, fornendo una base più solida per la generazione di risposte accurate.

Comprendere la Sensibilità al Prompt (PS) e la Variabilità del Modello (MV) è cruciale per applicare queste strategie in modo mirato. Se un'allucinazione è principalmente dovuta alla sensibilità al prompt, la riprogettazione del prompt sarà più efficace. Se è intrinseca al modello, sono necessari interventi a livello di architettura o di addestramento.

Direzioni Future e Conclusione

Questi risultati contribuiscono a una comprensione più profonda dell'affidabilità degli LLM e forniscono intuizioni per ingegneri dei prompt, sviluppatori di modelli e professionisti dell'IA. Proponiamo inoltre le migliori pratiche e future direzioni per ridurre le allucinazioni sia nella progettazione dei prompt che nelle pipeline di sviluppo dei modelli.

Le direzioni future della ricerca includono un ulteriore affinamento del framework di attribuzione, test su nuovi modelli e domini applicativi, e l'integrazione dei meccanismi di attribuzione direttamente nelle pipeline di sviluppo degli LLM. Solo attraverso un approccio olistico e una comprensione dettagliata delle cause profonde delle allucinazioni potremo sbloccare il pieno potenziale degli LLM, garantendone l'affidabilità e la fiducia in tutti i contesti applicativi.

In conclusione, la capacità di discernere tra allucinazioni indotte da prompt e quelle intrinseche al modello è fondamentale per lo sviluppo di sistemi di IA robusti e affidabili. Questo studio non solo fornisce un metodo per tale attribuzione, ma offre anche una base per strategie di mitigazione più efficaci, guidando l'evoluzione degli LLM verso una maggiore accuratezza e responsabilità.