RAG, acronimo di Retrieval Augmented Generation, è una delle aree più investite nella ricerca sull'intelligenza artificiale generativa e sta riscuotendo crescente interesse commerciale. RAG si applica frequentemente ai problemi di risposta a domande, dove viene fornita informazione contestuale estratta da una fonte di dati (potenzialmente privata), e si aspetta che la risposta generata rifletta fedelmente quei dati. Il RAG presenta due componenti principali: un "retriever", che recupera conoscenze pertinenti, e un modello linguistico di grandi dimensioni (LLM) che genera risposte fedeli al contesto oppure riconosce se queste siano irrilevanti o addirittura contraddittorie.

Piattaforme di intelligenza artificiale come Salesforce AI Research riconoscono l’importanza della fedeltà e dell’accuratezza nella costruzione dei sistemi RAG, dove il ruolo del LLM è cruciale. Per rispondere a questa esigenza, è stato sviluppato SFR-RAG, un modello linguistico di 9 miliardi di parametri addestrato specificamente per ottenere generazioni contestuali fedeli, precise e affidabili, rientrando in diverse applicazioni RAG e in compiti agenziali complessi.

Caratteristiche chiave di SFR-RAG

SFR-RAG è addestrato per ottenere elevate prestazioni in contesti in cui l’estrazione fedele della conoscenza e la capacità di distinguere i dati rilevanti dagli ingannevoli sono cruciali. Si concentra su diversi obiettivi:

Estrazione fedele di conoscenze fattuali
Distinguere tra contesti rilevanti e dannosi
Produrre spiegazioni complesse o ragionamenti multi-hop basati su diversi contesti
Seguire formati di risposta coerenti
Evitare la generazione di informazioni false per domande senza risposta

Valutazione di SFR-RAG con ContextualBench

Per valutare le capacità di RAG in contesti reali, Salesforce AI Research ha rilasciato ContextualBench, un insieme di valutazioni che include 7 benchmark, tra cui HotpotQA e 2WikiHopQA. SFR-RAG ha ottenuto risultati di eccellenza in 3 su 7 benchmark di tale suite, battendo GPT-4o e mostrando prestazioni nettamente superiori rispetto a Command-R+ con un numero di parametri inferiore di circa il 90%.

Gli esperimenti con la suite FaithEval indicano come SFR-RAG mostri una fedeltà eccezionale al contesto anche in casi complessi, come quando i fatti sono modificati o contraddittori. Il modello si aggiudica i punteggi più alti in tutte le categorie (Counterfactual, Unknown e Conflict), il che dimostra che riesce a riconoscere quando un contesto non contiene informazioni necessarie o presenta dati conflittuali, riducendosi al minimo il rischio di generare informazioni false.

Un nuovo modello di chat per applicazioni RAG affidabili

La struttura standard di molti modelli linguistici include tre ruoli conversazionali: System, User e Assistant. Tuttavia, con l’aumentare della complessità delle applicazioni RAG, i modelli devono affrontare diversi step di ragionamento e utilizzare strumenti per giungere ad una risposta definitiva. Molte implementazioni inseriscono questi passaggi non conversazionali dentro la porzione Assistant.

Questo approccio presenta alcuni svantaggi:

Rischi di riservatezza quando i dati sensibili vengono esposti.
Mancanza di attendibilità se i risultati vengono analizzati con parser basati su parole chiave, che i modelli possono erroneamente generare.
Dificoltà nella personalizzazione del modello linguistico per compiti complessi di RAG, poiché richiede l’addestramento su dati non conversazionali.

Per risolvere questi problemi, Salesforce AI Research propone l’aggiunta di due nuove entità al modello di chat: Thought e Observation:

Thought: permette al modello linguistico di elaborare informazioni, ragionare o effettuare calcoli interni.
Observation: ospita informazioni contestuali esterne.

Con questa separazione, è possibile migliorare la capacità di addestrare e personalizzare il modello con maggiore precisione ed evitare la presenza di output non pertinenti. I developers hanno accesso al pensiero intermedio e ai risultati estratti, in base alle esigenze del design dell’applicazione, aumentando il controllo sull’esperienza utente.

Robustezza e resilienza di SFR-RAG

SFR-RAG si distingue per la sua capacità di adattarsi a cambiamenti imprevisti nei documenti contestuali, un elemento chiave per garantire l’affidabilità di un’applicazione RAG. Grazie alla suite FaithEval, che valuta la fedeltà di un modello linguistico rispetto al contesto, SFR-RAG mostra il migliore livello di adesione ai dati in categorie come Counterfactual, Unknown e Conflict.

Questo vuol dire che SFR-RAG riesce a non generare informazioni errate nemmeno quando i fatti sono modificati in modo non intuitivo e riesce a riconoscere quando il contesto non contiene la risposta richiesta. Inoltre, il modello dimostra una maggiore fedeltà rispetto al contesto, un criterio essenziale per garantire l’attendibilità nel generare risposte in complessi contesti RAG.

Disponibilità e risorse per ulteriore approfondimento

SFR-RAG sarà prossimamente disponibile tramite API, anche se alcune funzionalità non rilasciate potrebbero non essere accessibili o non essere consegnate nell’arco del tempo previsto. I clienti sono incoraggiati a basare le loro decisioni su soluzioni attualmente disponibili.

Chi desidera approfondire il lavoro può visitare:

Articolo su arXiv: SFR-RAG
Valutazione ContextualBench: Link HuggingFace
Repository di Salesforce AI Research: GitHub
Classifica ContextualBench-leaderboard: Link HuggingFace

Grazie a SFR-RAG, Salesforce AI Research introduce un nuovo standard per garantire l’attendibilità, la fedeltà e il livello di sicurezza nel contesto delle applicazioni RAG, sfruttando avanzate architetture di modelli linguistici e una precisa gestione del contesto.