L'intelligenza artificiale generativa si è affermata rapidamente come uno strumento indispensabile in numerose aziende, rivoluzionando i modi in cui interagiamo con la tecnologia e gestiamo le informazioni. Chatbot, assistenti interni e l'analisi automatica dei documenti non sono più scenari futuristici, ma realtà operative quotidiane. Tuttavia, molte squadre si scontrano presto con una limitazione significativa: i grandi modelli linguistici (LLM) su cui si basano questi sistemi spesso non dispongono dei dati attuali o specifici dell'azienda necessari per generare risposte veramente utili e pertinenti. Questa lacuna può portare a risposte obsolete, generiche o, nel peggiore dei casi, completamente errate, minando la fiducia e l'efficacia dello strumento.

È qui che interviene la generazione aumentata tramite recupero, o RAG. Gli specialisti dell'IA di Smals Research, Katy Fokou e Bert Vanhalst, hanno recentemente approfondito questo argomento cruciale durante un webinar dedicato. Hanno discusso cosa sia il RAG, le ragioni della sua crescente popolarità, le scelte cruciali da compiere durante la sua implementazione, le principali insidie da evitare e le lezioni pratiche da imparare per chiunque voglia integrare efficacemente questa tecnologia. La soluzione RAG promette di colmare il divario tra la vasta conoscenza generale degli LLM e la necessità di informazioni contestualizzate e specifiche, trasformando la promessa dell'IA generativa in una realtà tangibile e affidabile.

Che cos'è il RAG e perché è così popolare?

RAG è l'acronimo di Retrieval-Augmented Generation. Si tratta di un'architettura innovativa in cui un modello linguistico non si affida unicamente alla sua conoscenza pre-addestrata, ma estrae attivamente informazioni pertinenti da fonti di dati esterne. Queste informazioni recuperate vengono poi aggiunte al prompt, consentendo al modello di generare una risposta basata su dati attuali e specifici dell'azienda, migliorandone significativamente l'accuratezza e la rilevanza.

In pratica, il processo RAG si svolge in tre fasi distinte: l'ingresso dei dati, il recupero e la generazione. Vediamole in dettaglio:

Ingresso dei dati (Data Ingestion): In questa fase, documenti, pagine web, trascrizioni o database vengono raccolti. Successivamente, questi dati vengono puliti, elaborati e suddivisi in frammenti di testo più piccoli, chiamati chunks. Questa segmentazione è essenziale per mantenere i costi computazionali a un livello basso e per facilitare un recupero più preciso. Questi chunks vengono poi convertiti in vettori numerici (embedding) e archiviati in un vectorstore, una base di dati ottimizzata per la ricerca di similarità vettoriale.
Recupero (Retrieval): Quando un utente pone una domanda, il sistema RAG cerca, all'interno del vectorstore, le informazioni più pertinenti utilizzando la ricerca vettoriale. Questo processo identifica i chunks di dati che sono semanticamente più vicini alla query dell'utente.
Generazione (Generation): Infine, il modello linguistico prende la domanda originale dell'utente e il contesto recuperato come input. Utilizzando queste informazioni, genera una risposta coerente e corretta, che è sia informata dalla sua conoscenza pre-addestrata sia arricchita dai dati specifici e aggiornati forniti.

La popolarità del RAG è facilmente spiegabile per diverse ragioni. La principale motivazione per implementare un sistema RAG è la possibilità di utilizzare fonti affidabili e controllate per rispondere a una domanda. Questo garantisce che le risposte siano basate su informazioni verificate, riducendo il rischio di allucinazioni o risposte inaccurate. Inoltre, il RAG offre soluzioni per la gestione dei dati sensibili: se un'azienda lavora con informazioni confidenziali, il RAG può essere eseguito con un modello che opera localmente, anziché nel cloud, garantendo maggiore controllo e sicurezza. Con il RAG, le aziende possono riutilizzare le loro conoscenze esistenti, mantenere le risposte costantemente aggiornate e, allo stesso tempo, creare trasparenza fornendo le fonti da cui sono state estratte le informazioni. In sintesi, la generazione aumentata tramite recupero permette a un modello linguistico di generare risposte basate su dati attuali e specifici dell'azienda, offrendo un valore inestimabile.

Scelte di progettazione importanti: prompt e modelli

Nonostante il concetto di RAG possa sembrare semplice, una buona implementazione richiede scelte tecniche e di contenuto ponderate e accurate. Questi dettagli sono fondamentali per massimizzare l'efficacia del sistema.

L'importanza di buoni prompt

Il prompt è l'elemento cruciale che collega la fase di recupero a quella di generazione. Non basta semplicemente passare una domanda e alcuni frammenti di testo al modello. Un prompt efficace deve contenere istruzioni chiare e dettagliate su ciò che il modello può e non può fare. Ad esempio, è possibile specificare se il modello deve limitarsi esclusivamente alle informazioni fornite, indicare quando mancano informazioni pertinenti, imporre un certo stile di scrittura o richiedere che la risposta sia strutturata in un modo fisso e prevedibile. Maggiore è la precisione del prompt, migliore sarà la qualità e la coerenza della risposta generata.

È anche fondamentale specificare il formato di output desiderato. La risposta deve essere contenuta in un singolo paragrafo? Le fonti devono essere menzionate esplicitamente? È necessaria una tabella per presentare i dati? Più dettagli vengono forniti riguardo al formato, più l'output sarà controllabile, consistente e utile per l'utente finale.

Scegliere il LLM giusto

Non tutti i modelli linguistici funzionano altrettanto bene in un contesto RAG. Durante il webinar di Smals Research, sono stati valutati diversi modelli all'avanguardia, tra cui GPT-4o, GPT-5, Mistral Large, Claude Sonnet 3.7 e Gemini 2.5 Flash. La valutazione si è basata su criteri quali la precisione, la latenza, il costo e la qualità della risposta.

I risultati hanno mostrato che modelli come Gemini e Claude ottengono risultati migliori su domande complesse, ma sono anche più costosi e più lenti. Al contrario, per applicazioni più semplici come le FAQ, modelli più piccoli o più veloci sono spesso sufficienti e più efficienti dal punto di vista economico. Un altro aspetto cruciale nella scelta di un LLM è la confidenzialità. I modelli open source offrono maggiore controllo sui dati, ma richiedono la propria infrastruttura e misure di sicurezza aggiuntive. I modelli commerciali, d'altra parte, sono più facili da integrare, ma comportano una dipendenza dal fornitore e costi ricorrenti. La scelta del "miglior" LLM dipende quindi fortemente dal caso d'uso specifico, dalle risorse disponibili e dalle esigenze di sicurezza dell'organizzazione.

Recupero: un fattore di successo sottostimato

Un errore frequente nell'implementazione del RAG è quello di concentrarsi quasi esclusivamente sul modello linguistico, sottovalutando l'importanza del recupero delle informazioni. Se le informazioni giuste non vengono estratte in primo luogo, anche il modello linguistico più avanzato non potrà generare una risposta corretta e pertinente. Il recupero è la base su cui poggia l'intera efficacia del sistema RAG.

Ricerca per parole chiave, semantica o ibrida?

Esistono diverse strategie di ricerca per il recupero delle informazioni. La ricerca classica per parole chiave funziona bene per i termini esatti, ma fallisce quando si tratta di sinonimi, variazioni o concetti correlati. La ricerca semantica, invece, utilizza gli embedding vettoriali per confrontare i significati delle query con quelli dei chunks di testo, permettendo di trovare informazioni rilevanti anche se i termini esatti non corrispondono. In pratica, un approccio ibrido, che combina entrambi i metodi, offre spesso i migliori risultati, sfruttando i punti di forza di ciascuna strategia.

Precisione o recall?

Il recupero implica un delicato equilibrio tra precisione (quanti dei frammenti estratti sono effettivamente pertinenti) e recall (quanti dei frammenti pertinenti presenti nel corpus sono stati effettivamente trovati). Per il RAG, il recall è generalmente più importante: la mancanza di informazioni cruciali porta a una risposta meno corretta. Se il modello recupera del testo aggiuntivo non pertinente, il modello linguistico è spesso in grado di ignorarlo senza compromettere eccessivamente la qualità della risposta. Tuttavia, la totale omissione di dati chiave può rendere una risposta incompleta o fuorviante.

Reranking e filtraggio

Per migliorare ulteriormente la qualità del recupero, i risultati iniziali possono essere riordinati (reranking) utilizzando modelli specializzati. Questi modelli sono progettati per valutare la pertinenza dei chunks recuperati e presentarli in un ordine più ottimale per il LLM. Inoltre, l'utilizzo di filtri di metadati, soglie di rilevanza e la riformulazione delle query possono contribuire a ottenere risultati migliori e più mirati. È importante notare, tuttavia, che queste tecniche avanzate richiedono ulteriore potenza di calcolo e un significativo lavoro di ingegneria per essere implementate e ottimizzate correttamente.

Le insidie: dove va spesso storto?

Naturalmente, l'implementazione del RAG non è priva di sfide e ci sono diverse insidie comuni che possono compromettere l'efficacia del sistema.

La valutazione è complessa

Valutare un sistema RAG si rivela più difficile del previsto. Le risposte generate non sono deterministiche: possono esserci diverse risposte corrette alla stessa domanda, e la qualità è spesso soggettiva. Una risposta è migliore perché è più completa, o perché è più concisa? Queste domande rendono la valutazione oggettiva una vera sfida.

Per la valutazione, si utilizzano due categorie di metriche: quelle con riferimento, dove l'output generato viene confrontato con un output di riferimento o un contesto di riferimento predeterminato; e quelle senza riferimento, che verificano ad esempio se il LLM ha "allucinato" (generato informazioni false) e se la risposta è precisa in base alle informazioni fornite. I sistemi di valutazione automatica, dove un modello linguistico stesso valuta l'output generato (il cosiddetto "LLM-as-judge"), offrono scalabilità, ma non sempre corrispondono alle valutazioni umane. Per questo motivo, la valutazione umana rimane indispensabile, soprattutto per le applicazioni critiche in cui l'accuratezza e la affidabilità sono paramount.

I guardrail sono necessari, ma non a tenuta stagna

I guardrail sono meccanismi di sicurezza progettati per impedire a un sistema RAG di produrre output indesiderati o dannosi. Questi possono includere violazioni della privacy, allucinazioni, linguaggio inappropriato o risposte a domande fuori tema. Queste "barriere" di sicurezza possono essere applicate a diversi livelli: all'ingresso del prompt, attraverso istruzioni esplicite nel prompt stesso, tramite filtri basati su regole o con classificatori AI distinti che analizzano e filtrano l'output. Tuttavia, è fondamentale comprendere che i guardrail non offrono una garanzia completa. Tecniche come le prompt injection, i bypass creativi e nuovi schemi di attacco rimangono un rischio costante. Pertanto, una sorveglianza continua e un miglioramento iterativo dei guardrail sono essenziali per mantenere la sicurezza e l'affidabilità del sistema nel tempo.

Infine, una delle principali lezioni emerse dal webinar è che il RAG non è una soluzione unica per tutti. La sua implementazione richiede una profonda comprensione delle esigenze specifiche, delle risorse disponibili e del contesto applicativo. Ogni caso d'uso avrà requisiti diversi in termini di scelta del modello, strategia di recupero, progettazione dei prompt e sistemi di valutazione. Adottare un approccio personalizzato e flessibile è fondamentale per massimizzare i benefici del RAG e superare le sfide intrinseche di questa tecnologia avanzata.