Per quanto impressionanti siano i Large Language Models (LLM), come strumenti autonomi e pre-addestrati, sono soggetti a limiti chiari. Per ottenere risposte contestuali e spiegabili, i modelli linguistici devono essere in grado di accedere a conoscenze curate e specifiche per il dominio. La Retrieval-Augmented Generation (RAG) offre attualmente l'approccio più efficace per questo scopo.

RAG è un approccio architettonico che migliora gli LLM collegando il modello linguistico a una fonte esterna di dati specifici e importanti per il caso d'uso in questione. In pratica, RAG funziona in modo simile a un'estensione o un add-on che rende la GenAI più rilevante, aggiornata e precisa. È un meccanismo fondamentale che colma il divario tra la vasta ma generica conoscenza degli LLM e la necessità di informazioni specifiche e affidabili in contesti particolari.

Perché RAG è necessario?

Ma perché l'aggiunta di dati esterni è così necessaria per le applicazioni LLM in ambito aziendale? La maggior parte dei grandi modelli linguistici è stata addestrata su una quantità enorme di dati accessibili pubblicamente (ad esempio, internet). Questo permette loro di coprire uno spettro molto ampio e di avere (quasi) sempre una risposta pronta. Tuttavia, nell'ambito delle applicazioni aziendali, si verificano problemi significativi che RAG mira a risolvere.

Mancanza di accuratezza

Gli LLM operano secondo il principio della probabilità: per rispondere a una domanda, non vengono necessariamente utilizzate solo le informazioni corrette, ma soprattutto quelle statisticamente più probabili. Le risposte possono quindi essere false, prive di senso o completamente inventate. Tali allucinazioni dell'IA sono del tutto normali per gli LLM. Nelle applicazioni aziendali, tuttavia, possono causare danni enormi. Immaginate un chatbot di assistenza clienti che fornisce informazioni errate su un prodotto o un sistema di supporto decisionale che genera dati finanziari fittizi; le conseguenze potrebbero essere disastrose. RAG introduce un meccanismo di verifica esterno che riduce drasticamente questo rischio, ancorando le risposte a fatti verificabili.

Mancanza di contesto

Sebbene i grandi modelli linguistici siano bravi a generare un linguaggio convincente, non comprendono realmente il significato del linguaggio elaborato. Nel machine learning, questo fenomeno è chiamato "pappagallo stocastico": l'LLM ripete a pappagallo senza avere una vera comprensione. Le risposte sono a volte irrilevanti, ambigue, incomplete o sembrano estrapolate dal contesto. Ma proprio questo contesto è fondamentale per lo specifico caso d'uso. Senza un contesto aziendale specifico, un LLM potrebbe non distinguere tra diverse politiche aziendali o interpretare erroneamente i termini tecnici di un settore. RAG fornisce il contesto necessario attingendo a fonti di dati pertinenti, garantendo che le risposte siano non solo linguisticamente corrette ma anche semanticamente appropriate.

Mancanza di spiegabilità

Gli LLM non sono in grado di verificare i dati che forniscono, di spiegarli o di tracciarne l'origine. In alcuni casi, inventano persino una fonte, il che compromette massicciamente la fiducia nell'applicazione. Inoltre, la mancanza di trasparenza è in contrasto con numerosi requisiti di conformità normativa e direttive sull'IA. In settori regolamentati come la finanza o la medicina, la capacità di spiegare la provenienza di ogni informazione è cruciale. RAG affronta questa sfida offrendo un percorso chiaro verso i dati sorgente, permettendo agli utenti di verificare le informazioni e di comprendere il processo decisionale del modello, un requisito indispensabile per la fiducia e la conformità.

Mancanza di attualità

I grandi modelli linguistici sono pre-addestrati e basati su dati statici. Aggiornamenti o ri-addestramenti regolari sono estremamente dispendiosi in termini di tempo e costi. Di conseguenza, le applicazioni generate spesso mancano di attualità. ChatGPT, ad esempio, per molto tempo si è basato su conoscenze risalenti al 2021. In un mondo in rapida evoluzione, le informazioni obsolete possono essere inutili o addirittura dannose. Immaginate un LLM che fornisce consigli legali basati su leggi abrogate o informazioni di mercato non più valide. RAG permette di mantenere gli LLM aggiornati con le informazioni più recenti senza la necessità di un costoso e lungo ri-addestramento, fornendo un flusso costante di dati "freschi".

Prima che gli LLM vengano utilizzati in azienda, è fondamentale risolvere questi problemi e adattare i modelli linguistici al rispettivo caso d'uso. RAG permette proprio questo, trasformando gli LLM da strumenti generici a soluzioni aziendali altamente specializzate e affidabili.

I vantaggi di RAG

RAG combina due approcci distinti ma complementari: modelli basati su query e modelli generativi. I modelli basati su query recuperano la conoscenza da fonti di dati esterne (ad esempio, il proprio database aziendale) e integrano i dati specifici in tempo reale nei modelli linguistici generativi. In questo modo, RAG può affrontare efficacemente i problemi fondamentali sopra menzionati, fornendo una soluzione robusta e versatile.

Accuratezza

I dati supplementari di RAG possono colmare le lacune di conoscenza degli LLM e rappresentare una fonte di verità affidabile. Ciò riduce il rischio di allucinazioni dell'IA, mentre migliora l'accuratezza – e la correttezza – della risposta. Le informazioni recuperate da un database aziendale interno, ad esempio, sono intrinsecamente più affidabili e pertinenti rispetto a quelle apprese da un vasto corpus di dati pubblici che potrebbe includere informazioni contraddittorie o errate.

Contesto

Il contesto si crea quando le informazioni vengono collegate tra loro e analizzate nella loro totalità. RAG assicura proprio questo: l'LLM può integrare i prompt con dati rilevanti, fornendo così risposte complete e profonde. Quando un utente chiede un'informazione specifica, RAG non solo recupera il fatto, ma anche le relazioni e i dati circostanti che aiutano a costruire una risposta coerente e significativa, evitando l'ambiguità e la superficialità.

Spiegabilità

Facendo riferimento alle fonti di dati fornite da RAG, i modelli linguistici possono nominare l'esatta origine delle informazioni. Fornisce inoltre agli LLM un quadro di riferimento per spiegare perché hanno utilizzato determinate informazioni per un determinato prompt. Questo aspetto è cruciale per la trasparenza e la verificabilità, soprattutto in ambienti professionali e regolamentati. Gli utenti possono vedere da dove provengono le informazioni, aumentando la fiducia e permettendo la convalida indipendente.

Attualità

Con RAG, gli LLM possono essere mantenuti aggiornati con le conoscenze più recenti, senza dover effettuare un costoso ri-addestramento o modificare il modello linguistico. Come attraverso un afflusso costante di acqua fresca, i dati attuali vengono aggiunti e garantiscono risposte sempre aggiornate. Questo significa che un LLM può attingere a nuove politiche aziendali, dati di vendita recenti o notizie di settore appena pubblicate non appena queste vengono inserite nel database di riferimento, rimanendo sempre all'avanguardia senza interruzioni operative.

Come funziona RAG

Al suo interno, RAG si concentra sul collegare la conoscenza interna degli LLM con fonti di conoscenza esterne. Per capire come funziona l'approccio, vale la pena dare un'occhiata all'architettura RAG e al processo di risposta esemplificativo degli LLM (come illustrato in diagrammi tipici che mostrano il flusso di dati).

Architettura RAG e processo di risposta

Il processo si articola in diverse fasi sequenziali e interconnesse, che assicurano che l'LLM generi risposte informate e contestuali:

Inserimento di un prompt: Un utente scrive un prompt per porre un compito o una domanda allo strumento GenAI basato su LLM. Questo è il punto di partenza per ogni interazione, dove l'intenzione dell'utente viene espressa.
Ricerca intelligente (Smart Search): Basandosi sul prompt, l'applicazione nell'LLM avvia una ricerca intelligente (Smart Search) e la confronta con le informazioni di una fonte di dati esterna. Di solito viene utilizzata la cosiddetta ricerca di similarità vettoriale: la query viene convertita in un vettore – una rappresentazione numerica – con cui i dati nel database simili al vettore possono essere trovati. Questo processo permette di identificare informazioni semanticamente pertinenti all'interno di vaste raccolte di dati, traducendo il linguaggio naturale in un formato comprensibile per le macchine. Tuttavia, la ricerca vettoriale ha anche dei limiti, come vedremo più avanti nella sezione su GraphRAG.
Recupero delle informazioni (Information Retrieval): Maggiore è la somiglianza tra il vettore della query e i dati, maggiore è la rilevanza che l'LLM attribuisce alle informazioni per l'elaborazione del prompt. I dati vengono estratti dal database esterno, restituiti alla ricerca e lì aggiunti al prompt originale. Questa operazione è nota come Information Retrieval (recupero di informazioni). Il recupero è dinamico e mirato, garantendo che solo le informazioni più pertinenti e utili siano presentate all'LLM.
Generazione della risposta: Tornato nell'applicazione GenAI, l'LLM genera una risposta basata sul prompt, sui propri dati di addestramento e sui dati "aggiuntivi" esterni, e la fornisce all'utente in linguaggio naturale. L'LLM agisce qui come un compositore intelligente, fondendo la sua vasta conoscenza linguistica con le informazioni specifiche e aggiornate fornite dal sistema RAG, per produrre una risposta che sia sia fluida che factual.

Questa interazione fluida tra recupero e generazione è ciò che rende RAG così potente, consentendo agli LLM di superare le loro limitazioni intrinseche e di fornire risposte di alta qualità che non sarebbero possibili con un approccio standalone.

Il ruolo di GraphRAG

Quando si tratta dell'implementazione di RAG, la già menzionata ricerca di similarità vettoriale è considerata lo standard per trovare risultati rilevanti. Tuttavia, man mano che i casi d'uso di GenAI diventano più complessi, i limiti di questa tecnologia diventano più evidenti nella pratica.

Ad esempio, la ricerca vettoriale può identificare solo similarità semantiche e generare risposte basate sull'associazione di parole. Le manca la struttura per analizzare i singoli elementi dei vettori o per collegare i punti tra loro. Di conseguenza, in presenza di relazioni complesse, manca il contesto per rispondere alle domande in modo olistico. Un nuovo approccio che utilizza la ricerca vettoriale per RAG in combinazione con i Knowledge Graph è GraphRAG.

I Knowledge Graph organizzano i dati provenienti da diverse fonti e li rappresentano come nodi (ad esempio, persone, luoghi o eventi) che sono collegati tramite cosiddetti bordi (relazioni). Il modello dei grafi descrive i dati in un modo che rimane intuitivamente comprensibile per l'uomo. Allo stesso tempo, possono anche essere elaborati dalle macchine. I Knowledge Graph consentono approfondimenti contestuali e superano così le limitazioni fondamentali della ricerca vettoriale. Un LLM basato su GraphRAG può confrontare le similarità semantiche nei testi e allo stesso tempo comprendere il contesto dei dati strutturati. Le risposte generate in questo modo sono più "vicine" alla domanda reale, fornendo non solo fatti ma anche le relazioni e le implicazioni di tali fatti all'interno di un sistema di conoscenza strutturato. Questo è particolarmente vantaggioso per domande che richiedono inferenze complesse o la comprensione di dipendenze multiple tra entità.

I principali casi d'uso per RAG

Gli LLM potenziati da RAG consentono una vasta gamma di casi d'uso pratici. Sono particolarmente importanti in aree che richiedono una profonda comprensione di grandi quantità di dati e relazioni complesse. La loro capacità di fornire informazioni precise, contestuali e aggiornate li rende strumenti indispensabili in numerosi settori aziendali. Ecco un esempio significativo:

Chatbot aziendale: Un chatbot basato su RAG fornisce agli utenti risposte precise, dettagliate e contestuali. A differenza dei chatbot tradizionali che potrebbero attingere solo a un set predefinito di risposte o a una base di conoscenza generica, un chatbot RAG può accedere in tempo reale ai database interni dell'azienda, ai manuali dei prodotti, alle politiche aziendali, ai dati CRM o a qualsiasi altra fonte di conoscenza proprietaria. Questo significa che può rispondere a domande molto specifiche come "Qual è la politica di reso per un articolo acquistato più di 30 giorni fa?" fornendo la sezione esatta della politica aziendale, o "Qual è lo stato del mio ordine con il numero X?" recuperando le informazioni aggiornate dal sistema logistico. La sua capacità di citare fonti e spiegare il contesto delle risposte aumenta la fiducia degli utenti e riduce il carico di lavoro degli agenti di supporto umano, migliorando significativamente l'esperienza del cliente e l'efficienza operativa. La natura contestuale di RAG permette al chatbot di comprendere le sfumature delle richieste degli utenti e di fornire risposte che vanno oltre la semplice riproduzione di informazioni, offrendo veri e propri approfondimenti basati sulla conoscenza aziendale.

Questa singola applicazione esemplifica come RAG possa trasformare l'interazione tra utenti e sistemi AI, rendendola più produttiva, affidabile e soddisfacente. La chiave del successo di RAG risiede nella sua capacità di democratizzare l'accesso alla conoscenza aziendale, rendendola immediatamente disponibile e utilizzabile in modo intelligente dagli LLM.