Introduzione
La generazione aumentata da recupero (RAG) potrebbe essere stata necessaria per la prima ondata di intelligenza artificiale aziendale, ma si sta rapidamente evolvendo in qualcosa di molto più grande. Negli ultimi due anni, le organizzazioni hanno realizzato che il semplice recupero di frammenti di testo utilizzando la ricerca vettoriale non è sufficiente. Il contesto deve essere governato, spiegabile e adattivo allo scopo di un agente.
Questo articolo esplora come tale evoluzione sta prendendo forma e cosa significa per i leader dei dati e dell'IA che costruiscono sistemi in grado di ragionare in modo responsabile. Vi forniremo risposte a alcune domande chiave:
- Come i grafi della conoscenza migliorano RAG? Forniscono struttura e significato ai dati aziendali, collegando entità e relazioni tra documenti e database per rendere il recupero più accurato e spiegabile sia per gli esseri umani che per le macchine.
- Come i livelli semantici aiutano gli LLM a recuperare risposte migliori? I livelli semantici standardizzano le definizioni dei dati e le politiche di governance in modo che gli agenti IA possano comprendere, recuperare e ragionare su tutti i tipi di dati, nonché su strumenti IA, memorie e altri agenti.
- Come sta evolvendo RAG nell'era dell'IA agentica? Il recupero sta diventando un passo in un ciclo di ragionamento più ampio (sempre più spesso chiamato "ingegneria del contesto") in cui gli agenti scrivono, comprimono, isolano e selezionano dinamicamente il contesto attraverso dati e strumenti.
Riepilogo: La generazione aumentata da recupero (RAG)
La generazione aumentata da recupero (RAG) è salita alla ribalta in seguito al lancio di ChatGPT e alla consapevolezza che esiste un limite alla finestra di contesto: non è possibile copiare tutti i propri dati nell'interfaccia di chat. I team hanno utilizzato RAG e le sue varianti, come GraphRAG (RAG che utilizza un database a grafo), per inserire contesto aggiuntivo nei prompt al momento della query. La popolarità di RAG ha presto esposto le sue debolezze: inserire informazioni errate, irrilevanti o semplicemente troppe nella finestra di contesto può effettivamente degradare, anziché migliorare, i risultati. Nuove tecniche come i "re-ranker" sono state sviluppate per superare queste limitazioni, ma RAG non era stato costruito per sopravvivere nel nuovo mondo agentico.
Man mano che l'IA si sposta dai singoli prompt agli agenti autonomi, il recupero e le sue varianti sono solo uno strumento nella cassetta degli attrezzi di un agente, accanto alla scrittura, compressione e isolamento del contesto. Con la crescita della complessità dei flussi di lavoro e delle informazioni necessarie per completarli, il recupero continuerà ad evolversi (anche se potrebbe essere chiamato ingegneria del contesto, RAG 2.0 o recupero agentico). La prossima era del recupero (o ingegneria del contesto) richiederà la gestione dei metadati attraverso strutture di dati (non solo relazionali) così come strumenti, memorie e gli agenti stessi. Valuteremo il recupero non solo per l'accuratezza, ma anche per la pertinenza, la fondatezza, la provenienza, la copertura e la recentità. I grafi della conoscenza saranno fondamentali per un recupero consapevole del contesto, consapevole delle politiche e semanticamente fondato.
L'ascesa di RAG
Cos'è RAG?
RAG, o generazione aumentata da recupero, è una tecnica per recuperare informazioni pertinenti al fine di aumentare un prompt che viene inviato a un LLM (modello linguistico di grandi dimensioni) per migliorare la risposta del modello.
Poco dopo che ChatGPT divenne mainstream nel novembre 2022, gli utenti si resero conto che gli LLM non erano (si spera) stati addestrati sui loro dati specifici. Per colmare questa lacuna, i team hanno iniziato a sviluppare modi per recuperare dati pertinenti al momento della query per aumentare il prompt – un approccio noto come generazione aumentata da recupero (RAG). Il termine derivava da un articolo di Meta del 2020, ma la popolarità dei modelli GPT ha portato il termine e la pratica alla ribalta.
Strumenti come LangChain e LlamaIndex hanno aiutato gli sviluppatori a costruire queste pipeline di recupero.
LangChain è stato lanciato all'incirca nello stesso periodo di ChatGPT come un modo per concatenare diversi componenti come modelli di prompt, LLM, agenti e memoria per applicazioni di IA generativa. Anche
LlamaIndex è stato lanciato nello stesso periodo come un modo per affrontare la finestra di contesto limitata in GPT3 e quindi abilitare RAG. Mentre gli sviluppatori sperimentavano, si sono resi conto che i database vettoriali fornivano un modo rapido e scalabile per alimentare la parte di recupero di RAG, e database vettoriali come
Weaviate,
Pinecone e
Chroma sono diventati parti standard dell'architettura RAG.
Cos'è GraphRAG?
GraphRAG è una variazione di RAG in cui il database sottostante utilizzato per il recupero è un grafo della conoscenza o un database a grafo.
Una variazione di RAG è diventata particolarmente popolare: GraphRAG. L'idea qui è che i dati sottostanti per integrare i prompt degli LLM siano archiviati in un grafo della conoscenza. Ciò consente al modello di ragionare su entità e relazioni piuttosto che su blocchi di testo piatti. All'inizio del 2023, i ricercatori hanno iniziato a pubblicare articoli che esploravano come i grafi della conoscenza e gli LLM potessero completarsi a vicenda. Alla fine del 2023, Juan Sequeda, Dean Allemang e Bryon Jacob di data.world hanno pubblicato un articolo che dimostrava come i grafi della conoscenza possano migliorare l'accuratezza e la spiegabilità degli LLM. Nel luglio 2024, Microsoft ha reso open source il suo framework
GraphRAG, rendendo il recupero basato su grafi accessibile a un pubblico di sviluppatori più ampio e consolidando GraphRAG come una categoria riconoscibile all'interno di RAG.
L'ascesa di GraphRAG ha riacceso l'interesse per i grafi della conoscenza, in modo simile a quando Google lanciò il suo Knowledge Graph nel 2012. L'improvvisa domanda di contesto strutturato e di recupero spiegabile ha dato loro nuova rilevanza.
Dal
2023 al 2025, il mercato ha risposto rapidamente con una serie di importanti acquisizioni e fusioni:
- 23 gennaio 2023 – Digital Science ha acquisito metaphacts, i creatori della piattaforma metaphactory: “una piattaforma che supporta i clienti nell'accelerare la loro adozione dei grafi della conoscenza e nel promuovere la democratizzazione della conoscenza.”
- 7 febbraio 2023 – Progress ha acquisito MarkLogic nel febbraio 2023. MarkLogic è un database NoSQL multimodale, con una particolare forza nella gestione dei dati RDF, il formato dati principale per la tecnologia dei grafi.
- 18 luglio 2024 – Samsung ha acquisito Oxford Semantic Technologies, produttori del database a grafo RDFox, per alimentare il ragionamento su dispositivo e le capacità di conoscenza personale.
- 23 ottobre 2024 – Ontotext e Semantic Web Company si sono fuse per formare Graphwise, posizionandosi esplicitamente attorno a GraphRAG. “L'annuncio è significativo per l'industria dei grafi, in quanto eleva Graphwise a organizzazione di IA per grafi della conoscenza più completa e stabilisce un chiaro percorso verso la democratizzazione dell'evoluzione di Graph RAG come categoria.”
- 7 maggio 2025 – ServiceNow ha annunciato l'acquisizione di data.world, integrando un catalogo dati basato su grafi e un livello semantico nella sua piattaforma di flusso di lavoro aziendale.
Questi sono solo gli eventi relativi ai grafi della conoscenza e alla tecnologia semantica correlata. Se estendiamo questa analisi per includere la gestione dei metadati e/o i livelli semantici più in generale, ci sono stati più accordi, in particolare l'acquisizione per 8 miliardi di dollari del leader dei metadati Informatica da parte di Salesforce.
Queste mosse segnano un chiaro cambiamento: i grafi della conoscenza non sono più solo strumenti di gestione dei metadati, sono diventati la spina dorsale semantica per l'IA e si sono avvicinati alle loro origini come sistemi esperti. GraphRAG ha reso nuovamente rilevanti i grafi della conoscenza, conferendo loro un ruolo critico nel recupero, nel ragionamento e nella spiegabilità.
Nel mio lavoro quotidiano come responsabile di prodotto per un'azienda di dati semantici e IA, lavoriamo per colmare il divario tra i dati e il loro significato effettivo per alcune delle più grandi aziende del mondo. Rendere i loro dati pronti per l'IA è un mix di renderli interoperabili, scopribili e utilizzabili in modo che possano alimentare gli LLM con informazioni contestualmente rilevanti per produrre risultati sicuri e accurati. Questo non è un compito facile per le grandi imprese altamente regolamentate e complesse che gestiscono quantità esponenziali di dati.
Il declino di RAG e l'ascesa dell'ingegneria del contesto
RAG è morto? No, ma si è evoluto. La versione originale di RAG si basava su una singola ricerca vettoriale densa e prendeva i risultati migliori per alimentarli direttamente in un LLM. GraphRAG si è basato su questo aggiungendo alcune analisi di grafi e filtri di entità e/o relazioni. Queste implementazioni si sono quasi immediatamente scontrate con vincoli in termini di pertinenza, scalabilità e rumore. Questi vincoli hanno spinto RAG verso nuove evoluzioni note con molti nomi:
recupero agentico,
RAG 2.0 e, più recentemente,
ingegneria del contesto. L'implementazione originale e ingenua è in gran parte "morta", ma i suoi discendenti stanno prosperando e il termine stesso continua ad essere utilizzato per indicare queste forme avanzate e sofisticate di recupero.