Il team di Google Research ha annunciato la disponibilità di un nuovo agentic RAG (Retrieval-Augmented Generation) integrato nel Gemini Enterprise Agent Platform. Questo framework introduce una caratteristica chiamata Cross-Corpus Retrieval, attualmente in preview pubblica. L’obiettivo principale è superare i limiti delle query complesse e multi-source in contesti aziendali.

Che cosa è il nuovo Agentic RAG

L’Agentic RAG introduce un framework che pianifica, ragiona e interagisce iterativamente con le fonti di dati, aumentando la dipendenza e l’accuratezza. Si basa su Cross-Corpus Retrieval, che è ora disponibile come funzione pubblica del Gemini Enterprise Agent Platform. Come altri sistemi multi-agente RAG, funziona con agenti che collaborano. Il punto distintivo sta nella verifica del contesto sufficiente prima di generare una risposta.

Confronti con il standard RAG tradizionale mostrano un aumento fino al 34% delle metriche di accuratezza fattiografica. Google ha effettuato test anche sui propri dataset proprietari, segnalando miglioramenti sostanziali nella grounding e nella capacità di ragionamento su compiti specifici del dominio.

L'architettura multi-agente

Immagina questa tecnologia come un dipartimento di ricerca organizzato, non una semplice funzione di ricerca singola. Un sistema RAG tradizionale trova corrispondenze nei documenti e genera una risposta. Invece, il framework multi-agente divide il lavoro in ruoli specializzati:

    • Il gestore decide che la richiesta non richiede un passo singolo e delega.
    • L'agente piano mappa i percorsi informativi attraverso fonti di dati.
    • L’agente di riscrittura di query modifica una richiesta vaga in più interrogazioni mirate.
    • L’agente di distribuzione invia queste interrogazioni a fonti diverse.

Dopo questa distribuzione, un LLM aggrega il contesto raccolto e genera una risposta.

Cosa lo rende diverso dagli altri framework

La caratteristica chiave del framework è la persistenza. Esso si rende conto quando mancano informazioni ed effettua ricerche successive. Questo approccio evita che il modello arrivi a un risultato parziale o non inquadri correttamente i dati iniziali.

Questa persistenza è gestita da un agente nuovo nel framework di Google: il Sufficient Context Agent. Un esempio può chiarire questa dinamica: un medico cerca informazioni su una lista di farmaci, restrizioni alimentari e reazioni allergiche di un paziente.

Fase 1: Orchestrazione

Il Root Agent analizza la richiesta e delega. L'agente piano indica le aree critiche (come Farmacia, Nutrizione e Notes cliniche). L’agente di riscrittura suddivide la richiesta in più interrogazioni semplici.

Fase 2: Ricerca

L'agente RAG lancia contemporaneamente query su diverse fonti. Trova informazioni sui farmaci e la dieta, ma non su allergie. Un sistema RAG tradizionale potrebbe arrestarsi, fornendo una risposta incompleta.

Fase 3: Verifica del contesto sufficiente

L’agente Sufficient Context inizia a esaminare i dati estratti dal database. Verifica la traccia intermedia generata dai prompt e gli estratti. Successivamente, effettua un’analisi sulle parti non coperte. Non segnala solo il mancato contesto, ma compila un log dettagliato sulle lacune.

Fase 4: Iterazione

L’agente di riscrittura genera una nuova query per il termine mancante. L’agente RAG esamina anche i file precedentemente trascurati, recuperando i dati necessari.

Fase 5: Sintesi

L’agente garantisce la completezza del contesto. Dopo, l’agente di sintesi compone una risposta esatta e chiara.

Gli esperimenti con FramesQA

Il gruppo ha valutato il modello su FramesQA, basato su un dataset di 824 query e 2.676 documenti PDF. La baseline del sistema è stata realizzata tramite il proprio motore RAG Engine, dotato di parser avanzato e re-rank. L’Agentic RAG ha funzionato in due modi:

    • Single-corpus: recupera solamente da FramesQA.
    • Cross-corpus: include tre dataset distrattori — simulando aziende con database gestiti da diversi team.

L’accuratezza è stata verificata utilizzando un sistema LLM-as-a-judge.

Risultati chiave

Nel formato cross-corpus, il modello ha ottenuto un’accuratezza del 90,1% selezionando correttamente il corpus adatto tra quattro. La latenza è rimasta entro un intervallo medio del 3% tra i due metodi.

Tabella di confronto

Per una chiara comparazione:

    • Vanilla RAG (RAG Engine): utilizza corrispondenze a passo singolo.
    • Standard Agentic RAG: multi-agente con passo unico.
    • Google Cross-Corpus Agentic RAG: multi-agente iterativo.

Usi pratici

Il framework è progettato per lavori di tipo multi-step e multi-sorgente. I team di sanità possono compilare dati medici, alimentari e allergeni da diversi archivi. I team informatici possono tracciare un ID server a una specifica in un database separato. I team finanziari possono collegare budget a registrazioni temporali. Il design a multi-corpora aiuta le aziende con database amministrati da diversi gruppi.

Punti cruciali

    • Google ha aggiunto un Sufficient Context Agent che ricercherebbe finché il contesto non risulterà completo.
    • La funzione Cross-Corpus Retrieval nel Gemini Enterprise Agent Platform è in preview pubblica.
    • La precisione fattiografica risulta essere fino al 34% superiore al modello RAG tradizionale.
    • I test hanno dimostrato la capacità di rispondere al 90,1% delle query su FramesQA scegliendo correttamente tra quattro corpora.
    • L’intervallo di tempo di risposta si è mantenuto all’interno del 3% tra single-corpus e cross-corpus.