Le sistemi di Agentic AI si fondano sulle Large Language Models (LLM) e si collegano a strumenti, memoria e ambienti esterni. Hanno già supportato scoperte scientifiche, sviluppo software e ricerca clinica, ma fatica con l’utilizzo non affidabile degli strumenti, la pianificazione a lungo termine e la generalizzazione. La ricerca intitolata Adaptation of Agentic AI, pubblicata su arXiv, propone un quadro unificato per il loro adattamento, mappato in un insieme compatto e matematicamente definito.

Come il paper modella un sistema Agentic AI

Lo studio presenta il sistema Agentic AI come composto da un modello di base e da tre moduli principali. Il modulo di pianificazione scompone gli obiettivi in sequenze di azioni, utilizzando procedure statiche come Chain-of-Thought e Tree-of-Thought, o procedure dinamiche come ReAct e Reflexion che reagiscono a feedback. Il modulo di utilizzo degli strumenti connette l’agente a motori di ricerca, API, ambienti di esecuzione codice, Model Context Protocols e browser automation. Il modulo di memoria conserva contesto a breve termine e conoscenza a lungo termine, gestibile tramite generazione aumentata da retrieval.

L’adattamento avviene attraverso l’ottimizzazione di prompt o parametri di questi moduli. Le tecniche include il fine tuning supervisionato, metodi basati su preferenze come Direct Preference Optimization, tecniche di apprendimento per rinforzo come Proximal Policy Optimization e Group Relative Policy Optimization, e tecniche efficienti in termini di parametri come adattamento di basso rango.

Quattro paradigmi di adattamento

Il documento introduce quattro paradigmi di adattamento, ottenuti combinando due scelte binarie. La prima dimensione riguarda il bersaglio dell’adattamento: adattamento dell’agente o adattamento degli strumenti. La seconda riguarda il segnale di supervisione: l’esecuzione degli strumenti o l’output finale dell’agente. Queste combinazioni danno vita a A1 e A2 per l’adattamento dell’agente, e T1 e T2 per l’adattamento degli strumenti.

A1: Adattamento dell'agente segnalato dall’esecuzione degli strumenti.

A2: Adattamento dell'agente segnalato dall’output finale.

T1: Adattamento degli strumenti non riferito a un particolare agente.

T2: Adattamento degli strumenti supervisionato da un agente fisso.

I quattro paradigmi offrono un modo di classificare le attuali soluzioni in base a supervisione e adattamento. Ogni paradigma si concentra su diversi aspetti del processo decisionale del sistema di AI, con diverse implicazioni per l’addestramento e il raffinamento del modello.

A1: Apprendimento da feedback esecutivo degl’strumenti

In A1, l’agente riceve un input x e produce un output strutturato a, gli strumenti restituiscono un risultato y, e l'ottimizzazione O_tool misura il successo. L’obiettivo può includere metriche come esattezza, precisione, o qualità della ricerca. Il documento mostra come strumenti esistenti come Toolformer, ToolAlpaca e Gorilla utilizzano risultati reali degli strumenti per costruire o filtrare traiettorie di addestramento. Tali sistemi mantengono il segnale di supervisione a livello comportamentale degli strumenti.

DeepRetrieval è un esempio chiave di A1 basato sul reinforzamento. Trasforma la riformulazione di query in un processo decisionale di Markov, dove lo stato è la query dell’utente, l’azione è la query riscritta e la ricompensa combina metriche di retrieval, precisione di SQL e altri fattori. L’agente si addestra con un Proximal Policy Optimization regolarizzato con KL, applicandosi a vari compiti come ricerca bibliografica, risposta a domande e generazione di codice.

A2: Apprendimento basato sugli output finali dell'agente

Nel paradigma A2, l'obiettivo di ottimizzazione O_agent dipende esclusivamente dall’output finale o prodotto dall’agente, anche se internamente usa strumenti. La ricerca mostra però che supervisionare solo o non è sufficiente per insegnare agli strumenti, in quanto l’agente potrebbe ignorarli pur migliorando la likelihood. Per questo, i sistemi A2 efficaci combinano supervisione sui richiami di strumenti con supervisione sugli output finali, o assegnano ricompense sparse come l’accuratezza di match esatti e le propagano attraverso l’intera traiettoria.

T1: Formazione degli strumenti indipendenti dall’agente

T1 congelando l’agente principale e ottimizzando gli strumenti in base alle loro sole uscite. L’obiettivo O_tool dipende esclusivamente dagli strumenti e si valuta tramite metriche come accuratezza della ricerca, qualità dei ranking, fedeltà della simulazione o successo in compiti a valle. Metodi come DeepRetrieval possono essere riusati in T1 come strumenti autonomi, aggiornati senza dover modificare l’agente centrale.

T2: Strumenti adattati sotto un agente congelato

T2 presuppone un agente A molto potente ma fisso, come spesso capita quando tale agente è un modello fondamentale chiuso. Gli strumenti eseguono i richiami e restituiscono l’esito che l’agente utilizza per produrre o. L’obiettivo è posto di nuovo su O_agent, ma i parametri addestrabili appartengono agli strumenti. Il documento descrive varianti di addestramento con peso sulla qualità, di addestramento basATO sullo scopo e di addestramento di rinforzo, tutte ottimizzando segnali provenienti dagli output finali dell'agente.

La memoria a lungo termine viene trattata come un caso speciale di T2. Essa è un deposito esterno scritto e letto tramite funzioni apprese, mantenendo l'agente congelato. Sistemi di recente come s3, che addestra un cercatore da 7 miliardi di parametri, e AgentFlow, che addestra un pianificatore su moduli modulari, sono esempi pertinenti.

Punti chiave del documento

La ricerca introduce un paradigma a quattro livelli per adattare l’Agentic AI, incrociando due dimensioni: obiettivo (agente o strumenti) e supervisione (output strumentale o finale dell’agente).

Metodi A1 come Toolformer, ToolAlpaca, Gorilla e DeepRetrieval adattano l’agente direttamente dal feedback degli strumenti, come metriche di ricerca, esattezza SQL e risultati di esecuzione, comunemente ottimizzati tramite