Nel 2026, AIMultiple ha effettuato un confronto approfondito su quattro framework di agenti IA opensource, eseguendo 2000 esecuzioni complessive (cinque compiti, 100 test per framework), per valutare la latenza end-to-end, il consumo di token e le differenze architetturali.

Criteri di Valutazione

La valutazione si è concentrata su come ogni framework influisce sul comportamento degli agenti e il suo impatto sulla latenza e sull'utilizzo dei token.

Risultati Generali

LangGraph risulta il framework più veloce con i valori di latenza più bassi su tutti i compiti.

LangChain offre l’efficienza maggiore in termini di token, ma presenta la latenza più elevata.

AutoGen si distingue per la sua leadership in termini di latenza; LangGraph e LangChain seguono immediatamente.

CrewAI mostra la latenza complessivamente più alta.

Metodologia

Per misurare le prestazioni, abbiamo avviato un test elementare richiamando un singolo strumento senza condurre complesse deduzioni.

Esempio di Risultati

LangChain e LangGraph in semplici compiti eseguono quasi tanto rapidamente quanto il codice non basato sugli agenti, richiedendo meno di 5 secondi e meno di 900 token d'ingresso. L’architettura degli automi di stato di LangGraph non ha introdotto una latenza sensibile al primo livello di complessità, ma il lavoro di gestione dello stato ha iniziato a mostrarsi con un aumento di complessità delle compiti.

AutoGen presenta latenza e consumo di token leggermente superiori a LangChain e LangGraph a causa del costo base di sua ciclo di conversazione multi-agente, dove due agenti, perfino per un compito un passo, si scambiano messaggi.

CrewAI, anche in un singolo richiamo di strumento, mostra un peso considerevole: quasi triplica sia i token di LangChain che la durata richiesta. Il processo di verifica multi-fase tra le personalità di pianificatore e analista, benché minuzioso, è pesante da un punto di vista delle risorse e privilegia la completezza alla velocità.

Capacità di Gestione dello Stato

Nella seconda compito volevamo sondare la capacità di ciascun framework di conservare e combinare due gruppi diversi di filtri in memoria (persistenza dello stato).

Analisi dei Log

Dai log sono emersi che CrewAI, pur offrendo la più alta trasparenza infrastrutturale, consuma le risorse con maggiore intensità. CrewAI non restituisce i dati recuperati immediatamente, ma li convalida ripetutamente grazie a un meccanismo di autocontrollo. Questo comportamento esplorativo ha spesso portato ad un arresto dei processi a causa del limite massimo di iterazioni, generando risultati non JSON.

Motivo di tale comportamento è che CrewAI aggiunge istruzioni multilivello all’input del sistema, assegnando un ruolo, una missione e una storia a ogni agente, e obbligando una ripetizione simile a ReAct a ogni passo. Perfino nei compiti semplici, l’LLM non può ignorare questa procedura e genera una narrazione interna articolata, una dinamica che si intacca maggiormente quando interagenti sono coinvolti.

Velocità e Risparmio

LangChain si è rivelato il framework più rapido e economico. Dai log si è visto che LangChain svolgeva il compito esattamente in 5–6 mosse dritte: Caricamento → Filtro → Calcolo → Filtro → Calcolo → Output. La semplice gestione dello stato produce uno spreco praticamente nullo e una latenza inferiore agli altri framework.

Economicità e Robustezza

LangChain mostra un equilibrio eccezionale, simile per consumo di token e latenza a LangGraph.

Spesso introduce un ulteriore passaggio di verifica in fase di chiamata dell’outil, rendendolo più lento di LangGraph. Quando un’outil genera un errore o i dati non vengono restituiti come previsto, LangChain aggiorna rapidamente la sua spiegazione e ottiene un output JSON corretto.

LangGraph presenta un'architettura basata su grafi e si è rivelato il più stabile nella sua esecuzione. Lungo l'intera durata di un singolo ciclo, LangGraph mantiene lo stato senza contaminazione reciproca tra segmenti diversi, riducendo al minimo il rischio di distorsioni.

Esempio di Trasferimento Numerico

In una terza compito abbiamo valutato come i framework convertissero condizioni numeriche in linguaggio naturale in parametri esatti. Il modello LLM già conosceva come svolgere tale trasformazione; abbiamo effettivamente testato la capacità dei framework di preservare tali parametri tra ripetizione, contesto e cicli di gestione.

I due framework (sconosciuti) hanno passato direttamente i parametri (tenuremax=12, chargesmin=70) al tool senza ulteriori modifiche, rispettando perfettamente l’output del modello. Questo comportamento efficiente emerge nei dati: entrambi i framework completavano la terza compito in meno di 9 secondi usando meno di 1800 token — il record più basso di quel test.

Analyse di AutoGen

AutoGen ha fornito risultati numerici completamente corretti. In alcuni test, l’AutoGen ha inserito un passo di verifica aggiuntivo prima di inviare i parametri generati al tool, aggiungendo un ulteriore passo alla routine. Sebbene abbia richiesto 2480 token per ottenere 8 secondi, la sua latenza rimaneva equivalente a quella di LangChain. Ciò conferma che, pur presente, il costo della verifica non è significativo.

Comportamento di CrewAI

Nella terza compito, CrewAI ha concluso l’esercizio in 30 secondi, utilizzando 4360 token — il valore più elevato registrato. L’analisi dei log ha rivelato due traiettorie di errore.

Nel caso di output che richiedessero, ad esempio, il valore 68.81%, CrewAI lo ha fornito come 0.6878 (rapporto decimale), indicando una potenziale decontestualizzazione nell’output del framework.

I log hanno registrato che l’LLM inizialmente ha prodotto i parametri corretti: tenuremax=12 e chargesmin=70. Tuttavia, dopo essere rimasto intrappolato in un ciclo “Error di parsing”, CrewAI ha richiesto all’LLM di riesaminare il risultato, spingendotelo verso tenuremax=14 e disattivando il filtro chargem.