I framework agentici stanno diventando sempre più popolari grazie alla loro capacità di eseguire compiti complessi in maniera autonomo e intelligente. L’AIMultiple ha condotto un benchmarking su quattro framework open-source, conducendo 2.000 test (5 compiti, 100 esecuzioni ciascuna) per valutare la latenza end-to-end, il consumo di token e le differenze architetturali.

Risultati principali

LangGraph si distingue come il framework più veloce con i valori di latenza più bassi in tutti i compiti, mentre LangChain mostra la massima efficienza in termini di token utilizzati. AutoGen si colloca tra i primi in termini di latenza, mentre CrewAI presenta un profilo complessivo molto pesante.

LangChain: maggiore efficienza in termini di token

LangGraph: minor latenza in tutti i task

AutoGen: buona performance in termini di latenza

CrewAI: maggior consumo di risorse e token

Overhead dei singoli framework

Per valutare l’overhead di ciascun framework, si è misurato il tempo necessario a chiamare uno strumento singolo e restituire subito il risultato, senza svolgere compiti più complessi.

LangChain e LangGraph: per task semplici, la prestazione è vicina a codice non agente.

AutoGen: presenta costi leggermente superiori in latenza e token rispetto a LangChain e LangGraph.

CrewAI: mostra un overhead manageriale elevato, utilizzando quasi 3 volte più token e impiegando tre volte più tempo.

LangChain & LangGraph

In task semplici, LangChain e LangGraph completano le richieste in meno di 5 secondi e utilizzano meno di 900 token di prompt. La loro architettura semplificata riduce al minimo l’overhead gestionale.

AutoGen

AutoGen richiede un ciclo di messaggistica tra due agenti, anche per task semplici, con una leggera penalizzazione in termini di latenza e token.

CrewAI

CrewAI presenta un approccio metodologico molto meticoloso, con un processo di verifica a più tappe tra il piano e l’analisi. Tuttavia, questo si traduce in un consumo considerevolmente elevato di token e in ritardi nella risposta.

Task 2: Memoria Statale e Combinazione

In questo compito, si esaminavano le capacità dei framework riguardo alla memorizzazione di gruppi di filtri diversi e alla combinazione dei loro dati.

CrewAI mostra il livello più alto di trasparenza infrastrutturale, ma al costo di un consumo estremamente elevato di risorse.

LangChain conclude il task in 5-6 passaggi senza deviazioni.

AutoGen mostra un buon equilibrio tra latenza e token, pur aggiungendo occasionalmente un passo di verifica.

LangGraph si distingue per la stabilità grazie alla sua architettura a grafico.

Traduzione di Condizioni Numeriche

In questo task, si valutava la capacità dei framework di tradurre correttamente condizioni numeriche in parametri per gli strumenti.

LangChain & LangGraph passano i parametri correttamente al tool, senza modificarli.

AutoGen introduce occasionalmente un passo di verifica tra LLM e strumento.

CrewAI mostra il peggior risultato, con errori di conversione e un alto consumo di token.

Risposte agli Errori

Questo task mirava a capire come i framework reagiscono a errori di rete, tempo limite e sforo del limite di richieste.

LangChain & LangGraph cercano soluzioni alternative autonomamente, scomponendo il task.

AutoGen mostra un buon equilibrio nella gestione degli errori.

CrewAI mostra il peggior comportamento, con errori persistenti nella gestione parametri.

Sintesi Finale

I framework agentici open-source variano significativamente in termini di risorse utilizzate, latenza e flessibilità.

LangChain emerge come scelta ideale per compiti lineari e non complessi, grazie al suo bilanciamento ottimale.

LangGraph presenta un’elevata velocità e stabilità, perfetta per compiti che richiedono precisione e controllo.

AutoGen offre un buon equilibrio con un’architettura conversazionale flessibile.

CrewAI si rivela eccellente in compiti complessi con transizioni di stato multi-fattore, nonostante l'elevato overhead.