Nel 2026, un nuovo benchmark noto come AA-Briefcase ha svelato uno dei limiti più importanti delle tecnologie di Intelligenza Artificiale (AI) nel contesto del lavoro cognitivo reale. Lo studio mette alla prova i modelli AI su una serie di compiti che imitano un progetto di lavoro cognitivo esteso – tipicamente richiedente settimane di lavoro da parte di un essere umano. A differenza di benchmark precedenti, che si limitavano a compiti mirati e isolati, il test di AA-Briefcase presenta ai modelli un numero enorme di dati grezzi frammentati: da conversazioni Slack, ad email, trascrizioni di meeting, e interi esportatori di dati aziendali.

La performance degli AI nel benchmark

Nel benchmark, Claude Fable 5, considerato uno dei modelli più avanzati, riesce a soddisfare tutti i criteri solo nel 3 percento delle attività, rappresentando l'ottima prestazione tra le varie AI testate. Questo significa che meno di una su trenta task vengono completate con successo. Ancora più sorprendente è che su 31 degli 91 compiti proposti, nessun modello AI riesce neanche a raggiungere la soglia del 50 percento di completamento. L'efficienza e la complessità di queste task richiedono l’incrocio di informazioni e il completamento di diverse tappe logiche, che sono difficili da automatizzare interamente.

La natura mutevole degli errori AI

Con il miglioramento dei modelli AI, anche la natura dei loro errori evolve. I modelli meno avanzati falliscono spesso durante le attività base, ad esempio non individuando file rilevanti o producendo risultati non utili. Tuttavia, i modelli più sofisticati commettono errori più difficili da individuare. Essi completano correttamente i criteri superficiali, ma possono mancare nei dettagli che richiederebbero un’analisi integrata di diversi file. Per esempio, un modello potrebbe non integrare correttamente un'email con il contesto di una chat Slack o una relazione di vendita, compromettendo in modo subdolo tutta l’analisi.

Costi considerevolmente variabili

Un aspetto non trascurabile è il costo delle esecuzioni. Il prezzo varia considerevolmente, con una differenza di oltre 800 volte nella tariffa complessiva per compito. Modello come DeepSeek V4 Flash costa circa 0,04 dollari per task, mentre il più avanzato Claude Fable 5 richiede un budget di 31 dollari per completare un singolo compito. Questi costi riflettono non solo la potenza di elaborazione e la sofisticatezza del modello, ma anche il costo economico di gestire il lavoro parallelo richiesto per gestire la quantità di dati.

Implicazioni per l’uso dell’AI in contesti aziendali

Il benchmark rivela che benché l’AI abbia raggiunto un certo livello di maturità tecnologica, non è ancora in grado di replicare l’efficienza e l’autenticità del lavoro umano in contesti complessi, come progetti aziendali. I risultati mostrano che, per ora, non è pensabile affidare totalmente a questi sistemi la gestione di attività che richiedono intuizione, contesto e relazione diretta con i dati provenienti da fonti multiple.

Consigli pratici per ottimizzare l'uso dell'AI

I risultati di AA-Briefcase offrono comunque alcune indicazioni concrete per aziende e sviluppatori:

Utilizza l’AI come strumento assistivo per compiti ripetitivi come la gestione del flusso di informazioni di base

Combina modelli diversi per coprire compiti specifici, ad esempio un modello economico per l'immissione dati e un modello avanzato per l'analisi

Riduci l’input iniziale ai modelli AI per migliorare l’efficacia e limitare i costi, soprattutto quando non è richiesta alta flessibilità contestuale

Controlla sempre i risultati con supervisione umana, specialmente in compiti cruciali dove il contesto non può essere ricostruito solo da dati grezzi

Adotta una strategia di scalabilità quando si decide di integrare l’AI in workflow complessi

Il futuro dell’AI e il ruolo umano

I benchmark come AA-Briefcase non solo svelano i limiti dell’AI, ma aprono nuovi orizzonti sull’organizzazione del lavoro. Pur con tutti gli avanzamenti tecnologici, i modelli di AI non sostituiranno i lavoratori umani, ma potranno essere utilizzati per aumentare la produttività in compiti specifici. Per il futuro, l’obiettivo potrebbe essere lo sviluppo di modelli in grado di integrare meglio dati diversificati con una comprensione più contestuale.