Anthropic ha lanciato il nuovo modello Claude Fable 5, che si posiziona al primo posto nel Artificial Analysis Intelligence Index, superando i modelli concorrenti come GPT-5.5. Secondo lo stesso rapporto, l'aumento di prestazione rispetto al predecessore, Opus 4.8, si attesta a circa 5,7 percento, accompagnato però da un raddoppio dei costi. Questo aumento di costo si traduce in prezzi per gli utenti che, in alcuni casi, possono diventare molto significativi.

In testa all’Artificial Analysis Intelligence Index

Il modello Claude Fable 5 raggiunge 64,9 punti nell’indice Intelligent Analysis (AAI) della Artificial Analysis, piazzandosi al primo posto della classifica. La differenza rispetto al secondo posto, occupato da GPT-5.5, è di circa cinque punti. Con questa performance, Anthropic occupa di fatto i primi due posti della classifica.

Più costo ma poca differenza di prezzo per token

Nonostante l’aumento di prestazione, il costo dei token è raddoppiato rispetto a Opus 4.8. Il prezzo per milione di token input/output è passato da 5 / 25 dollari a 10 / 50 dollari rispettivamente. Ciò fa sì che un singolo benchmark completo richieda 9.940 dollari, in confronto ai 4.970 dollari richiesti per il predecessore.

Un simile aumento dei costi non riserva però una sensibile differenza di prezzo per singolo token, soprattutto considerando che l'aumento medio di rendimento delle prestazioni si attesta a 5,7 percento.

Incremento costi e valutazione critica

Le differenze di prezzo vengono giustificate da Anthropic in base al miglioramento generale di capacità. Tuttavia, alcune ricerche dimostrano che i benchmark non rappresentino completamente le capacita' reali di ogni modello.

Il Artificial Analysis Index aggrega dieci valutazioni diverse, offrendo quindi una base più solida rispetto a singoli test e confronti. Nonostante ciò, rimane dibattuta la giustificazione del costo per un modello in cui l’aumento di capacità non risulta esponenziale.

Prestazioni straordinarie in diversi benchmark

In termini di capacità generale, Claude Fable 5 registra un miglioramento su cinque dei dieci benchmark inclusi nel AA Index.

    • Il modello ottiene 40 punti in AA-Omniscience: sette in più rispetto al precedente detentore del primato, il Gemini 3.1 Pro Preview.
    • Le capacità logiche si rivelano avanzate, specialmente il miglioramento nella genialità del modello, dove le valutazioni non si concentrano solo sulle capacità intuitive ma anche sui dati analitici.

La maggiore capacità del modello potrebbe suggerire, stando alle valutazioni della Artificial Analysis, che Fable 5 abbia dimensioni di modello superiori rispetto ai modelli precedenti di Anthropic.

Un modello agente: Fable in contesti operativi

Un aspetto interessante di Fable 5 è il suo uso nei contesti operativi. Il modello raggiunge 1932 Elo su GDPval-AA, un incremento di circa 2,2 punto rispetto alle prestazioni di Opus 4.8.

Le sue capacità agentiche si esprimono bene nei benchmark per la programmazione automatica (ad esempio in Terminal-Bench Hard) e nell’utilizzo di strumenti avanzati (ad esempio in Tau2-bench Telecom). Anche in Humanity’s Last Exam, un test complesso che valuta l'abilità di risolvere problemi, ha registrato miglioramenti significativi.

Costi per Benchmark

Fable 5 presenta costi elevati per i singoli test. Ad esempio, un benchmark completo su Humanity’s Last Exam richiede mediamente 2.174 dollari contro i 1.974 dollari richiesti dal predecessore. Il costo maggiore si nota soprattutto per il fall-back: un meccanismo di protezione che, in casi di richieste pericolose, sposta automaticamente la richiesta a Opus 4.8.

Sicurezza e costi associati

Anthropic ha rafforzato il modello con nuovi filtri di sicurezza per prevenire danni in ambiti sensibili come cyber security, biologia o chimica. Se viene rilevata una potenziale richiesta pericolosa, il sistema automatico la inoltra a un modello precedente, comportando un aumento di costo anche per l’utente.

    • Fallback: in media un 8 percento di tutte le sessioni richiede l’utilizzo di un modello secondario.
    • Humanity’s Last Exam: fino al 9 percento delle valutazioni richiama un modello legacy.

Il costo di queste operazioni di fallback non solo aggiunge spesa ma, soprattutto, fa dubitare sull’efficacia complessiva del modello quando non c’è un reale vantaggio nel prezzo.

Disponibilità e restrizioni

Il modello Fable 5 ha un limite di token di 1 milione, identico al predecessore. L’accesso al modello è limitato temporalmente: è disponibile in abbonamento fino al 22 giugno 2026 e successivamente richiederà l’uso di credito. L’accesso gratuito mediante abbonamenti potrà essere rinnovato se l’infrastruttura lo permetterà.

Le restrizioni d'uso e l'effetto combinato di prezzo e token-limitazione fanno sì che l'accesso effettivo a Claude Fable 5 sia riservato a pochi, rendendo l’opzione meno appetibile per le aziende piccole o medio-imprenditoriali.

Considerazioni critiche

Un punto critico riguarda la funzionabilità pratica di Claude Fable 5. Nonostante le dichiarazioni di potenza, alcuni test rivelano che i filtri si attivano anche in risposte banali, causando una limitazione involontaria dell’uso.

Inoltre, alcune delle regolazioni interne hanno inibito l’utilizzo ottimale per sviluppare modelli con aziende concorrenti, un'azione che Anthropic ha recentemente ritrattato.

Persone vs tecnologia

Per quanto riguarda la sostenibilità economica, alcuni studi di Artificial Analysis indicano che i costi mensili per un’utilità intensiva aziendale di Claude Fable 5 equivalgono a una o due figure professionali di alto livello.

Le analisi dimostrano che, in termini economici, il modello si rivela oneroso. Secondo il rapporto "Tokeneconomics", la crescita esponenziale del prezzo e la mancanza di miglioramenti paritari fanno sì che l’utente si chieda se realmente valga la pena investire in un modello così caro.