Claude Fable 5 e il nuovo record di prestazioni

Anthropic ha annunciato ufficialmente il lancio di Claude Fable 5, la sua versione più avanzata in termini di intelligenza artificiale. Nell’ultima valutazione comparativa, Fable 5 ha raggiunto un punteggio di 64.9 punti nell'Artificial Analysis Intelligence Index, superando i concorrenti principali. Il divario principale con GPT-5.5, il miglior modello non-Anthropic, è di cinque punti. In questo modo, Anthropic mantiene le prime due posizioni nella classifica della performance.

I costi salgono a doppia cifra

Sebbene la Fable 5 abbia stabilito nuovi standard in termini di capacità cognitive, il costo del servizio è schizzato alle stelle. I prezzi per i token si sono raddoppiati rispetto al predecessore, Opus 4.8. Ora, l’esecuzione completa di una batteria di test per l'indice Articial Analysis raggiunge quasi $10,000, il doppio del costo dell'Opus 4.8. Questo aggiornamento, che promette performance migliorate del 5.7%, ha suscitato molte discussioni sulla sostenibilità economica.

I modelli precedenti e il rapporto prezzo/prestazione

Anthropic ha già stabilito un precedente con Opus 4.7 e 4.8, dove i miglioramenti di performance sono stati solo "modesti ma tangibili", a fronte di rialzi dei prezzi. La stessa azienda si è detta soddisfatta dei progressi, anche se riconosce che non tutti gli utenti si sentiranno gratificati al prezzo elevato.

Analisi economica

Per le aziende, l'idea di pagare il doppio solo per un vantaggio marginale del 5.7% richiede una valutazione attenta su quali applicazioni specifiche meritino tale costo aggiunto. Benchmark critici evidenziano inoltre che nessun insieme di test riesce mai veramente a catturare l'intera capacità di un modello reale.

Prestazioni in benchmark diversi

Nonostante il costo, Fable 5 si distingue in diversi benchmark. Nell’AA-Omniscience, un test che valuta la capacità conoscitiva e la frequenza delle informazioni errate, la Fable 5 raggiunge 40 punti, sette in più del modello precedente. Tuttavia, non è migliore rispetto ad altri modelli in termini di riduzione degli errori.

Dominio in attività specifiche

    • Fable 5 eccelle nel test GDPval-AA, migliorando il punteggio di ELO del 2.2 percento rispetto all’Opus 4.8.
    • Vince il benchmark Terminal-Bench Hard per la programmazione e Tau2-bench Telecom per l'uso degli strumenti.

Gli esami estremi: Humanity's Last Exam

Nel test HLE, il modello ottiene il 53% di risposte corrette, quasi 7 punto in più rispetto al predecessore. Tuttavia, è uno dei test più costosi per l’azienda: circa $2,200 per completarlo, a causa dei costi elevati e dell’impiego delle funzioni di fallback.

I filtri di sicurezza e il raddoppio dei costi

Secondo l’azienda, il Fable 5 utilizza lo stesso modello base di Claude Mythos 5, ma ha ulteriori meccanismi di sicurezza per domande che riguardano la cibersecurity, la biologia e la chimica. Quando i filtri vengono attivati, la richiesta viene reindirizzata all'Opus 4.8. Anche se Anthropic afferma che poche sessioni sono interessate, l’Artificial Analysis ha osservato il reindirizzamento in circa l’8% dei test, principalmente sui temi scientifici.

Accesso limitato e politiche di prezzo

L’accesso al Fable 5 è limitato: utenti Pro, Max, Team ed Enterprise potranno utilizzarlo fino al 22 giugno, ma ad un costo doppio rispetto all'Opus. Dopo questa data, l’accesso sarà basato sul consumo di crediti: una politica che rende l'accesso ancora più difficile per utenti ad alto utilizzo. Anthropic ha chiarito di poter ripristinare un abbonamento una volta garantita la capacità di calcolo sufficiente.

Potenziale e controversie

Il Fable 5 mantiene la finestra di contesto di un milione di token e presenta filtri di sicurezza avanzati. Tuttavia, alcuni esperti hanno rilevato che tali filtri bloccano un numero inaspettato di richieste innocue, come quelle relative alla fisica medica e alla sicurezza informatica. Gli utenti hanno lamentato di essere bloccati anche quando non stavano creando modelli concorrenti, ma Anthropic ha successivamente chiarito di aver ritirato tale policy.