Anthropic ha recentemente lanciato due nuovi modelli di intelligenza artificiale di quinta generazione: Claude Fable 5, per gli usi generali, e Claude Mythos 5, disponibile solo per partner selezionati che lo utilizzano in aree specializzate come la cybersecurity.

Entrambi si avvalgono della stessa architettura base, con Claude Fable 5 che include guardrails di sicurezza conservativi per proteggere in contesti generali, mentre Claude Mythos 5 abbandona alcune limitazioni per consentire usi avanzati in campi specifici.

Gli aspetti tecnici e le prestazioni

Fable 5 si posiziona davanti a tutti i modelli precedentemente lanciati da Anthropic, ottenendo punteggi eccellenti in benchmark per programmazione, visione d'insieme e analisi dati complessi. Inoltre, il modello ha registrato un'ottima performance in test scientifici e genetici, nonostante non abbia avuto alcun aiuto esterno.

Anthropic afferma di aver raggiunto risultati innovativi in quasi tutti i benchmark testati con Fable 5. Si riconosce che tale modello abbia mostrato una notevole forza sui compiti lunghi e complessi, un punto in cui la differenza da modelli competitor si fa sentire.

Valutazioni e benchmark

Su SWE-Bench Pro, un benchmark per risolvere compiti di ingegneria software reali, Fable 5 ha raggiunto l’80.3%. Claude Opus 4.8 si ferma al 69.2%, GPT 5.5 al 58.6%, e Gemini 3.1 Pro al 54.2%.

Sul FrontierCode, Fable 5 ottiene il 29.3%, mentre il precedente Opus 4.8 si attesta al 13.4% e GPT 5.5 al 5.7%.

Ecco come i modelli si confrontano attraverso 15 benchmark diversi: i valori contrassegnati da asterisco indicano casi dove Fable 5 ottiene punteggi leggermente inferiore a Mythos 5 a causa delle sue fallback safeguards.

Codifica avanzata e produttività

La Stripe, una nota azienda di processamento pagamenti, utilizza Fable 5 per completare in pochi giorni un lavoro di codifica che sarebbe altrimenti richiesto un mese. In un codice Ruby di 50 milioni di righe, il modello ha concluso il lavoro in un solo giorno, un risultato strabiliante per il settore.

Fable 5 è considerato più efficiente nei token rispetto ai predecessori, soprattutto in condizioni di sforzo moderato. Rispetto ad altri modelli, Fable mostra punteggi al di sopra del 29% su FrontierCode e al di sopra dell’80% su SWE-Bench Pro.

Ciò che rende Fable 5 e Mythos 5 unici

Fable 5 domina anche in compiti analitici complessi. Su Hebbia’s Finance Benchmark, che valuta la capacità di ragionamento finanziario comparabile a esperti junior del settore, ha ottenuto il punteggio più alto di qualsiasi modello disponibile. Aziende come IMC hanno riferito che il modello ha soddisfatto quasi totalmente le sue valutazioni di analisi delle operazioni di trading.

Per quanto riguarda le attività visive, Fable 5 si comporta all’avanguardia, in grado di estrarre dati precisi da illustrazioni scientifiche e ricostruire codici web da screenshot. Un esempio notevole ha visto il modello giocare Pokémon FireRed utilizzando esclusivamente schermata, senza aiuti esterni né dati extra.

Con una capacità di memoria lunga, Fable 5 riesce a mantenere il focus su milioni di token e ad aggiornare continuamente i propri risultati, un punto di forza che potrebbe rivoluzionare diverse applicazioni.

Che cosa offre Mythos 5

Come il nome suggerisce, Mythos 5 mostra una notevole forza in progettazione farmaceutica e ricerca genomica autonoma. Secondo gli esperti di proteine di Anthropic, il modello ha accelerato di dieci volte alcune fasi del processo di sviluppo di nuovi farmaci.

Un esempio concreto è stato testare il modello con strumenti di bioinformatica e design proteico, senza coinvolgere esperti umani. Il modello ha completato in autonomia ogni passaggio che normalmente richiederebbe l’intervento di un’analista, ottenendo otto successi positivi su quattordici obiettivi di base.

Anthropic afferma che Mythos 5 produce ipotesi scientifiche convincenti e nuove, ipotizzando, ad esempio, un meccanismo biologico per una proteina di E. coli, convalidato da uno studio indipendente. Inoltre, il modello ha lavorato autonomamente per settimane, compilandosi informazione genomica di milioni di cellule di 138 specie animali.

I risultati del modello sono superiori a quelli di modelli recentemente pubblicati su Science, nonostante fossero 100 volte inferiori in termini dimensionali. Questi dati saranno resi pubblici nei prossimi mesi.

Cybersecurity: il forte di Mythos 5

Claude Mythos 5 è attualmente offerto attraverso Project Glasswing, un'iniziativa in collaborazione con il governo statunitense per la cybersicurezza. È già disponibile per i vecchi utenti di Claude Mythos Preview e il suo accesso verrà esteso progressivamente come stabilito con le autorità nazionali.

Sul benchmark ExploitBench, Mythos 5 ha raggiunto il punteggio del 78%, con un significativo incremento rispetto al 69% per Mythos Preview e al 40% per Opus 4.8.

Costi per Claude Fable 5 e Mythos 5

I nuovi modelli hanno un prezzo di dieci dollari per un milione di input token e 50 dollari per output token. Si tratta di un costo quasi raddoppiato rispetto a Claude Opus 4.8, con i costi effettivi che dipenderanno ancora da consumi token specifici per task.

Ecco un confronto dei costi:

Claude Fable 5 — $10 / MTok (base), $12.50 / MTok (cache scritta breve), $20 / MTok (cache scritta lunga), $1 / MTok (cache colpi), $50 / MTok (output).

Claude Mythos 5 — $10 / MTok (base), $12.50 / MTok (cache scritta breve), $20 / MTok (cache scritta lunga), $1 / MTok (cache colpi), $50 / MTok (output).

Leggi l'articolo originale →

← Torna alle notizie