Fable 5, il modello più avanzato dell'azienda di AI Anthropic, ha ottenuto risultati straordinari sui problemi matematici del livello più avanzato del test benchmark FrontierMath. Secondo dati recentemente resi noti da Epoch AI, Fable 5 raggiunge il 87 per cento di precisione nei livelli 1 al 3 e ben l'88 per cento nel difficile livello 4 (v2), battendo nettamente la concorrenza. Il dato del livello 4 è particolarmente straordinario considerando che il modello predecessore, Opus 4.5, si attenava a risultati inferiori al 10 per cento nello stesso livello solo alcuni mesi fa. OpenAI, il principale concorrente, con il suo GPT-5.5 riesce a malapena a raggiungere il 75 per cento. GPT-5.6 si sta avvicinando, ma non ha ancora ufficialmente debuttato.

Il benchmark FrontierMath è oggi considerato uno dei test più severi per la valutazione della capacità matematica avanzata nei modelli di intelligenza artificiale. La sua struttura prevede diversi livelli di complessità crescente, dove vengono testate abilità di ragionamento logico-numerico di livello estremamente avanzato. Fable 5 è stato testato usando il "scaffolding" standard di Epoch AI, con uno sforzo di ragionamento massimo, il che aggiunge autorevolezza e credibilità ai risultati. Il modello ha ottenuto risultati sorprendenti, mostrando un'abilità matematica quasi umana.

A che cosa è dovuto questo balzo tecnologico?

Il balzo tecnologico di Anthropic nella matematica avanzata sembra essenzialmente il risultato di una maggiore attenzione ai ragionamenti di tipo simbolico-numeriche, un aspetto che i modelli di grandi linguaggi (LLM) tradizionalmente affrontano con scarsa accuratezza. Il team di ricerca e sviluppo di Anthropic ha concentrato i suoi sforzi su un’ingegneria dei dati mirata a migliorare il "reasoning", con particolare attenzione a problemi matematici complessi, e ha adottato nuovi algoritmi di training per rendere i modelli più precisi in contesti matematici rigorosi.

Le capacità matematiche di Fable 5 non si limitano ai benchmark: esempi reali continuano a crescere. Ad esempio, Anthropic ha recentemente annunciato che il suo modello Claude Mythos ha risolto un importante problema matematico proposto da Paul Erdős, un matematico famoso per la complessità e la lunga durata dei suoi interrogativi. Similmente, un modello OpenAI ha affrontato con successo lo stesso problema, indicando una svolta significativa per il settore dell'intelligenza artificiale.

Un confronto con la concorrenza

Anthropic - Fable 5: 87% (livello 1-3), 88% (livello 4)
OpenAI - GPT-5.5: 75% (livello 4)
Anthropic - Opus 4.5: < 10% (livello 4)
OpenAI - GPT-5.6: sicuramente in test

Questi dati mettono in rilievo il divario tra Anthropic e OpenAI su questo fronte. Sebbene OpenAI stia già lavorando al lancio di GPT-5.6, che potrebbe migliorare i suoi record matematici, Fable 5 mantiene attualmente la leadership. Il fatto che OpenAI, un punto di riferimento storico nella sperimentazione dell'AI, non riesca a raggiungere Anthropic nel benchmark FrontierMath mostra quanto in fretta Anthropic stia progressando.

Implicazioni reali e scenari futuri

I progressi di Anthropic in ambito matematico aprono scenari significativi per l’industria. Sistemi di ragionamento simbolico avanzati, come quello dimostrato da Fable 5, possono essere integrati in ambiti tecnologici sensibili come l’ingegneria software, la ricerca scientifica e il calcolo statistico. Inoltre, un modello in grado di risolvere problemi matematici complessi potrebbe essere adottato in settori come la finanza, l’educazione e la robotica, riducendo notevolmente il tempo di sviluppo e aumentando l’efficacia decisionale.

I progressi di Anthropic mostrano anche una tendenza interessante: man mano che le capacità matematiche dei modelli si perfezionano, l’AI potrebbe superare le capacità umane in certi ambiti di ragionamento logico-quantitativo. Questo potrebbe accelerare la digitalizzazione di settori tradizionalmente guidati da esperti umani, aumentando al contempo la produttività e la precisione.

Quali saranno i prossimi passi?

Sebbene Fable 5 abbia già dimostrato capacità notevoli, Anthropic non ha tracciato un piano chiaro per la prossima generazione di modelli. Tuttavia, l’industria si aspetta che l’azienda continui a investire in AI avanzata, specialmente in aree come la matematica pura e l’ottimizzazione algoritmica. Per parte sua, OpenAI sta chiaramente cercando di recuperare terreno con il lancio di GPT-5.6, il cui test iniziale è previsto in estate.

I prossimi mesi saranno cruciali per il settore dell’Intelligenza Artificiale, visto che la competizione tra i due giganti si intensifica. Gli investitori tecnologici, gli sviluppatori di software e gli accademici seguiranno con interesse i progressi di Fable 5 e i rivali che tentano di raggiungerlo. In un panorama in cui la leadership tecnologica si traduce in vantaggi economici e strategici, Anthropic mostra chiaramente il proprio potenziale per dominare in nuovi paradigmi di AI.