L’azienda giapponese Sakana AI ha presentato Sakana Fugu, un sistema innovativo concepito per coordinare dinamicamente diversi modelli linguistici attraverso una singola API. L’obiettivo di Fugu è fornire una performance superiore rispetto a modelli singoli come Fable 5 e Mythos di Anthropic, garantendo inoltre una ridotta dipendenza da fornitori specifici di IA.

Un sistema unico nel mercato

Sakana AI, startup di origine giapponese, ha realizzato Fugu come un orchestratore multi-LLM, capace di orchestrare modelli linguistici provenienti da un pool flessibile. Il sistema si comporta all’esterno come un unico modello, pur integrando una serie di agenti diversi che operano in background. Questo approccio ha già dato risultati positivi in contesti specifici come sviluppo software, dove l’agente ALE-Agente di Sakana ha raggiunto il 21° posto su 1000 esperti in un torneo di coding.

Versatilità e versioni differenziate

La versione base di Fugu è ottimizzata per una bassa latenza e una buona performance quotidiana, rivelando potenziale per applicazioni come code-review o chatbot. Fugu Ultra, invece, è stata progettata per compiti complessi e multi-step, come la riproduzione di lavori scientifici, analisi di sicurezza informatica, ricerca su brevetti e letteratura.

Sakana Fugu è disponibile in due versioni: la versione principale adatta per uso quotidiano e Fugu Ultra per compiti avanzati. Inoltre, si offre la possibilità di escludere singoli agenti dal pool per rispettare esigenze di conformità e protezione dei dati.

Promettenti risultati dei benchmark

Secondo i benchmark pubblicati da Sakana AI, Fugu Ultra ottiene risultati paragonabili o superiori alle versioni più recenti di modelli come Fable 5 e Mythos, non appartenenti al proprio pool. Questi modelli, essendo non accessibili al pubblico, non sono inclusi nel sistema, ma Sakana AI sottolinea che la loro inclusione potrebbe ulteriormente migliorare le performance.

I confronti dei modelli di base sono tratti direttamente da dati pubblicati dagli stessi fornitori dei modelli. Ecco un confronto tra la performance di Fugu e Fugu Ultra con alcuni modelli avanzati:

SWE Bench Pro: Fugu 59.0, Fugu Ultra 73.7, Opus 4.8 69.2, Gemini 3.1 Pro 54.2, GPT 5.5 58.6

TerminalBench 2.1: Fugu 80.2, Fugu Ultra 82.1, Opus 4.8 74.6, Gemini 3.1 Pro 70.3, GPT 5.5 78.2

LiveCodeBench: Fugu 92.9, Fugu Ultra 93.2, Opus 4.8 87.8, Gemini 3.1 Pro 88.5, GPT 5.5 85.3

LiveCodeBench Pro: Fugu 87.8, Fugu Ultra 90.8, Opus 4.8 84.8, Gemini 3.1 Pro 82.9, GPT 5.5 88.4

Humanity's Last Exam: Fugu 47.2, Fugu Ultra 50.0, Opus 4.8 49.8, Gemini 3.1 Pro 44.4, GPT 5.5 41.4

CharXiv Reasoning: Fugu 85.1, Fugu Ultra 86.6, Opus 4.8 84.2, Gemini 3.1 Pro 83.3, GPT 5.5 84.1

GPQA-D: Fugu 95.5, Fugu Ultra 95.5, Opus 4.8 92.0, Gemini 3.1 Pro 94.3, GPT 5.5 93.6

SciCode: Fugu 60.1, Fugu Ultra 58.7, Opus 4.8 53.5, Gemini 3.1 Pro 58.9, GPT 5.5 56.1

τ³ Banking: Fugu 21.7, Fugu Ultra 20.6, Opus 4.8 20.6, Gemini 3.1 Pro 8.4, GPT 5.5 20.6

Long Context Reasoning: Fugu 74.7, Fugu Ultra 73.3, Opus 4.8 67.7, Gemini 3.1 Pro 72.7, GPT 5.5 74.3

MRCRv2: Fugu 86.6, Fugu Ultra 93.6, Opus 4.8 87.9, Gemini 3.1 Pro 84.9, GPT 5.5 94.8

Ridurre la dipendenza da singoli fornitori

Sakana AI promuove Fugu anche come una soluzione per mitigare la dipendenza da singoli fornitori di IA, considerando restrizioni o modifiche regolamentari che possono limitare l’accesso ad alimenti chiave nel settore. Ad esempio, le recenti misure di controllo sull’esportazione dei modelli Anthropic rappresentano un chiaro esempio di questa vulnerabilità.

Il fondo riconosce che sebbene Fugu aumenti la robustezza grazie alla sua capacità di instradare dinamicamente i modelli, essa è comunque condizionata dal set di agenti disponibili. In situazioni dove più fornitori limitano l’accesso contemporaneamente, il margine operativo di Fugu si ridurrà.

Applicazioni pratiche e soddisfazione dei primi utenti

Secondo Sakana AI, oltre 500 utenti beta hanno testato Fugu nel mondo reale. Si è rivelato di particolare rilevanza in attività lunghe e complesse, come l’analisi automatica di dati, la cybersecurity e la revisione del codice sorgente.

Un programmatore ha osservato che Fugu Ultra ha identificato ben 20 errori rispetto a circa 3 individuati da GPT-5.5 durante una code-review. Inoltre, Sakana AI afferma che Fugu abbia superato modelli come Gemini 3.1 Pro, Opus 4.8 e GPT 5.5 in applicazioni come la ricerca automatica di dati, il design meccanico e le previsioni finanziarie.

Disponibilità e accesso

Le due varianti del modello sono immediatamente disponibili tramite un'unica API, con opzioni di accesso disponibili sia tramite la console che tramite il sito ufficiale di Sakana AI. Sakana offre opzioni di abbonamento per uso quotidiano e costi basati sull’utilizzo per carichi di lavoro più intensi. Più informazioni tecniche sono disponibili nell’articolo