Introduzione di Claude Fable 5

Anthropic ha annunciato il lancio di Claude Fable 5, una versione più sicura del modello Claude Mythos 5, il cui aggiornamento era stato comunicato nel mese di aprile. Il modello è accessibile da oggi, ma solo in versione sperimentale, come parte del programma Project Glasswing e gratuitamente sino al 22 giugno. La versione Fable differisce da Mythos 5 soprattutto per le protezioni aggiunte, pensate per limitare l’utilizzo del modello in contesti di rischio.

La questione della sicurezza

Claude Mythos 5, la versione precedente a Fable 5, era estremamente avanzato in termini di capacità di riconoscere vulnerabilità nell’ambito software e persino di generare codice per sfruttarle, cosa che lo rendeva potenzialmente pericoloso in mani errate. Per tale motivo, Anthropic aveva deciso di implementare un insieme mirato di protezioni per evitare possibili utilizzazioni illecite.

Il lancio di Claude Fable 5 segnala una mossa strategica di Anthropic per bilanciare le funzionalità elevate del modello con un livello di sicurezza che evita un utilizzo malintenzionato, specialmente da parte di cybercriminali.

Che tipo di protezioni sono state aggiunte?

Le protezioni attivabili di Claude Fable 5 si basano su una serie di classificatori che coprono tre aree fondamentali:

Cybersicurezza

Biologia e chimica

Distillazione

Questi strumenti mirano a riconoscere automaticamente e bloccare qualsiasi richiesta ritenuta pericolosa. L’obiettivo è vietare, ad esempio, la richiesta per la scrittura di malware o il codice per armi biologiche. Le protezioni implementate tendono ad essere conservatrici per natura, il che può comportare l’attivazione di misure anche dove non necessarie (falsi positivi).

Attivazione automatica del modello Claude Opus 4.8

Per assicurare la continuità dell’esperienza utente, quando Claude Fable 5 rifiuta di rispondere a una richiesta sensibile, l’assistente passa automaticamente a Claude Opus 4.8. Questo modello, però, è più limitato e forse non risponderà in modo ottimale neppure a quelle richieste.

L’accesso a Claude Mythos 5, la versione meno protetta, sarà sempre garantito attraverso il programma Project Glasswing, escluso quindi il pubblico generale.

Lo switch automatico verso Claude Opus 4.8 è disponibile anche in versioni specializzate del modello Claude, come Claude Cowork, Claude Code, Claude Design e Claude for Microsoft 365.

Resistenza alle tecniche di jailbreak

Uno dei maggiori vantaggi di Claude Fable 5 è la resistenza agli attacchi per il jailbreak—tecniche mirate a bypassare le protezioni. Questo rende il modello più sicuro rispetto alla generazione precedente.

L’azienda californiana sta monitorando il modello nel corso di settimane per valutare l’effettiva efficienza delle protezioni attivate. Saranno necessari diversi test per capire se il modello riesca veramente a evitare gli usi illegittimi.

Protezione dalla distillazione

Dal momento che Claude Fable 5 offre una potenza di calcolo notevole, Anthropic ha incluso una misura specifica per evitare la distillazione. Con questa tecnica, un modello più piccolo può essere addestrato usando l’output generato da Claude Fable 5.

La protezione mira quindi a impedire la creazione non autorizzata di nuovi modelli AI con simili caratteristiche, contribuendo a un livello maggiore di sicurezza complessiva.

Prossimi passi

Nel prossimo futuro, le protezioni di Claude Fable 5 saranno oggetto di ulteriori miglioramenti. Anthropic ha però evidenziato che non tutti i prompt verranno bloccati in maniera certa, pertanto gli utenti potrebbero doversi adattare formulando le richieste in modo diverso.

Il lancio di Claude Fable 5 mostra che Anthropic sta rispondendo alle crescenti sollecitazioni relative all’etica e alla responsabilità nell’utilizzo degli strumenti di AI. La sicurezza non è mai un obiettivo completo e richiede aggiornamenti costanti.