Anthropic ha lanciato Fable, un modello pubblico ristretto rispetto alla versione avanzata Mythos, il 5 giugno. Lo stesso Anthropic ha definito Fable una versione semplificata del suo modello di sicurezza informatica più potente e hype, sottolineando l’importanza di renderlo accessibile a un pubblico più ampio. Il modello cerca di bilanciare utilità e sicurezza, ma i ricercatori e i professionisti della cybersecurity non sembrano tutti soddisfatti.

Una reazione mista da parte del settore

Valentina “Chompie” Palmiotti, ricercatrice cybersecurity che lavora in IBM X-Force, ha descritto i problemi con una critica tagliente: “Fable rifiuta qualsiasi richiesta che possa in qualche modo riguardare la cybersecurity. Addirittura compiti inoffensivi come leggere un post sul blog.” Quando un input attiva le guardrails, Fable interrompe la conversazione e ribatte: “Le mie misure di sicurezza hanno segnalato questo messaggio come relativo a temi informatici o biologici.”

Le guardrails sono state introdotte per diminuire il rischio che Fable venga utilizzato per sviluppare software malevolo o per compromettere sistemi software, una preoccupazione che Anthropic aveva già affrontato con Mythos. Analogamente, le restrizioni sui contenuti legati alla biologia mirano a prevenire lo sviluppo di armi biologiche — una problematica ritenuta rilevante per la sicurezza globale.

Il contesto del rilascio

Nel mese di aprile, Mythos era stato lanciato solo verso un ristretto gruppo di industrie e organizzazioni, nell’ambito del “Project Glasswing”, iniziativa mirata a rafforzare la sicurezza di sistemi critici. Solo di recente Anthropic ha esteso l’accesso a questo modello avanzato, coinvolgendo centinaia di organizzazioni in 15 diversi Stati.

Per Matt Suiche, esperto di sicurezza informatica e componente tecnico di Tolmo, società di cybersecurity incentrata sull’AI, l’eccessiva rigidezza delle restrizioni di Fable crea problemi: “Se chiedi a Fable di scrivere codice sicuro lo considera una richiesta legata alla cybersecurity e non all’ingegneria software. Questo scatena le guardrails, bloccando il risultato.” Quando tale blocco avviene, Fable ripiomba su Claude Opus 4.8.

Secondo Suiche, il sistema di blocco attivato da Fable sembra basarsi sulle parole chiave. “Ogni espressione o termine legato all’ambito ‘cybersecurity’ è sufficiente a bloccare l’elaborazione.” Nonostante questo, Suiche si dice comprensivo: “Capisco questa scelta, visto che siamo in una fase iniziale e le guardrails debbono ancora evolversi. Sono certo che si adatteranno di più con il tempo, specialmente quando società come Anthropic collaboreranno più spesso con le nuove startup nel settore della sicurezza informatica.”

Altri esempi di limitazioni problematiche

Un altro ricercatore ha espresso la propria contrarietà su X, segnalando che persino una richiesta per effettuare una recensione di codice innesca automaticamente le guardrails di Fable. Questi episodi mettono in luce il carattere fin troppo generico di tali restrizioni, che spesso limitano l’utilità del modello per scopi legittimi e non dannosi.

Programmi alternativi per esperti

Nel frattempo, Anthropic richiede agli esperti di sicurezza informatica di partecipare al programma Cyber Verification Program, che permette loro di lavorare con Claude con pochi limiti. Programmi simili li offre OpenAI attraverso il suo Trusted Access for Cyber.

Anthropic non è riuscito a rispondere immediatamente a una richiesta di commento. La comunità cyber, però, sta già facendo pressione affinché il sistema di controllo venga raffinato in base alle esperienze quotidiane di utilizzo.