Un esperto di sicurezza informatica è riuscito a compromettere le protezioni di Claude Fable 5 meno di 48 ore dopo il suo lancio. Il modello, descritto da Anthropic come uno dei più avanzati e sicuri del mercato, è stato sottoposto a un'analisi che ne ha esposto debolezze inaspettate, a opera di una figura conosciuta nel settore: “Pliny the Liberator”.

Come è stato svuotato Claude Fable 5?

Secondo una denuncia pubblicata su X, Pliny ha ottenuto informazioni riservate sfruttando tecniche sofisticate, come l’utilizzo di caratteri Unicode e homoglyph, la suddivisione di domande in parte inoffensiva, e l’uso di un modello precedente, Claude Opus 4.8. Questo gli ha permesso di eludere i sistemi di filtraggio standard, che bloccano contenuti potenzialmente pericolosi — da istruzioni per la produzione di sostanze illegali a metodi di attacco informatici.

Una delle strategie più efficaci adottate da Pliny è stata la cosiddetta desomposizione e ricomposizione nel backend. Invece di formulare domande dirette, che sarebbero state immediatamente rifiutate, ha diviso le richieste in singole porzioni non riconoscibili come problematiche da isolate. Queste, però, quando unite, producevano risultati dannosi ma tecnicamente corretti dal punto di vista del modello.

Chi è Pliny the Liberator?

Pliny the Liberator è una figura nota nella comunità dell’intelligenza artificiale e nel campo della cibercriminalità. Secondo Time Magazine, ha iniziato a divulgare pubblicamente le sue scoperte dopo che diverse aziende di IA hanno ignorato le sue segnalazioni sui falli di sicurezza. Il suo approccio è stato oggetto di controversie, ma si basa su una motivazione precisa: i potenziali malintenzionati tenderanno sempre a utilizzare modelli accessibili e utili, piuttosto che tentare di superare barriere complesse.

Pliny gestisce un server Discord riconosciuto con migliaia di utenti, dove vengono condivise metodologie per sfruttare i modelli di AI. L’esperto ha ricevuto finanziamenti da influenti figure come Marc Andreessen e ha collaborato con aziende come OpenAI per migliorare la sicurezza dei loro sistemi.

Qual è il messaggio più profondo?

Pliny sottolinea che il vero rischio non risiede tanto nei modelli chiusi quanto in quelli facilmente accessibili. Il jailbreaking, ovvero il bypass di controlli implementati, non serve soltanto per estrae informazioni segrete, ma anche per comprendere in quale modo funzionano davvero queste tecnologie. Questo, insiste, è l'unico modo per affrontare eventuali rischi futuri.

Un’altra attività importante di Pliny riguarda l’estrazione dei prompt di sistema, quei testi nascosti che guidano il comportamento dei modelli di IA. Secondo il liberatore, se sempre più persone affidano decisioni critiche a questi sistemi, è loro diritto comprendere le logiche che li regolano.

Ancora oggi, rimane un interrogativo fondamentale: se un modello avanzato come Claude Fable 5 può essere vulnerabilizzato in meno di due giorni, quanto robusti sono veramente i suoi controlli?

Le misure di difesa di Anthropic

Anthropic aveva introdotto classificatori specializzati con l’obiettivo di identificare precocemente richieste potenzialmente dannose in campi sensibili, da informatica a chimica, da biologia ad altri soggetti. Quando un’interazione potenzialmente rischiosa era rilevata, il sistema doveva avviare una redirezione alle capacità di Claude Opus 4.8.

Ciò che è emerso con l'indagine di Pliny, però, è che queste misure non sono state abbastanza rigorose da resistere a determinate tecniche d’attacco evolutivo e poco convenzionale. La vulnerabilità individuata mette a rischio non solo la specifica implementazione di Anthropic ma, potenzialmente, l’intero settore, dato che le tecniche utilizzate possono essere applicate ad altri modelli di AI.

Il caso del Claude Fable 5 richiama l'attenzione sull’importanza di aggiornare costantemente i meccanismi di protezione e di testare i modelli non in condizioni ideali, ma in contesti veramente reali, dove gli utenti si comportano in modo imprevedibile, ma non necessariamente in malvagità.