Il governo statunitense ha ordinato ad Anthropic di interrompere l'accesso globale ai suoi modelli di intelligenza artificiale più potenti, Fable 5 e Mythos 5, motivando la decisione con ragioni di sicurezza nazionale. La compagnia ha accolto l'ordine ma lo sta contestando pubblicamente.

Richiesta di blocco del governo Usa

L'accesso ai due modelli è vietato a tutti i cittadini stranieri, indipendentemente dal loro momento e luogo di utilizzo. Questo divieto include addirittura i propri dipendenti non statunitensi di Anthropic.

Pertanto, Anthropic deve interrompere del tutto l'accesso a tutti clienti del mondo, al fine rispettare le nuove normative. Tutti gli altri modelli di Anthropic restano disponibili.

La società si dice di considerare l'intera situazione mal interpretata e dichiara di lavorare per riattivare l'accesso al più presto. Ulteriori informazioni sono previste entro le prossime 24 ore.

Rischio di Jailbreak e l’opinione di Anthropic

Il governo Usa teme che Fable 5 possa essere oggetto di un jailbreak, un bypass delle protezioni, e di conseguenza abbia vietato l'esportazione. Anthropic, d'altro canto, ha esaminato l'argomento e afferma che gli strumenti utilizzati non costituiscano un rischio unico, ma sono comuni tra modelli esistenti come GPT-5.5.

Secondo Anthropic, l’esempio fornito dal governo sta nell’identificare solo vulnerabilità note, accessibili comunque ad altri modelli. Tali abilità vengono utilizzate quotidianamente dagli esperti di cybersecurity per mantenere al sicurezza.

Controlli di sicurezza e riscontri delle prove

Prima del lancio del modello, Fable 5 è stato testato per migliaia di ore da una coalizione di istituzioni, tra cui la sicurezza britannica e gruppi privati. I controlli sicurezza, dichiara l'azienda, sono più robusti rispetto a qualsiasi modello precedente; molti utenti hanno espresso però preoccupazione per il livello di restrizioni.

Tuttavia, nessun test ha rivelato un jailbreak universale, ossia un bypass che consenta di superare le difese in modo esteso. Anthropic ammette che una difesa assoluta da ogni jailbreak non è realizzabile per nessuna casa di modelli. Il rischio di jailbreak mirati, però esiste, ma solo in contesti specifici.

Per affrontare questa sfida, l’azienda utilizza una strategia di sicurezza “in profondità” volta a limitare i jailbreak rendendoli o non estesi o costosi da realizzare, con una sorveglianza rigorosa che permetta l’identificazione e l’isolamento immediato degli attacchi. Il programma include, ad esempio, un periodo di conservazione delle informazioni del cliente di 30 giorni, una pratica che genera costi veri ma che rende possibile la prevenzione e lo studio di pratiche potenzialmente dannose.

Paradossalità del messaggio

Per coloro che in precedenza hanno criticato Anthropic per aver enfatizzato in modo esagerato le potenziali minacce di cybersecurity con i modelli della serie Mythos, questa mossa sembra ironica: dopo aver mostrato per molto tempo come i modelli Mythos fossero superiori negli aspetti di sicurezza, ora l’azienda ha invece bisogno di dimostrare che anche modelli esistenti possiedono capacità simili.

Un caso con ripercussioni nell’intera industria

Il blocco imposto da governi rappresenta un modello che Anthropic rifiuta, dichiarando che l'identificazione di un jailbreak limitato non debba comportare il ritiro di un prodotto adatto a centinaia di milioni di persone. Se applicato in maniera uniforme, dice Anthropic, tale standard risulterebbe nella sospensione di tutti i futuri lanci da parte dei principali sviluppatori di modelli di AI.

Nelle passate dichiarazioni, l'azienda aveva sostenuto che il governo abbia diritto di bloccare i rilasci non sicuri, però in un contesto legale chiaro e trasparente. La decisione corrente non rispetta, perciò, tali principi, segnando un ulteriore capitolo del conflitto tra l'azienda e il governo Usa.

Il governo Usa, con la di recente emanazione di una nuova ordinanza esecutiva, ha stabilito che tutti i fornitori di AI debbano valutare preventivamente i modelli al governo, per valutare la sicurezza. Anthropic aveva accolto favorevolmente questa iniziativa, che in questo caso, però, non ha sortito effetto.

Questo episodio mette in evidenza la crescente dipendenza dei paesi esteri rispetto ai due giganti globali della AI: Stati Uniti ed Cina.

Le sfide nell’ambito della sicurezza dei sistemi AI

Prompts di attacco e jailbreak rappresentano uno dei problemi centrali in termini di sicurezza dell’intelligenza artificiale che colpisce tutti i fornitori di Large Language Models (LLM), un problema evidente già con GPT-3.

Nemmeno gli sforzi mirati di sicurezza portano sempre i risultati desiderati. Ad esempio, Anthropic ha messo a punto una tecnica specifica per proteggersi da tentativi di manipolazione e ha testato questa tecnologia in una sfida aperta online. Dopo solo cinque giorni di test e migliaia di messaggi, il sistema è stato definitivamente violato, inclusi jailbreak universali.

Contenuti di interesse per i lettori

Nel corso del dibattito, le tecnologie e questioni legate all’IA rimangono di grande interesse. Chi volesse seguirle con attenzione può abbonarsi al THE DECODER.

I vantaggi comprendono l'accesso a un servizio di lettura senza pubblicità

Partecipare alle discussioni all’interno del sistema di commenti

Ricevere la newsletter “KI Radar” per sei volte al anno

Accedere a sconti speciali su eventi sull’intelligenza artificiale

E scoprire il completo archivio di THE DECODER negli ultimi dieci anni

Conclusione

Con il blocco globale di Fable 5 e Mythos 5 per ordine del governo Usa, Anthropic si confronta con nuove sfide. La compagnia difende il proprio modello di sicurezza, rifiuta un interdizione generalizzata e cerca di chiarire le discrepanze tra le proprie valutazioni e quelle del governo.

Il caso sottolinea non solo il conflitto tra l’azienda e il governo, ma anche gli enormi ostacoli che l’industria dell’IA deve affrontare nell'ambiente delle minacce cybersecurity e la sua vulnerabilità di fronte a strumenti di attacco sofisticati.