L’5 giugno, diversi media hanno riportato che gli hacker stavano utilizzando l’agente di supporto AI di Meta per rubare account Instagram. Il metodo era semplice: chiedevano all’agente di collegare gli account a indirizzi email che controllavano loro, e il sistema obbediva. Un attaccante, ad esempio, ha preso il controllo dell’account dormiente dell’ex ufficio White House Obama e ha pubblicato post a favore dell’Iran; altri hanno cercato di sfruttare account con nomi brevissimi, molto probabilmente per rivenderli successivamente.

Le preoccupazioni per la cybersecurity dell'AI non sono nuove

Le preoccupazioni in ambito cybersecurity sull’intelligenza artificiale non sono nuove. Da quando Anthropic ha annunciato ad aprile che il suo modello Mythos era troppo abile per essere attirato a compromettere la sicurezza del pubblico, commentatori, ricercatori e ufficiali federali si sono concentrati sull’idea che sistemi AI estremamente avanzati potrebbero distruggere la nostra infrastruttura digitale. Questo non è precisamente ciò che è successo durante l’attacco ad Instagram: in quel caso, l’AI era l’obiettivo, non l’aggressore, e il metodo era molto più semplice di qualsiasi cosa Mythos potrebbe ideare. Ma mentre le aziende continuano ad affidarsi sempre di più all’AI, attacchi di questo tipo semplici ma efficaci potrebbero causare danni considerevoli.

Neil Gong, professore di ingegneria elettrica e informatica all'Università di Duke, ha dichiarato che “man mano che l’AI viene sempre di più utilizzata—specialmente quando essa semplifica i nostri flussi di lavoro come il recupero degli account, i malintenzionati saranno sempre più disposti a cercare modi per attaccare proprio l’AI stessa”.

I vulnerabilità agenti AI già precedentemente osservate

Gong e altri studiosi hanno da sempre sollevato allarmi sui potenziali punti deboli delle agenzie AI. Con studi e blog post, hanno spiegato come esperti tecnici possano intradurre vulnerabilità in sistemi AI attraverso tecniche avanzate come l’indiretta iniezione di input, un metodo in cui si riesce a compromettere i sistemi tramite comandi nascosti in siti web, email o dati non sospetti. Rispetto a questi exploit, l’hack di Meta era quasi banale. I soli problemi che i ricercatori dovevano superare includevano l’uso di un VPN che corrispondesse alla posizione geografica del reale proprietario dell’account; dopodiché hanno semplicemente chiesto all’agente di supporto di modificare l'indirizzo email, e il sistema obbediva.

Meta non ha ancora pubblicamente commentato su come tale vulnerabilità è potuta passare inosservata. Gong, però, afferma che con l’unicità di questa tecnica, si sarebbe dovuto fare una verifica preventiva. “Sembra incredibile”, commenta. “Non riesco a capire perché non lo abbiano rilevato prima.”

Jessica Ji, senior research analyst al Georgetown Center for Security and Emerging Technology, concorda. “Questo fa sorgere domande come: C'erano realmente guardrail in atto?” aggiunge lei. “Qualcuno si è mai preoccupato di testare questa scenario?” L’omissione sembra particolarmente scioccante vista l’esperienza di Meta nella gestione avanzata di entrambi i temi, AI e cybersicurezza. Meta non è risparmiata a una richiesta commenti per questo articolo, ma un portavoce ha affermato su X che la vulnerabilità è stata risolta.

L’abilità degli agenti AI di reagire in modo imprevedibile

Sebbene imbarazzante per Meta, questo episodio mostra alcune vulnerabilità condivise da tutti gli agenti AI. A differenza del software tradizionale, gli agenti AI possono rispondere in modi flessibili e imprevedibili a nuove configurazioni: per questo motivo si potrebbero prestare come alternativi agli agenti umani per il supporto. Ciononostante, l’AI potrebbe essere ingannata in modi in cui un essere umano non sarebbe mai vulnerabile; e, visto che gli agenti di AI possono agire effettivamente e in tempi reali, gli errori comportano conseguenze vere. Come commenta Somesh Jha, professore di informatica presso l’Università del Wisconsin-Madison: “Un essere umano ti chiederebbe, “Perché vorresti cambiare l’indirizzo email?” e forse ti chiederebbe risposte a domande di sicurezza. Ciò che succede con questi agenti è che sono estremamente orientati a completare il compito. È quasi come uno studente elementare che vuole accontentare lo sfatatore.”

Strategie per mitigare i rischi

Tuttavia, ci sono modi per mitigare tali rischi. Le aziende possono utilizzare sistemi tradizionali di software per costruire linee guida che impediscano agli agenti di eseguire modifiche sensibili senza verifiche di sicurezza. I ricercatori coinvolti in questo articolo concordano unanimemente sul fatto che gli agenti debbano sottoporsi a una rigorosa red-teaming, un processo in cui i team di sviluppo fanno i loro tentativi per individuare le vulnerabilità potenziali di un sistema prima del suo lancio.

I limiti pratici di una protezione completa

Però esistono anche pressioni contrarie. Le aziende desiderano lanciare agenti efficaci, e più potente è l’agente, meno restrizioni necessiti e più lavoro può svolgere.

Bo Li, professore di informatica presso l’Università dell'Illinois Urbana-Champaign, spiega che “ci saranno sempre compromessi tra sicurezza e utilità”.

Infatti, per effettuare una red-teaming completa, ci possono essere costi sostenibili, poiché i difensori devono spendere di più degli aggressori, che di fatto si limitano a trovare un singolo punto debole.

Specialmente quando un bersaglio è particolarmente valutativo—come ad esempio un nome breve su Instagram—i malintenzionati investiranno di più per trovare vulnerabilità, costringendo le aziende a spendere di più per difendersi.

Un futuro in cui l’AI diventa più avanzata

Man mano che i modelli AI migliorano, potrebbe essere più facile rafforzare la loro resistenza. Anche se la natura probabilistica dei Large Language Models porterà sempre ad alcune vulnerabilità, un modello AI più avanzato potrebbe facilmente identificare come sospetta una richiesta di modifica email per l’account ufficiale Obama. Inoltre, i sistemi AI possono essere utilizzati per testare in autonomia altri ambienti AI, come nel progetto Glasswing di Anthropic dove viene usata Mythos per individuare svantaggi in software esterni.

Malgrado questo, gli esperti prevvedono che i problemi di protezione dell’AI cresceranno sempre di più in futuro. Man mano che gli agenti svilupperanno nuove capacità, le aziende che li adotteranno desidereranno probabilmente dare loro più potere, per offrire di più ai clienti con meno interventi umani e per mantenersi ai primi posti rispetto ai concorrenti. In un mondo veloce come quello dell’AI, il tempo necessario per garant