L'11 agosto 2025 è una data che rimarrà impressa nel panorama della sicurezza informatica, segnando la dimostrazione di una vulnerabilità sorprendentemente semplice ma estremamente pericolosa negli agenti Gemini Workspace di Google. Una scoperta di un team di sicurezza guidato da un ricercatore di SafeBreach Labs ha rivelato come una banale notifica di Google Calendar possa essere armata per compromettere gli agenti basati sull'IA, consentendo un abuso remoto.
Gli esperti hanno sviluppato una nuova variante di quelle che definiscono Promptware: input manipolativi progettati per indurre intenzionalmente i modelli linguistici di grandi dimensioni (LLM) a eseguire azioni dannose. Durante i test, i ricercatori sono riusciti, attraverso questi attacchi, a controllare dispositivi domestici intelligenti, intercettare flussi video dalle vittime, esfiltrare dati sensibili e persino alterare l'ambiente fisico. Questa rivelazione sottolinea una crescente preoccupazione nel campo della sicurezza informatica, dove l'integrazione sempre più diffusa dell'intelligenza artificiale generativa con le applicazioni tradizionali introduce nuove e complesse superfici di attacco.
Da circa due anni, le applicazioni classiche vengono sempre più spesso combinate con l'IA generativa, spesso includendo funzionalità come la "Retrieval Augmented Generation" (RAG), che integra fonti di conoscenza esterne, o agenti software specializzati. Questi progressi aumentano l'efficienza e la precisione, ma aprono anche nuove vie per gli attacchi malevoli. La Promptware sfrutta testi, immagini o dati audio appositamente preparati per manipolare gli LLM durante la loro elaborazione. Sebbene la tecnica sia nota da tempo, molti esperti di sicurezza non la considerano una minaccia seria, un errore che l'attuale indagine ha dimostrato essere grave.
Cosa sono le Promptware?
Le Promptware utilizzano un prompt – un input sotto forma di testo, immagini o campioni audio – progettato per sfruttare un'interfaccia LLM al momento dell'inferenza, al fine di scatenare attività malevole, come la diffusione di spam o l'estrazione di informazioni riservate. Il perimetro delle Promptware si trova tra RAG, agenti e LLM. Tradizionalmente, gli attacchi informatici mirano a corruzioni della memoria come gli overflow di buffer, la programmazione orientata internamente e gli exploit use-after-free. Tuttavia, data la moltitudine di integrazioni di LLM nelle applicazioni, si ritiene che gli LLM siano il componente più vulnerabile delle applicazioni che li integrano. Pertanto, si prevede uno spostamento significativo della superficie di attacco sulle applicazioni, dai problemi di sicurezza della memoria alle Promptware.
I ricercatori hanno dimostrato che i cosiddetti Targeted Promptware Attacks funzionano anche contro le tre interfacce Gemini più diffuse:
- la versione web (gemini.google.com)
- l'app mobile (Gemini for Mobile)
- l'assistente vocale integrato su Android
Lo scenario d'attacco dettagliato
Lo scenario d'attacco è ingannevolmente semplice: una vittima riceve un invito di Google Calendar apparentemente innocuo. Tuttavia, il nome dell'evento o altri campi contengono iniezioni di prompt nascoste che, in background, "sequestrano" il contesto dell'applicazione. In questo modo, gli attaccanti possono sfruttare i permessi degli agenti Workspace collegati, che vanno dal tracciamento della posizione all'accesso a telecamere e microfoni, fino al controllo remoto di dispositivi connessi. Questa capacità di manipolare non solo i dati digitali ma anche di influenzare il mondo fisico è particolarmente allarmante.
Il rapporto completo fornisce dettagli tecnici sugli attacchi, un'analisi aggiornata delle minacce e una valutazione del rischio in scenari reali. Inoltre, documenta come Google ha reagito alle rivelazioni e quali misure di protezione le aziende dovrebbero ora adottare. Questo aspetto è cruciale per comprendere la reattività dell'industria e la gravità con cui le aziende dovrebbero affrontare tali minacce.
Risultati chiave della ricerca
I ricercatori di SafeBreach Labs hanno sviluppato una nuova metodologia di attacco che chiamano "Targeted Promptware Attacks". Il punto cruciale è che un semplice invito di Google Calendar è stato sufficiente per compromettere gli agenti Gemini basati sull'IA di una vittima. Nei test, gli esperti di sicurezza sono riusciti a eseguire una serie di attacchi attraverso gli agenti così compromessi, tra cui:
- Invio di spam e messaggi di phishing.
- Generazione di contenuti dannosi.
- Eliminazione di voci del calendario della vittima.
- Controllo remoto di dispositivi domestici connessi come finestre, riscaldamento o illuminazione.
- Determinazione della posizione della vittima.
- Accesso a flussi video tramite Zoom.
- Esfiltrazione di e-mail private.
Gli esperimenti hanno inoltre dimostrato che le Promptware non solo possono spostarsi tra diversi agenti Gemini (movimento laterale tra gli agenti), ma anche tra diverse applicazioni, inclusa la possibilità di accedere ad applicazioni per smartphone con effetti fisici. Questa capacità di "saltare" tra diverse piattaforme e persino influenzare il mondo fisico rende gli attacchi Promptware particolarmente insidiosi e difficili da contenere.
Analisi del rischio e implicazioni
Per l'analisi del rischio, i ricercatori hanno utilizzato un proprio modello di valutazione, il Threat Analysis and Risk Assessment Framework (TARA). Il risultato è stato che il 73% di tutte le minacce Promptware identificate è stato classificato come "altamente critico", richiedendo contromisure immediate. Questi dati sottolineano l'urgenza con cui le organizzazioni devono agire per proteggere i propri sistemi.
I risultati di questa ricerca non sono importanti solo per Google Gemini, ma anche per altre applicazioni basate su LLM che potrebbero essere suscettibili agli attacchi Promptware. Gli esperti IT ritengono che i risultati forniscano diverse importanti intuizioni, in particolare che le Promptware:
- Sono più pratiche e facili da applicare rispetto ai tradizionali attacchi informatici.
- Hanno gravi implicazioni e sono dimostrabilmente in grado di:
- Avere un impatto sul dominio fisico.
- Effettuare movimenti laterali tra gli strumenti di un agente, agenti diversi e applicazioni diverse (aggirando i confini dell'applicazione utilizzata per elaborare un prompt).
- Rappresentano un rischio critico per le applicazioni basate su LLM. Le aziende devono rivalutare il rischio che le Promptware rappresentano per i loro sistemi basati su LLM attraverso un'analisi delle minacce e una valutazione del rischio (TARA) e dare priorità all'implementazione delle misure di mitigazione necessarie.
Si prevede inoltre che nuove varianti di Promptware siano in preparazione, tra cui:
- Varianti 0-click che mirano alle inferenze LLM automatiche.
- Varianti non mirate che inviano Promptware a tutti gli utenti (ad esempio, tramite YouTube, Google Maps).
Queste previsioni indicano una futura evoluzione e diversificazione della minaccia, rendendo ancora più impellente la necessità di una strategia di difesa proattiva.
Vettori d'attacco della Promptware
Le Promptware possono essere applicate in due vettori d'attacco principali:
- Iniezione diretta di prompt. In questo caso, l'utente può essere l'aggressore, e l'attacco viene eseguito tramite input che l'utente fornisce intenzionalmente per attaccare l'applicazione LLM. Un esempio di questo potrebbe essere un infostealer di dataset RAG, in cui un aggressore tenta di estrarre il dataset utilizzato da un chatbot medico a pagamento per replicare il servizio, violando così la proprietà intellettuale e la riservatezza.
- Iniezione indiretta di prompt. In questo caso, l'utente è la vittima e l'attacco viene eseguito tramite dati che sono stati compromessi dall'aggressore e involontariamente trasmessi dall'applicazione all'applicazione basata su LLM. Un esempio di questo sarebbe un attacco innescato dall'invio di un invito di Google Calendar a un utente, come dimostrato dalla ricerca.
È importante notare che non solo Google Gemini è stato oggetto di tali attacchi. Zenity e Aim Labs hanno anche dimostrato varianti di Promptware infostealer contro Microsoft Copilot, mentre Johann Rehberger ha dimostrato varianti di Promptware contro tutte le applicazioni basate su LLM esistenti. Ciò evidenzia che il problema è sistemico e non limitato a un singolo fornitore o prodotto.
Idee sbagliate sulla Promptware
Nonostante l'aumento delle varianti di Promptware, la maggior parte degli esperti di sicurezza non ha familiarità con esse o non le considera un rischio critico. Perché? Si presume che ciò sia dovuto a diverse idee sbagliate che riguardano gli attacchi ai sistemi basati sull'IA:
- Richiedono attaccanti esperti con conoscenze avanzate nel campo dell'apprendimento automatico avversario.
- Si basano su modelli di minaccia irrealistici che richiedono un accesso white-box al modello target attaccato.
- Richiedono un cluster di GPU per eseguire l'addestramento avversario e trovare l'istanza avversaria.
- Non possono eludere le misure di protezione implementate nei sistemi di produzione.
Queste idee sbagliate, sebbene fossero valide per i classici attacchi avversari sui classificatori di immagini, che cercavano di aggiungere disturbi a un'immagine affinché venisse classificata erroneamente dal classificatore, non valgono per le applicazioni basate su LLM. Tuttavia, hanno indotto molti professionisti e specialisti dell'InfoSec a credere che gli attacchi ai sistemi AI fossero meno imminenti o meno gravi di quanto non siano in realtà.
In conclusione, la ricerca di SafeBreach Labs funge da campanello d'allarme, sottolineando la necessità di un'urgente riconsiderazione delle strategie di sicurezza nell'era dell'IA generativa. Le Promptware rappresentano una minaccia nuova e potente, in grado di bypassare le difese tradizionali e di sfruttare le fondamenta stesse dei sistemi intelligenti su cui facciamo sempre più affidamento. La consapevolezza, la valutazione del rischio e l'adozione di misure preventive robuste sono ora più che mai indispensabili per proteggere le nostre infrastrutture digitali e fisiche.