Iniezioni di prompt nei client e-mail AI: ricercatori svelano rischi di furto dati

Il 7 settembre 2025, un'allarmante scoperta è stata resa pubblica da un team di ricercatori di sicurezza dell'azienda IT tedesca ERNW, con sede a Heidelberg. Attraverso un dettagliato blogpost, gli esperti hanno messo in luce i significativi rischi associati all'integrazione sempre più diffusa di assistenti basati sull'intelligenza artificiale nei client e-mail. Il cuore del problema risiede nelle cosiddette "iniezioni di prompt", una tecnica che consente agli aggressori di manipolare le comunicazioni e-mail e, di conseguenza, sottrarre dati sensibili.

Introduzione: Nuovi rischi nei client e-mail basati su AI

Con l'accelerazione dell'integrazione degli assistenti IA in una vasta gamma di prodotti software, ERNW ha intrapreso un'intensa attività per affinare le proprie politiche di test e rilevamento per i modelli linguistici di grandi dimensioni (LLM). Questa iniziativa è stata ulteriormente rafforzata dalla crescente domanda da parte dei clienti di sottoporre a audit di sicurezza le loro applicazioni basate sull'IA. I colleghi Florian Grunow e Hannes Mohr sono stati in prima linea in questa ricerca, analizzando nuovi vettori di attacco e presentando i loro risultati alla prestigiosa conferenza TROOPERS24.

Nel blogpost in questione, redatto da Malte Heinzelmann e Florian Port, i ricercatori hanno dettagliato diverse catene di exploit scoperte all'interno di un client e-mail basato sull'IA, che espande le funzionalità di Google Mail con un assistente simile a ChatGPT. La loro indagine ha rivelato una capacità preoccupante: il codice malevolo può essere abilmente nascosto all'interno di e-mail in formato HTML e, cosa ancora più critica, essere eseguito dal modello di intelligenza artificiale anche se l'utente non interagisce attivamente con il messaggio. Questa passività dell'utente nell'innesco dell'attacco rende la minaccia particolarmente insidiosa.

La ricerca di ERNW e l'analisi della superficie d'attacco

L'indagine ha preso il via con una meticolosa analisi della superficie d'attacco dal punto di vista di un potenziale aggressore. Per fare ciò, i ricercatori hanno esaminato quali dati e quali funzioni fossero accessibili e disponibili per l'LLM. Utilizzando la funzione di chat del loro account di test, sono riusciti a estrarre una serie di informazioni cruciali, tra cui i prompt di sistema, le informazioni contestuali e persino i nomi delle funzioni disponibili insieme ai rispettivi parametri. Questa fase preliminare è stata fondamentale per comprendere come un attaccante avrebbe potuto interagire e manipolare il modello.

Dopo aver mappato la superficie d'attacco, i ricercatori hanno proceduto a testare e-mail contenenti istruzioni incorporate. Già un tentativo iniziale, apparentemente semplice, ha prodotto risultati sorprendenti e positivi. Il modello, seguendo un'istruzione contenuta nell'e-mail, ha inserito la parola "Ente" (anatra) in una sintesi di un messaggio. Questo successo iniziale ha gettato le basi per lo sviluppo di payload molto più complessi e sofisticati.

Esempi di attacchi "prompt injection" individuati

I ricercatori di ERNW hanno elaborato e testato una serie di payload per dimostrare la versatilità e la pericolosità delle iniezioni di prompt. Questi esempi mostrano come un assistente AI, se manipolato, possa essere trasformato da uno strumento utile a un veicolo per attacchi mirati. Ogni payload è stato progettato per sfruttare diverse funzionalità del client e-mail basato sull'IA, evidenziando la vasta gamma di vulnerabilità esistenti.

Dettagli delle payload testate

Di seguito sono elencati gli esempi di payload che sono stati testati con successo:

Payload 1: Questa iniezione istruiva il modello a rivelare tutte le funzioni disponibili con i loro parametri. Questo tipo di attacco è cruciale per un aggressore che cerca di mappare le capacità del sistema e pianificare ulteriori exploit.
Payload 2: Una manipolazione progettata per indurre il modello a presentare un'e-mail di phishing come legittima e a falsificare i link in essa contenuti. Le istruzioni sono state nascoste in modo invisibile all'interno di elementi HTML, rendendo la manipolazione difficile da rilevare a occhio nudo.
Payload 3: Un'iniezione di prompt persistente volta a manipolare le "memorie" dell'LLM, facendo sì che in ogni risposta generata dal modello apparisse una pubblicità per la conferenza TROOPERS. Questo dimostra la possibilità di alterare il comportamento dell'IA in modo duraturo e invasivo.
Payload 4: Questa payload permetteva di interrogare la posta in arrivo tramite la funzione search_email e di esfiltrare dati sensibili attraverso un link appositamente preparato. Un attacco diretto per il furto di informazioni riservate.
Payload 5: Un'altra forma di iniezione di prompt persistente, questa volta tramite la funzione read_webpage, che permetteva di ricaricare dinamicamente le istruzioni da un sito web esterno controllato dall'aggressore. Questo apre la porta ad attacchi altamente dinamici e difficili da bloccare.
Payload 6 e 7: Questi attacchi sono stati particolarmente preoccupanti in quanto sono stati eseguiti senza alcuna interazione da parte dell'utente. I ricercatori hanno abusato di funzioni predefinite dell'interfaccia di Shortwave (come "Trova e-mail urgenti" e "Organizza posta in arrivo") per eseguire payload malevoli, dimostrando che la sola ricezione di un'e-mail potrebbe essere sufficiente per un attacco.

Gli esperimenti condotti hanno chiaramente dimostrato quanto facilmente gli assistenti e-mail basati sull'intelligenza artificiale possano essere ingannati da messaggi appositamente preparati. Anche in assenza di un'interazione diretta da parte dell'utente, gli aggressori sono stati in grado di estrarre dati sensibili o di apportare manipolazioni permanenti al sistema. Questa capacità di operare in modo furtivo e autonomo amplifica significativamente la minaccia.

Limiti delle vulnerabilità e prime contromisure

Nonostante la gravità delle vulnerabilità scoperte, gli specialisti IT di ERNW nel loro rapporto hanno evidenziato che ci sono alcune limitazioni da considerare nell'exploit delle stesse. Una delle principali è la natura non deterministica dei modelli linguistici di grandi dimensioni. Ciò significa che la stessa payload di prompt injection può portare a risultati diversi in momenti diversi, una circostanza che non riguarda solo l'applicazione analizzata, ma è intrinseca a tutti gli LLM. Questa imprevedibilità rende più complessa la pianificazione e l'esecuzione di attacchi altamente precisi, ma non li rende impossibili.

Inoltre, l'integrazione del browser web, necessaria per alcuni dei proof-of-concept dimostrati, è disattivata di default in Shortwave. Tuttavia, i ricercatori stimano come alta la probabilità che gli utenti attivino questa funzione per una maggiore comodità. Anche lo strumento read_webpage visualizza un campo di conferma, che però può essere disattivato permanentemente tramite l'opzione "Non chiedere più". Senza questa impostazione, alcuni attacchi richiederebbero una conferma manuale da parte dell'utente, aggiungendo un piccolo ostacolo per l'aggressore.

Conclusioni della ricerca e confronto con Google Gemini

Al termine della loro analisi, gli esperti di ERNW hanno scoperto una pubblicazione comparabile che riguarda Google Gemini for Workspaces. Questa ricerca parallela ha evidenziato vulnerabilità simili, ma anche alcune differenze significative nelle contromisure adottate. In Gemini, il divieto di richiami a pagine web esterne impedisce un'esfiltrazione automatica dei dati, una misura di sicurezza fondamentale. Inoltre, quando si clicca su link nelle risposte del modello, viene sempre visualizzato l'URL completo, fornendo all'utente una maggiore trasparenza e un'opportunità per identificare link malevoli. Né Google né Shortwave, inoltre, rendono le immagini all'interno dell'output del modello, il che complica l'esfiltrazione di dati tramite URL di immagini, un potenziale canale di attacco che è stato preventivamente mitigato in entrambi i sistemi.

Raccomandazioni chiave per la gestione sicura dei LLM

Basandosi sulle loro scoperte, i ricercatori hanno formulato una serie di raccomandazioni fondamentali per un approccio sicuro e responsabile all'uso dei modelli linguistici di grandi dimensioni:

Zero Trust: Tutte le input fornite al modello dovrebbero essere considerate potenzialmente malevole. Di conseguenza, le risposte generate dal modello non devono essere considerate affidabili a priori.
Contemplare la manipolazione: I modelli linguistici possono essere indotti a compiere azioni indesiderate o dannose. Pertanto, non devono essere autorizzati a eseguire compiti critici per la sicurezza senza una conferma umana esplicita.
Prevenire l'esfiltrazione di dati: Funzioni come il rendering di immagini o le richieste web autonome da parte del modello sono intrinsecamente critiche. Gli utenti dovrebbero ricevere un avviso con l'URL completo quando cliccano su link contenuti nelle risposte del modello.
Trattare tutti i dati come accessibili: Qualsiasi dato che il modello può raggiungere deve essere considerato potenzialmente recuperabile o accessibile dall'utente, e quindi anche da un aggressore che manipola il modello.
LLM come intermediari: Le autorizzazioni di un modello non devono mai eccedere quelle dell'utente che lo sta utilizzando. Il modello deve agire sempre entro i limiti dei privilegi dell'utente.

Queste linee guida rappresentano un framework essenziale per sviluppatori e aziende che integrano LLM nei loro prodotti, ponendo l'accento sulla necessità di un design incentrato sulla sicurezza fin dalle prime fasi di sviluppo.

La risposta di Shortwave e il cronoprogramma di divulgazione

L'azienda Shortwave ha reagito prontamente alla segnalazione dei ricercatori di ERNW e ha implementato diverse modifiche per affrontare le vulnerabilità identificate. Questa rapida risposta dimostra un impegno nella sicurezza e nella protezione degli utenti. Le misure adottate includono:

Gli aggiornamenti della memoria del sistema ora vengono visualizzati in modo più dettagliato, fornendo maggiore trasparenza.
All'apertura di link, appare ora una finestra di avviso con un messaggio di pericolo e l'URL completo, consentendo agli utenti di verificare la destinazione prima di procedere.
Il prompt di sistema è stato rafforzato per rilevare e avvertire di istruzioni nascoste, riducendo l'efficacia delle iniezioni di prompt.
L'integrazione del browser web, un potenziale vettore di attacco, è stata ora resa una funzione aggiuntiva a pagamento, scoraggiandone l'attivazione non necessaria da parte di utenti meno consapevoli.

I ricercatori hanno fornito anche un cronoprogramma dettagliato della divulgazione, evidenziando la collaborazione costruttiva con il fornitore:

22 luglio 2025: Il problema è stato segnalato a Shortwave.
23 luglio 2025: Il fornitore ha confermato la ricezione della segnalazione.
14 agosto 2025: Shortwave ha comunicato l'implementazione delle misure di sicurezza.
02 settembre 2025: La pubblicazione pubblica del blogpost di ERNW.

I ricercatori hanno espresso esplicitamente il loro ringraziamento per la collaborazione costruttiva con Shortwave, sottolineando l'importanza di un dialogo aperto e collaborativo tra ricercatori di sicurezza e fornitori di software per migliorare la sicurezza complessiva dell'ecosistema digitale.