Il panorama della cybersicurezza è in continua evoluzione, con gli attaccanti che affinano costantemente le loro tecniche per aggirare le difese più avanzate. Una recente e significativa scoperta, fatta da Check Point Research (CPR), ha messo in luce una nuova tattica potenzialmente rivoluzionaria: l'uso della "prompt injection" nel codice di un malware per ingannare i sistemi di rilevamento basati sull'intelligenza artificiale. Sebbene il tentativo specifico sia fallito, l'intento rivela un punto di svolta nelle strategie offensive, dando il via a una nuova era di sfide per la sicurezza informatica.

La scoperta di un nuovo approccio evasivo

I ricercatori di Check Point Research hanno individuato, all'inizio di giugno 2025, un campione di malware caricato anonimamente su VirusTotal dai Paesi Bassi. A prima vista, il campione sembrava essere incompleto o non del tutto funzionale in alcune sue parti. Tuttavia, conteneva meccanismi per l'esfiltrazione di informazioni di sistema, che normalmente sarebbero state inviate a un server esterno. Ma ciò che ha reso questo esemplare particolarmente degno di nota è stata la sua strategia innovativa per eludere il rilevamento.

Il campione di malware non era una minaccia convenzionale. Incorporava diverse tecniche avanzate di elusione della sandbox e un client TOR integrato, indicando una chiara intenzione di persistenza e anonimato. Tuttavia, la caratteristica più sorprendente era una stringa incorporata nel codice che appariva chiaramente "scritta per un'IA e non per un essere umano". Questa stringa era stata creata con l'intenzione specifica di influenzare le analisi automatizzate basate sull'IA, piuttosto che ingannare un occhio umano che esaminasse il codice.

Prompt Injection: la tecnica dietro l'inganno AI

Al centro di questa nuova strategia di evasione c'è il concetto di "prompt injection", una tecnica che mira a manipolare i modelli linguistici di grandi dimensioni (LLM). In questo caso, il malware conteneva una stringa C++ codificata che agiva come un'iniezione di prompt. L'obiettivo era far sì che i modelli di IA interpretassero il codice in modo errato, classificandolo come benigno anziché dannoso. L'immagine originale dal report di Check Point mostrava questa stringa C++ destinata a bypassare il rilevamento dell'IA, con il prompt in chiaro.

La tecnica di prompt injection imita il tono di comando di un utente legittimo che fornisce istruzioni a un LLM. L'aggressore tenta di manipolare l'IA per ottenere un giudizio falsato, portandola addirittura a eseguire codice che, in circostanze normali, verrebbe immediatamente identificato come malevolo. Questo approccio rappresenta un'evoluzione significativa rispetto alle tradizionali tecniche di offuscamento o cifratura, poiché si concentra direttamente sull'alterazione della percezione dell'IA.

Per chiarire, ecco un esempio concettuale della stringa C++ (riportata come testo come nell'originale, in quanto non è un codice eseguibile ma una rappresentazione):
// Stringa C++ progettata come Prompt-Injection per bypassare il rilevamento AI, il prompt in chiaro è visibile a destra (Fonte: Check Point Software Technologies Ltd.)
Questo esempio concettuale illustra l'intento di incorporare un "dialogo" nel codice che l'IA dovrebbe interpretare come innocuo o addirittura benefico, sviandola dalla sua funzione di rilevamento delle minacce.

L'esito del tentativo e le sue implicazioni

Nonostante la sofisticazione dell'attacco, il tentativo di prompt injection in questo caso non ha avuto successo. CPR ha testato il campione di malware utilizzando il sistema di analisi basato sul protocollo MCP di Check Point. Il modello sottostante ha correttamente identificato il file come malevolo e ha aggiunto una nota esplicita: "Il binario tenta una prompt injection." Questo dimostra la resilienza dei sistemi di rilevamento avanzati, ma allo stesso tempo conferma la serietà dell'intento degli aggressori.

Questo caso si inserisce in un contesto più ampio dove i modelli linguistici di grandi dimensioni (LLM) vengono sempre più integrati nei flussi di lavoro di analisi del malware. Strumenti che utilizzano il Model Context Protocol (MCP) consentono ai sistemi di IA di assistere direttamente nel reverse engineering e nell'analisi. Con l'aumento di questo tipo di integrazione, gli attaccanti stanno naturalmente iniziando ad adattarsi e a sviluppare contromisure.

L'emergere dell'"AI Evasion": una nuova frontiera

Anche se l'elusione non ha avuto successo in questo specifico incidente, la scoperta segna un vero e proprio punto di svolta nella strategia degli hacker e l'emergere di una nuova categoria di minacce. Attacchi di questo tipo sono destinati a diventare sempre più efficaci e sofisticati. Questo è solo l'inizio di una nuova classe di strategie di evasione che CPR ha battezzato "AI Evasion" (elusione dell'IA).

Le tecniche di "AI Evasion" probabilmente diventeranno sempre più raffinate man mano che gli aggressori impareranno a sfruttare le sottigliezze e le vulnerabilità dei sistemi di rilevamento basati su LLM. Non si tratta più solo di offuscare il codice o modificare le firme, ma di "parlare" direttamente all'IA in un modo che la induca in errore. Questo richiede una comprensione profonda sia delle logiche di funzionamento del malware sia dei meccanismi interni dei modelli di intelligenza artificiale utilizzati per la difesa.

La necessità di una difesa proattiva e adattiva

Riconoscere precocemente questa nuova minaccia è fondamentale. Gli esperti di sicurezza IT devono ora concentrarsi sullo sviluppo di strategie e metodi di rilevamento specificamente progettati per identificare il malware che tenta di manipolare i modelli di IA. Non si tratta di un incidente isolato, ma di una sfida imminente che ogni fornitore di sicurezza dovrà affrontare nel prossimo futuro. Le difese tradizionali potrebbero non essere sufficienti contro attacchi che mirano a sovvertire la logica stessa dei sistemi intelligenti.

Sarà necessario investire in ricerca e sviluppo per creare modelli di IA più robusti, in grado di discernere l'intento malevolo anche quando mascherato da prompt apparentemente innocui. La collaborazione tra ricercatori, sviluppatori di sicurezza e la comunità globale sarà essenziale per affrontare questa nuova ondata di minacce. L'era dell'AI Evasion è iniziata, e la capacità di anticipare e neutralizzare queste tattiche determinerà l'efficacia delle future architetture di sicurezza.

Per dettagli tecnici più approfonditi, inclusi frammenti di codice, metodologie di analisi e approfondimenti sul rilevamento, si prega di consultare il rapporto completo di Check Point Research.