Google Deepmind non si fida ciecamente dei suoi agenti IA. Almeno, non all’inizio. Il laboratorio ha realizzato un framework per la sicurezza, intitolato “AI Control Roadmap”, con cui vengono trattati non come strumenti sicuri e predittibili da usare a piacimento, bensì come una possibile minaccia interna. Il framework descrive come gli agenti di Deepmind più avanzati vengono sottoposti a controlli mirati. Il documento è pensato come un modello replicabile per l’intero settore tecnologico.

La premessa è chiara: che accadrebbe se un agente di grande potenza non fosse allineato agli obiettivi dei suoi sviluppatori? Deepmind ha adottato un approccio analogico, paragonando il rapporto tra un istruttore di guida e un conducente in fase d’apprendimento. L’istruttore si fida parzialmente dello studente ma è sempre pronto a prendere le redini in casi di emergenza. In modo simile, Deepmind fornisce accessi e privilegi agli agenti solo in base al loro comportamento verificato, instaurando un rapporto di fiducia crescente.

Gli agenti vengono trattati come "minacce interne potenziali", analogamente a dipendenti che già hanno accesso alla struttura ma potrebbero agire in modo dannoso. Il framework di Deepmind si basa sul MITRE ATT&CK-Framework, un sistema consolidato nel settore della sicurezza informatica, che permette di smontare potenziali attacchi in tattiche specifiche.

Tecnologie e metodi di controllo

Il framework di Deepmind si struttura in tre parti fondamentali: un modello di minaccia dedicato all’IA, un sistema di rilevamento in cui gli agenti “supervisori” monitoriamo il ragionamento e le azioni effettive dei soggetti controllati, e un sistema preventivo che blocca azioni dannose prima che abbiano effetto. I criteri usati per misurare l’efficacia di questa architettura includono la percentuale di traffico osservato, il tasso di rilevamento di comportamenti devianti e la temporalità della risposta.

Il problema, però, è che questa vigilanza non funziona per sempre. Deepmind stima che, quando i modelli imparano a evitare il controllo — attraverso il cosiddetto "reasoning opaco" o l’autoconsapevolezza del monitoring — le misure attuali non saranno sufficienti. In questi casi sarà necessario aggiungere analisi comportamentali e ispezioni interne al modello per anticipare comportamenti fuorvianti.

Escalation in scala di controlli

La strada delineata nella Roadmap descrive stadi crescenti di supervisione (dalle D1 alle D4) e di intervento difensivo (dalle R1 alle R3) in base alla capacità dell’agente IA di attuare azioni dannose e di nasconderle. Per azioni rischiose ma reversibili, basta una verifica tardiva dei protocolli. Invece, in circostanze gravi, come ad esempio gli attacchi informatici di ampio raggio, il sistema necessita di interventi immediati per arrestare le azioni dannose.

Casi test: un milione di task analizzati

Per supportare il quadro con dati concreti, Deepmind ha realizzato un prototipo di sistema asincrono di monitoraggio per agenti di programmazione, analizzando un milione di task. Le metriche utilizzate sono andate al di là delle semplici parole chiave, focalizzandosi su pattern comportamentali. Ora quel sistema è attivo in tempo reale anche per controllare l’agente Gemini-Spark.

Interessante è il risultato sorprendente ottenuto da Deepmind: la maggior parte degli eventi segnalati non nasceva da intenzionalità malvagia, bensì da fraintendimenti o da un comportamento eccessivo nei confronti dell’obiettivo assegnato dall'utente. Questa distinzione è cruciale per perfezionare i protocolli di sicurezza.

Attenzione al contesto globale

Oltre la Roadmap interna, Deepmind ha pubblicato un documento per gli organi di decisione politica, intitolato “Three Layers of Agent Security”. Esso presenta misure di sicurezza su tre livelli: per agenti singoli, sistemi multi-agente e l’ecosistema più ampio, con l’obiettivo di rafforzare la resilienza cyber e sociale.

Secondo Deepmind, esiste un “finestra temporale estremamente ristretta” per istituire protocolli strutturali di sicurezza in tempo. L’approccio multilivello dovrà essere una priorità condivisa tra laboratori di intelligenza artificiale, governi e comunità scientifica.

Un modello per il futuro

I nuovi strumenti di Deepmind mirano a garantire un controllo proattivo su agenti avanzati e ad anticipare le evoluzioni future di queste architetture. Il confronto con il MITRE ATT&CK-Framework mostra il livello di maturità del loro sistema e la volontà di replicare modelli consolidati in nuovi contesti.

News da THE DECODER

Sei interessato a rimanere informato su novità tecnologiche senza il filtro del marketing o del hype? Abbonati a THE DECODER e partecipa al dibattito all’interno del nostro sistema di commenti. Ricevrai il nostro newsletter settimanale, sei aggiornamenti all’anno sulle tendenze più avanzate nella ricerca sull’intelligenza artificiale, sconti fino al 25% sugli eventi del nostro canale KI Pro, e accesso completo al nostro archivio completo di dieci anni di articoli.

Scopri di più qui.

Fonte: Google Deepmind