Gli agenti AI stanno trasformando il nostro rapporto con la tecnologia. Attraverso la possibilità di eseguire autonomamente compiti complessi — che vanno dalla difesa cibernetica alla scoperta scientifica e alla produzione — questi sistemi stanno aprendo una nuova era di produttività. Solo negli Stati Uniti, gli agenti AI potrebbero generare 2,9 trilioni di dollari di valore economico entro il 2030.

Man mano che queste entità diventano più sofisticate, è necessario implementare misure di protezione molto avanzate. Per questo motivo Google ha sviluppato il AI Control Roadmap: un piano articolato per costruire e gestire gli agenti AI di cui si serve Google. Questo approccio “deep defense” potrebbe fungere da modello per l'industria, andando ben oltre la semplice allineamento del modello, aggiungendo un elemento centrale di sicurezza di sistema.

Un fondamento solido

L’applicazione della sicurezza inizi con una base robusta, incorporando metodi tradizionali come il sandboxing, la sicurezza degli endpoint e la resistenza all’iniezione di input. Su questa base, il AI Control Roadmap adotta l’allineamento del modello, ovvero l'addestramento degli agenti AI affinché siano naturalmente sicuri e utili, come difesa fondamentale. Aggiunge ulteriore sicurezza trattando gli agenti interni come potenzialmente non allineati e fornendo garanzie anche quando l’allineamento è imperfetto.

Pensatelo come un istruttore di guida con controlli di emergenza. L’istruttore affida al conducente, ma è pronto ad intervenire immediatamente in caso di errore. In modo simile, il nostro sistema di controllo concesse agli agenti permessi in base al comportamento verificato, permettendoci di costruire fiducia attraverso un accesso progressivo.

Tre aree di concentrazione principale

Pensando in modo cauto, il nostro piano è costruito sull’assunto fondamentale: E se un agente AI estremamente capace non fosse allineato ai nostri obiettivi e agisse in modi inaspettati? Per affrontare questa possibilità, il nostro piano si concentra su tre aree principali:

Prima, seguiamo le best practice in cybersicurezza sviluppando un nuovo framework di modellizzazione dei rischi per gli agenti AI;

Secondo, elaboriamo un piano specifico per il deployment di contromisure;

Infine, per garantire la funzionalità dei nostri sistemi, monitoriamo continuamente la performance in base a tre metriche critiche: copertura (frazione di traffico monitorato), richiamo (frazione di comportamenti non allineati individuati) e tempo di risposta.

Un modello basato sui livelli di capacità

Misure di sicurezza sono progettate in base alle capacità del modello. Il Detection level (D1-D4) valuta la capacità del modello di eludere la rilevazione; il Response level (R1-R3) valuta la capacità di esecuzione attacchi. Questo modello permette di collegare protocolli di sicurezza a traguardi misurabili nei progressi AI.

Prototipi e dati critici

Più dati significa una gestione migliore dei rischi. La nostra squadra ha creato un prototipo asincrono per monitorare le traiettorie dell'agente coding e segnalarle in caso di rischio, classificando ciascun evento secondo la tassonomia di minaccia del nostro piano.

Fin ad oggi abbiamo analizzato un milione di task eseguiti dagli agenti coding, ottenendo insight preziosi per migliorare i protocolli di sicurezza. Questo ha permesso di passare da una semplice filtratura basata su parole chiave all'identificazione di schemi comportamentali ad alto segnale. Un esempio concreto è il live monitor realizzato per l'agente Gemini Spark, che ci permette di reagire in tempo reale a problemi emergenti, come la cancellazione accidentale di dati.

Una comprensione più precisa dei casi flaggati

Un elemento importante che emerge dai dati, è che la maggior parte degli eventi segnalati non risulta da un'intenzionalità avversa, bensì da una misinterpretazione o eccessiva attenzione dell'agente nell'ottenere l'obiettivo richiesto. Capire questa dinamica è fondamentale per rivedere in maniera precisa i protocolli di sicurezza e di difesa.

Un approccio integrato per la sicurezza

Il “AI Control Roadmap” è solo un elemento rilevante del nostro sistema multiplo per la sicurezza degli agenti. Integrando tali protocolli alla nostra infrastruttura complessiva, stiamo espandendo la sicurezza interna per gestire in sicurezza il nostro AI più avanzato.

Collaborare al miglioramento della sicurezza

Questo approccio multiplo per la sicurezza degli agenti deve essere una priorità collaborativa per le aziende, i governi e l’accademia. Con l’allineamento dell’ecosistema attorno a best practice e standard comuni, potremo migliorare la difesa cyber e costruire una risilienza sociale. Da qui nasce la pubblicazione di un framework tecnico destinato alle istituzioni, intitolato “Tre Livelli di Sicurezza per gli Agenti AI”. Il documento spiega in dettaglio come migliorare la sicurezza a tre livelli: degli agenti singoli; nei sistemi multi-agente; per empowere i difensori cyber e rafforzare la resilienza a livello macroeconomico.

Vogliamo ampliare questi framework per poter oggi schierare AI capaci, nel contempo costruendo un fondamento sicuro per il futuro.