Secondo un'indagine di Gartner, solo il 28% dei casi d'uso dell'IA nell'amministrazione delle infrastrutture IT raggiunge i propri obiettivi di ritorno sull'investimento, mentre il 20% fallisce completamente. La ragione di questa inefficienza non risiede in un'IA inadatta, bensì in una strategia di adozione incompleta. Sostituire semplicemente il fornitore di IA o aumentare il budget per strumenti più costosi non risolverà il problema.

Per sfruttare appieno i vantaggi degli agenti IA che automatizzano la configurazione delle infrastrutture, le aziende devono fornire a questi agenti dati specifici per la propria attività. Questo articolo ne illustra i dettagli e le modalità.

Perché gli agenti IA non sono spontaneamente all'altezza?

In molte aziende, gli ingegneri tendono a considerare gli agenti IA come semplici motori di ricerca più intelligenti, anziché integrarli correttamente nelle proprie piattaforme. Spesso, essi sottopongono ogni incidente, errore o problema di configurazione a qualsiasi agente IA, aspettandosi una soluzione magica. Tuttavia, nella maggior parte dei casi, le risposte ottenute sono generiche. Sebbene teoricamente corrette, queste risposte non sono necessariamente adatte all'ambiente specifico dell'azienda e possono persino interrompere la produzione.

Gli agenti IA sono in grado di scrivere codice di configurazione, implementare tali configurazioni e ragionare su problemi complessi. Nonostante queste capacità avanzate, presentano un punto cieco strutturale che nessuna istruzione può superare: sono limitati dai dati su cui sono stati addestrati.

Gli sviluppatori di modelli di uso più generale, come Claude Code e GitHub Copilot, addestrano i loro modelli esclusivamente su dati accessibili al pubblico. Per impostazione predefinita, questi agenti non conoscono il funzionamento specifico di un'azienda particolare. Gli elementi sconosciuti, ma essenziali, includono tipicamente:

Le convenzioni di denominazione.
Le restrizioni di sistema.
La topologia dei servizi interni.
Le astrazioni personalizzate.
Le politiche di conformità.
Le decisioni architetturali.
Le analisi retrospettive.
Le guide operative che elencano gli imperativi.

Gli ingegneri possono impiegare molte ore per correggere e perfezionare questi agenti IA, al fine di garantire una loro efficace integrazione nei sistemi aziendali. Tuttavia, questo annulla i guadagni di produttività attesi. È proprio questa lacuna che i CIO e i dirigenti devono colmare quando valutano gli strumenti di IA destinati ai loro team di infrastruttura.

La scelta di un agente IA rappresenta solo metà del percorso. La capacità di questo agente di mantenere le sue promesse dipende dalla maniera in cui le aziende gli trasmettono il proprio sapere istituzionale.

Come trasmettere agli agenti IA le conoscenze sull'infrastruttura?

Le aziende possono ricorrere a tre approcci per fornire ai loro agenti IA informazioni sulla propria infrastruttura.

1/ Tramite conoscenze collettive

Gli ingegneri esperti incorporano istruzioni specifiche dell'azienda nei loro prompt, basandosi sulla memoria. Questo può essere semplice come: «In questa azienda, utilizziamo…». Tuttavia, questo metodo funziona solo se l'ingegnere ricorda correttamente le informazioni necessarie. Questa metodologia può diventare inaffidabile e non scalabile quando gli ingegneri commettono errori su dettagli critici o quando i nuovi membri del team non dispongono delle informazioni richieste.

2/ Tramite documentazione statica

Gli ingegneri possono indicare all'IA la posizione della documentazione che descrive gli standard interni, probabilmente in un file Markdown. Possono anche scegliere di copiare il contenuto in ogni conversazione con il modello. Tuttavia, si tratta di un processo manuale. E, considerata la lentezza con cui i team possono evolvere, la documentazione può rapidamente diventare obsoleta.

Ancora più importante, il know-how di un team IT non si limita a una manciata di documenti. Si tratta di un insieme di conoscenze preziose disperse in repository Git, pagine Notion, pagine Confluence, discussioni Slack e trascrizioni Zoom. Molte di queste fonti si sovrappongono e si contraddicono. Il carico di lavoro legato al copia-incolla ad ogni interazione con l'IA diventa insostenibile.

3/ Tramite una pipeline di ricerca contestuale (il RAG)

In realtà, un documento può trattare diversi argomenti. È inefficiente fornire agli agenti IA ogni singolo dettaglio quando hanno bisogno solo delle informazioni specifiche per il compito da svolgere. Per questo motivo, le aziende dovrebbero implementare un processo di RAG (generazione aumentata da recupero) con due pipeline: una per l'ingestione e l'altra per la ricerca.

La pipeline di ingestione cattura la documentazione aziendale, ovunque essa si trovi, e la scompone in dati. Database vettoriali archiviano, gestiscono e indicizzano questi dati.

La pipeline di ricerca riceve i prompt dall'ingegnere e li invia a un server MCP (Model Context Protocol). Un server MCP converte le query in embedding, ossia in dati numerici che gli consentono di effettuare una ricerca semantica nel database vettoriale, al fine di recuperare le informazioni pertinenti. Alla fine, il LLM combina il contesto operativo specifico con le sue conoscenze generali per generare una risposta.

Il RAG necessita di pipeline di recupero e ingestione per funzionare. Un controller Kubernetes può automatizzare l'ingestione dei documenti, garantendo così il funzionamento continuo della pipeline e la sua sincronizzazione con la documentazione e le risorse man mano che evolvono. È importante notare che non è necessario introdurre un livello di orchestrazione distinto su infrastrutture che si basano già su cluster Kubernetes per eseguire applicazioni.

Va detto che il RAG aggiunge una certa complessità all'infrastruttura a causa della presenza di diversi elementi mobili. Inoltre, la qualità dei dati è essenziale, poiché dati mal strutturati possono portare a risultati inaffidabili.

I dati possono anche diventare obsoleti. Se rimangono nel database vettoriale dopo l'aggiornamento dei documenti sorgente, il RAG recupererà informazioni contraddittorie. Gli ingegneri devono progettare la pipeline in modo da eliminare i vecchi dati anziché limitarsi ad aggiungere i nuovi.

Come prevenire i rischi di sicurezza legati agli agenti di IA?

Man mano che gli agenti IA si integrano sempre più nell'infrastruttura, essi diventano una preoccupazione maggiore in termini di sicurezza e conformità. Ecco tre aree chiave di sicurezza che le aziende devono affrontare fin da subito:

1/ Controllo delle autorizzazioni e degli accessi

Gli agenti non sono semplici strumenti passivi; accedono costantemente a dati sensibili dell'azienda. Di conseguenza, devono essere trattati come dipendenti con accesso privilegiato, poiché l'entità delle conseguenze di un errore è altrettanto significativa.

Tipicamente, gli agenti devono poter modificare i cluster dell'infrastruttura, ma non devono poter accedere al sistema di fatturazione del cloud. Devono poter aprire pull request, ma non devono poter integrare il proprio lavoro in produzione senza l'approvazione di un essere umano.

2/ Meccanismi di sicurezza

Questi meccanismi sono misure di protezione essenziali che limitano ciò che un agente può e non può fare. Gli agenti non devono compiere azioni ad alto rischio senza l'intervento di un essere umano. Questo può includere azioni come l'implementazione di database o la cancellazione di dati.