Microsoft ha annunciato il rilascio open source del framework Assert, un tool volto a migliorare la valutazione degli agenti di intelligenza artificiale. Lo strumento, chiamato Asser in origine (sigla di Adaptive Spec-Driven Scoring for Evaluation and Regression Testing), è progettato per automatizzare il testing degli agenti IA basandosi su specifiche formulate in linguaggio naturale. L'obiettivo è ridurre la complessità di creare manualmente suite di test per agenti che, una volta in produzione, potrebbero comportarsi in modi imprevedibili.

L’annuncio di questo strumento rientra in una strategia più ampia da parte di Microsoft per supportare la governance dell’IA, un settore strategico per il futuro della tecnologia. Assert ha già dimostrato la capacità di generare in modo autonomo scenari d’analisi, insiemi di dati, metriche e dashboard a partire da documenti come la documentazione tecnica, i cahier des charges o regolamenti legali. “Gli agenti IA falliscono in modo difficile da rilevare”, spiega l'azienda in un post sull’argomento. “Possono deviare da politiche, produrre risultati pericolosi in casi particolari o comportarsi diversamente in produzione rispetto al test. Gli strumenti di benchmark standard non riescono a risolvere questi problemi.”

La maturità dei test comportamentali

Attualmente, le pratiche di valutazione comportamentale sono ancora poco consolidate. Secondo Anushree Verma, senior director analyst di Gartner, molte aziende non testano i propri agenti IA prima di attivarli, una pratica che potrebbe portare a problemi significativi in seguito. L’importanza crescente della capacità di testare e simulare gli agenti IA sta determinando un vantaggio competitivo sempre più decisivo. Gartner prevede che entro il 2029 più del 75% degli agenti IA specifici, non testati prima del deployment, non riuscirà a fornire i risultati attesi.

La tendenza è confermata anche da Forrester, che osserva una crescita delle valutazioni comportamentali, benché non siano ancora considerate una pratica obbligata. “Molte aziende si trovano in una fase intermedia”, spiega Biswajeet Mahapatra, principal analyst presso Forrester. “Utilizzano le valutazioni, ma non le riconoscono come condizione critica del successo.” Attualmente più del 45% delle organizzazioni utilizza agenti IA, con ulteriori 25% in fase di sperimentazione, ma la scalabilità è compromessa da scarsa governance.

Un modello a giudici IA

Il framework utilizza grandi modelli linguistici come "giudici" per valutare le performance degli agenti IA. Microsoft ha segnalato che, nella loro valutazione interna, i giudici automatizzati sono in accordo con i test condotti da esseri umani l’80-90% delle volte. Tuttavia, come chiarisce Mahapatra, tale percentuale non basta a garantire che un meccanismo autonomo possa essere considerato sufficiente in termini di governance.

Un framework che non include un livello di validazione umana potrebbe trascurare contesti a rischio, regolamentari o ambigui.
Potrebbe emergere un rischio di bias, coerenza compromessa o di conflitto d'interessi tra valutazione e generazione.
L'utilizzo del medesimo modello come giudice e generatore richiede una notevole attenzione.

L’importanza di diversi strumenti di valutazione

Pubblicato con licenza MIT, Assert offre alle aziende la libertà di analizzare, modificare e integrare lo strumento nei loro workflow esistenti. Nonostante i benefici dell’open source, Mahapatra sottolinea che tale struttura non elimina completamente le preoccupazioni riguardanti la fiducia o i conflitti di interesse. Il framework, creato da Microsoft, continua a influenzare le scelte di valutazione e i criteri di comportamento accettabili.

Per affrontare tali complessità, le aziende dovrebbero adottare un approccio ibrido: utilizzare l’IA per valutare l’IA su larga scala, ma mantenere il controllo umano in situazioni criticali. “Mettere a confronto i propri sistemi con diverse strategie di testing e mantenere la piena padronanza dei criteri interni di validazione” si rivela cruciale, conclude l’analista.

Uno scenario con molteplici competitori

Il mercato della valutazione degli agenti IA è già popolato da diversi strumenti offerti da aziende diversificate. Tra queste, spiccano LangSmith di LangChain, Briantrust, Patronus AI, Galileo, Phoenix di Arize AI e Promptfoo. Tutti mirano a fornire alle aziende strumenti per misurare, monitorare e verificare le performance basate su Large Language Models.

Conclusione

Con il lancio di Assert, Microsoft ha espresso un chiaro impegno verso l’innovazione e la trasparenza nel settore dell’IA. Il framework, con la sua capacità di integrare specifiche aziendali in processi di test automatizzati, si presenta come soluzione promettente. Tuttavia, le sfide relative al testing comportamentale rimangono complesse. Affinché gli agenti IA possano essere realmente fidati, saranno necessari strumenti robusti, una governance solida e l’auspicio di una collaborazione tra IA ed essere umano.