Il Model Context Protocol (MCP) è attualmente considerato un promettente strumento per superare le barriere di integrazione tra i sistemi di intelligenza artificiale. Tuttavia, come spesso accade con le nuove tecnologie, le aspettative sono più alte di quanto la realtà possa offrire finora. I ricercatori di Microsoft hanno ora evidenziato che l'MCP presenta significative debolezze, in particolare quando più agenti e server MCP lavorano contemporaneamente in un processo. In un recente blog post intitolato "Interferenza nello spazio degli strumenti nell'era dell'MCP: progettare per la compatibilità degli agenti su larga scala", Microsoft Research descrive queste sfide.

I progressi dell'IA e la necessità di integrazione

Lo sviluppo dell'intelligenza artificiale ha compiuto enormi passi avanti quest'anno. I sistemi basati su agenti sono ora in grado non solo di eseguire analisi approfondite, ma anche di utilizzare computer, gestire complessi progetti software o affrontare catene di attività a più livelli. Ciò è stato reso possibile soprattutto dalla cosiddetta integrazione verticale: strumenti e agenti sono stati sviluppati, addestrati e testati congiuntamente, garantendo una collaborazione fluida.

Un esempio eloquente di questa integrazione verticale è dato dai modelli attuali di OpenAI, che utilizzano di default strumenti come la ricerca web e l'interrogazione di documenti. Anche in Magentic-One, i passaggi tra gli agenti sono previsti in modo fisso: l'agente WebSurfer, ad esempio, può inoltrare i file scaricati direttamente all'agente Coder. Questa stretta interconnessione assicura che gli strumenti siano ottimizzati per lavorare insieme in un ambiente controllato e progettato specificamente.

La "società di agenti" e la sfida dell'interoperabilità

Tuttavia, questa stretta interconnessione ha dei limiti. Con il crescente numero di agenti AI, in futuro si incontreranno sistemi che non provengono dalla stessa fonte, ma da diverse aziende e team di sviluppo. Microsoft si riferisce a questo contesto come a una "società di agenti". Questi agenti dovranno imparare a interagire tra loro, anche se i loro obiettivi, meccanismi di coordinamento o flussi di informazioni non sono sempre compatibili. La questione cruciale è quindi: saranno in grado gli agenti eterogenei di collaborare in modo produttivo? O le interferenze nello "spazio degli strumenti" finiranno per causare ostacoli che rallenteranno il progresso dello sviluppo dell'IA?

La sfida principale risiede nel garantire che agenti e strumenti in questo ambiente collaborino armoniosamente, anziché ostacolarsi a vicenda e rallentare il progresso. I primi indizi vengono dal Model Context Protocol (MCP), una tecnologia che da gennaio 2025 ha avuto un'ascesa fulminea: da una promettente specifica a un fiorente mercato per i server di strumenti.

L'ascesa del MCP e la "società degli strumenti"

Attualmente, l'MCP è alla base di un ecosistema in rapida espansione. Per esempio:

Zapier offre un catalogo con 30.000 strumenti per 7.000 servizi.
Composio gestisce oltre 100 server MCP con centinaia di strumenti.
Hugging Face mette a disposizione numerose app Spaces tramite MCP.
Shopify ha attivato la tecnologia per milioni di vetrine.

Una "società degli strumenti" è quindi già una realtà e dovrebbe espandere le capacità degli agenti attraverso un'integrazione orizzontale tra fornitori. Tuttavia, come si comporta effettivamente l'MCP rispetto all'integrazione orizzontale? Con la rapida crescita dei cataloghi, si profilano nuove modalità di errore. Microsoft Research le descrive come "interferenze nello spazio degli strumenti" e delinea le prime osservazioni e misure pragmatiche per evitare che la società degli strumenti si blocchi da sola.

Comprendere l'interferenza nello spazio degli strumenti

I ricercatori definiscono l'interferenza nello spazio degli strumenti come situazioni in cui strumenti o agenti di per sé sensati, in combinazione, perdono la loro efficacia. Ciò può portare a sequenze di azioni più lunghe, costi crescenti per i token, maggiore difficoltà nella risoluzione dei problemi o addirittura al fallimento di intere attività. Questo fenomeno sottolinea la complessità che emerge quando sistemi autonomi tentano di operare in un ambiente condiviso senza una profonda conoscenza reciproca dei contesti operativi.

Esempio di integrazione problematica: Magentic-One e GitHub

Per illustrare il problema, consideriamo l'MCP come un'estensione per Magentic-One, un sistema multi-agente generalista che è stato rilasciato l'anno scorso per coprire più attività di ingegneria del software. Magentic-One viene fornito con agenti in grado di scrivere codice, interagire con il terminale del computer, navigare in Internet e accedere ai file locali.

Per supportare Magentic-One nella gestione del controllo di versione, nella ricerca di problemi da risolvere e nella creazione di richieste di pull, si potrebbe aggiungere un agente dotato del Server GitHub MCP. Il team dovrebbe quindi decidere ogni volta come procedere con le attività di GitHub: aprire github.com nel browser, eseguire un comando Git nella riga di comando o utilizzare il server MCP.

Durante l'elaborazione, possono verificarsi discrepanze nella comprensione dello stato da parte degli agenti: le modifiche al branch nel browser non si riflettono automaticamente nel terminale, e un tool MCP autorizzato non significa automaticamente un'autorizzazione nel browser. Un singolo agente può svolgere l'attività in modo efficiente. Con più agenti, invece, possono verificarsi incomprensioni o interferenze reciproche, il che richiede ulteriori cicli di debug o, nel peggiore dei casi, porta al fallimento dell'attività. Questo esempio evidenzia come la mancanza di un contesto unificato possa generare ambiguità e inefficienze.

La ricerca di Microsoft sulle interferenze nello spazio degli strumenti

Per comprendere meglio i potenziali schemi di interferenza e lo stato attuale dell'ecosistema MCP, i ricercatori hanno condotto un'indagine sui server MCP elencati in due registri principali:

smithery.ai: elenca oltre 7.000 contributi di terze parti e della community, estratti dall'API di Smithery.
Docker MCP Hub: distribuisce i server MCP come immagini Docker, con le voci più popolari raccolte manualmente.

Ogni server è stato successivamente avviato per la verifica. Dopo aver escluso i server vuoti o non avviabili e aver eliminato i duplicati, sono rimasti 1.470 server nel catalogo per l'analisi. Questo processo di selezione ha permesso di concentrarsi su un insieme di server funzionali e rappresentativi.

Lo strumento MCP-Interviewer

Per automatizzare la verifica, i ricercatori hanno sviluppato lo strumento MCP-Interviewer. Questo strumento cataloga strumenti, prompt, risorse, modelli di risorse e capacità del server. Da questi dati, è possibile calcolare statistiche descrittive come il numero di strumenti o la profondità degli schemi dei parametri. Successivamente, l'Interviewer, con l'aiuto di un LLM (OpenAI GPT-4.1), crea un piano di test funzionale che richiama ogni strumento almeno una volta, raccogliendo output, errori e statistiche. Inoltre, l'Interviewer può valutare criteri più qualitativi applicando rubriche appositamente sviluppate agli schemi degli strumenti e agli output degli stessi. Lo strumento MCP-Interviewer sarà rilasciato come CLI open-source, in modo che gli sviluppatori possano valutare automaticamente i loro server MCP e gli utenti possano validare nuovi server. Questa iniziativa mira a democratizzare la verifica della qualità e della compatibilità degli strumenti MCP.

L'indagine fornisce le prime intuizioni, ma presenta delle limitazioni. Un ostacolo centrale è l'autorizzazione: molti server MCP popolari richiedono un'approvazione per accedere ai loro servizi, il che rende difficili i test automatizzati. Mentre le caratteristiche statiche possono spesso essere rilevate, i test funzionali eseguibili sono limitati in questi casi. Questo aspetto impedisce un'analisi completa di alcuni dei servizi più utilizzati, lasciando spazio a incertezze sulla loro effettiva integrazione.

Risultati dell'indagine: "Una taglia unica" non va bene per tutti

Cosa rivela l'indagine sui server MCP riguardo all'ecosistema? I numeri forniscono importanti intuizioni, ma emerge un modello centrale: i server MCP non sanno con quali client o modelli stanno lavorando e forniscono lo stesso set di strumenti, prompt e risorse a tutti gli utenti. Alcuni modelli, tuttavia, gestiscono meglio contesti lunghi e spazi di strumenti estesi rispetto ad altri e reagiscono in modo diverso ai prompt comuni.

La guida di OpenAI, ad esempio, raccomanda agli sviluppatori di considerare esempi e casi limite durante la chiamata di funzioni per evitare errori ricorrenti, ma avverte allo stesso tempo che esempi aggiuntivi possono compromettere le prestazioni dei modelli di inferenza. A questo riguardo, i server MCP sono già in svantaggio rispetto alle integrazioni verticali, che sono ottimizzate per un ambiente operativo specifico. La mancanza di adattabilità contestuale rende l'approccio "una taglia unica" meno efficace in un ecosistema di IA così diversificato.

Il numero di strumenti influenza le prestazioni

Sebbene le prestazioni dei modelli varino quando si richiamano gli strumenti, emerge una tendenza chiara: con l'aumentare del numero di strumenti, l'accuratezza diminuisce. Questo suggerisce che l'aggiunta indiscriminata di strumenti, senza una strategia di ottimizzazione o di gestione delle interferenze, può essere controproducente per l'efficacia complessiva dei sistemi basati su agenti. Le implicazioni di questa scoperta sono significative per la progettazione futura di architetture di integrazione basate su MCP, richiedendo un approccio più ponderato e mirato all'espansione dei cataloghi di strumenti.