Gli agenti KI per la programmazione riescono spesso a identificare la giusta file, ma riescono a individuare solo il 14-19% delle righe di codice rilevanti.

I limiti della codifica con l'intelligenza artificiale

Gli agenti KI non riescono a leggere interamente l'ambito contestuale e non individuano le parti decisive del codice. Benché si siano ottenuti notevoli miglioramenti nel campo, questa debolezza continua a nascondersi dietro la misurazione risultati globali, che considerano esclusivamente se un errore è stato corretto o meno.

Il benchmark SWE-Explore

Il sistema SWE-Explore mira a isolare e misurare la prima fase del processo, ovvero la capacità dell'agente KI di localizzare le aree rilevanti del codice. Gli agenti non modificano né aggiungono righe, ma semplicemente esaminano e ordino di priorità quelle che ritiene pertinenti.

Il benchmark utilizza 848 problemi tratti da 203 progetti open source disponibile in 10 linguaggi di programmazione, con la chiara predominanza di Python (547 su 848). Per valutare quelle che sono state le aree realmente coinvolte nelle correzioni, vengono esaminati i log di modelli avanzati come GPT-5.4, Gemini 3 Pro, Claude Sonnet 4.6 e Kimi K2.6.

La localizzazione non è sufficiente

Mentre le agenti riescono generalmente a individuare le file giuste e le posizionano in alto nella lista, la precisione cala significativamente quando si passa a righe specifiche. A livello di riga, infatti, i modelli riescono a identificare una quota di codice che va solo dal 14 al 19% percorso.

Il contesto è essenziale per le correzioni

Gli sperimentatori hanno effettuato un esperimento controllato dove hanno testato il modello con percentuali crescenti di codice rilevante visibile. Gli interventi corrispondenti hanno mostrato una chiara soglia di efficacia: le correzioni hanno successo solamente quando almeno la metà delle righe pertinenti era accessibile all'agente. I risultati peggiori derivano da agenti che leggono troppo poco e da modelli che si soffermano troppo sugli aspetti irrilevanti.

Le implicazioni dei risultati

Questi dati sottolineano come mancare informazioni rilevanti sia più grave rispetto all'inclusione di codice non essenziale. Per incrementare le prestazioni, i nuovi modelli avranno bisogno di espandere il loro campo visivo, piuttosto che limitarsi ulteriormente.

Confronto tra architetture e sistemi

Quando i modelli vanno messi a confronto, si evidenzia una distanza significativa in termini di righe rilevate. Claude Code, Codex, OpenHands, Mini-SWE-Agent e AweAgent tendono ad ottenere risultati molto simili su un largo spettro, tranne per uno specifico sistema di ricerca, CoSIL. Quest’ultimo adotta un approccio che tratta il codice come una rete interconnessa, permettendo di ottenere risultati decisamente migliori.

Raggiungere nuove soglie di efficacia

A un esame diretto, per le correzioni di facile risoluzione emerge un chiaro effetto soglia. Mentre il 50-75% di copertura produce risultati soddisfacenti, per i problemi più complessi, l'importanza del contesto non sembra sufficiente nemmeno a garantire successo.

Strategie per l'impatto reale

Sebbene l'efficacia di un'AI dipenda sempre più dalla correttezza delle informazioni, rimane chiaro che la ricerca dovrà adottare nuove strategie. Sono necessari modelli che riescano a leggere e analizzare una maggiore quantità di codice rilevante, piuttosto che focalizzarsi esclusivamente sul filtri.

I dati a disposizione

I risultati della ricerca, insieme al codice sorgente e al data set utilizzati, sono accessibili sulle principali piattaforme come GitHub e Hugging Face. Questa condivisione apre la strada a una collaborazione ampia e con il potenziale di spingere il settore verso soluzioni più evolute.

Il contesto e i limiti di SWE-bench

La famiglia di benchmark SWE-bench, da cui si origina SWE-Explore, ha rappresentato un balzo in avanti per il settore. Tuttavia, di recente, la community ha sollevato preoccupazioni circa la validità dei risultati. Una ricerca di METR ha sottolineato che circa la metà delle correzioni accettate da algoritmi automatici verrebbe rigettata come inadeguata dagli esperti.

I contenuti per l'informazione tecnologica

Mentre il settore cresce rapidamente, l'informazione su sviluppi tecnologici avanzati richiede un filtro professionale per essere comprensibile. THE-DECODER-ABO presenta un servizio che permette di leggere contenuti di tecnologia curati da esperti, partecipare alla discussione della nostra community, ricevere newsletter mensili e accesso a eventi esclusivi e archivi completi di contenuti di alta qualità.