Harness era appena di moda, ma potrebbe essere presto storia.

Amici di 36氪,
2026-04-13 08:44

Ciò che potrebbe inghiottire l'approccio Harness è forse un modello più tranquillo e paziente.

Con l'aumentare della complessità dei compiti, il contesto dell'agente (Agente Intelligente) si estende all'infinito. In una storia infinita di dialoghi, output di chiamate a strumenti, passaggi intermedi e messaggi di errore, il modello si confonde e inizia a saltare passaggi, ignorare cose e prendere strade tortuose.

Questa è finora l'interpretazione delle difficoltà che il contesto porta a compiti a lungo termine. Il problema risiede nel fatto che il contesto è troppo lungo.

L'emergere della Harness Engineering (ingegneria di contenimento o restrizione) serve in larga misura a risolvere questi problemi. Un presupposto fondamentale per la Harness è l'assunto che il modello, in un contesto lungo, perda inevitabilmente le sue prestazioni.

Negli ultimi 15 mesi, il settore è passato dal puro ricordo testuale di AutoGPT fino a CLAUDE.md e al sistema di sub-agenti di Anthropic Claude Code. L'industria ha sviluppato un'intera gamma di strumenti tecnici per contenere il comportamento incontrollato del modello in un contesto lungo. Questo approccio viene definito Harness Engineering.

Ma cosa si deteriora esattamente? Qual è il meccanismo fondamentale dietro il salto di passaggi e l'ignoranza? Ci sono state già tre serie di risposte, che hanno anche prodotto diverse soluzioni tecniche.

È stato solo nell'aprile 2026, quando Gleb Rodionov di Yandex ha pubblicato uno studio intitolato "Reasoning Shift" (spostamento del ragionamento, cioè come il contesto accorcia segretamente il ragionamento dei grandi modelli), che è stata trovata una risposta più profonda.

Tre livelli di strumenti tecnici non bastano per contenere la crisi del quarto livello

Il motivo per cui il modello ottiene risultati scadenti in un contesto lungo è stato spiegato dall'industria negli ultimi tre anni su tre livelli, e per ogni livello sono stati sviluppati strumenti tecnici corrispondenti.

Il primo livello attribuisce il problema a query fallite.

Nel 2023, i ricercatori di Stanford hanno mostrato nel loro studio "Lost in the Middle" che il modello forma una curva di attenzione a forma di U in testi lunghi, ignorando l'area centrale. L'industria ha introdotto come contromisura la Retrieval-Augmented Generation (RAG), in cui i testi lunghi vengono frammentati e i frammenti più pertinenti vengono forniti tramite query vettoriali.
Il secondo livello confuta il primo.

Uno studio del 2025 intitolato "Context Length Alone Hurts LLM Performance Despite Perfect Retrieval" ha condotto esperimenti: se tutti i contenuti irrilevanti vengono nascosti e il modello viene costretto a considerare solo le informazioni necessarie, le prestazioni diminuiscono comunque dal 13,9% all'85%. Anche se tutti i contenuti irrilevanti vengono sostituiti con spazi vuoti, il risultato rimane lo stesso. Il problema non risiede nel fatto che le informazioni non possono essere trovate, ma nel fatto che la pura lunghezza del contesto danneggia il ragionamento.

L'industria ha introdotto come contromisura la Context Engineering (ingegneria del contesto). In questo processo, il contesto viene compresso, le finestre vengono gestite e la storia viene concentrata per limitare rigorosamente il numero di token.
Il terzo livello si basa su uno studio congiunto di Microsoft e Salesforce (ICLR 2025).

Hanno scoperto che le prestazioni del modello, quando istruzioni complete vengono passate in più round, crollano in media del 39%, in sei compiti e su quindici modelli. Una volta che un passaggio viene eseguito in modo errato in un round, il modello si perde completamente.

L'industria ha eretto in Harness la difesa più importante e forte: gestione del passaggio di consegne, verifica forzata e regolare dei risultati intermedi e l'uso di un repository di codice come unica fonte di verità. Il modello non deve decidere da solo cosa è successo nel round precedente.

Tre problemi, tre livelli di strumenti tecnici. Ma tutto ciò sono solo osservazioni a livello fenomenico.

Nel secondo livello, i ricercatori hanno scoperto che la lunghezza di per sé è dannosa, indipendentemente dalla qualità delle informazioni. Perché ciò accada, non hanno una risposta. Senza conoscere la causa, l'industria può solo controllare fisicamente la lunghezza.

Ma cosa succede se la causa del problema non è affatto nella lunghezza stessa?

Anthropic ha scoperto che il modello, in un contesto lungo, salta astutamente i passaggi, non segue le istruzioni e tratta solo superficialmente aspetti importanti. Le liste di cose da fare (todo-lists), i checkpoint e i sub-agenti nella Harness combattono direttamente questo comportamento.

Finora, il problema è stato attribuito al fatto che il contesto è troppo lungo e il modello trascura le cose. Ma i risultati dei grandi modelli con una lunghezza di contesto di un milione di token sono solo illusioni? È possibile che questo deterioramento sia in realtà dovuto al fatto che il modello è pigro?

Lo studio di Rodionov intende verificare questa ipotesi.

Trovare le prove della pigrizia del modello con Shakespeare

L'approccio sperimentale di Rodionov è estremamente diretto.

Per lo stesso compito di livello olimpico, hanno simulato diversi scenari reali che un agente potrebbe incontrare:

un ambiente di baseline pulito;
due compiti nello stesso prompt (simulazione di più sotto-compiti);
64.000 token dell'intero testo di Shakespeare prima del compito (simulazione dell'accumulo di informazioni storiche);
il compito nascosto nel secondo round (simulazione di un dialogo multi-round).

Per la valutazione sono stati utilizzati 400 problemi matematici di livello olimpico, e sono stati testati quattro modelli di ragionamento leader.

Risultato: la precisione di baseline di Qwen-3.5-27B era del 74,5%, e il ragionamento medio ha utilizzato 28.771 token. Dopo l'aggiunta del testo di Shakespeare, la precisione è scesa al 67,8%, e il numero di token di ragionamento si è ridotto a 16.415, corrispondente a un calo del 43%. Per GPT-OSS-120B, la diminuzione è stata ancora più marcata: la quantità di ragionamento è passata da 24.180 direttamente alla metà, ovvero 11.876. In tutti e quattro i modelli, in tutte le condizioni non di baseline, il numero di token di ragionamento si è ridotto sistematicamente, e il valore massimo ha raggiunto quasi il 50%.

Inoltre, questa riduzione aumenta linearmente con la lunghezza del contesto.

Un calo della precisione è comprensibile, ma un forte calo della quantità di ragionamento è estremamente insolito. Se il modello incontra situazioni più difficili, dovrebbe in realtà pensare di più.

Il modello è stato quindi confuso da Shakespeare?

Esattamente il contrario. Nell'appendice dello studio, il modello scrive: "Lasciami verificare se c'è una trappola nascosta qui. Questo compito proviene dal Coriolano di Shakespeare? No, il compito originale è un problema matematico." In un problema geometrico scrive: "Questo non ha nulla a che fare con il problema geometrico. Concentrati sulla geometria."

Ogni riferimento al disturbo è estremamente breve e sprezzante. Il modello sa esattamente che Shakespeare è irrilevante e separa precisamente segnale e rumore.

Gli altri due scenari portano allo stesso risultato. Nella modalità "sotto-compiti", il modello restringe ulteriormente la sua attenzione cognitiva per il secondo compito una volta completato il primo compito. La precisione di baseline di Qwen per un singolo compito è del 74,5%, nello scenario affiancato la precisione per il secondo compito scende direttamente al 58,0%; la precisione di baseline di Gemini è dell'82,8%, per il secondo compito scende al 65,8%. La modalità "dialogo multi-round" innesca anch'essa lo stesso meccanismo, dimostrando che il modello riduce il suo sforzo di ragionamento anche quando i compiti sono presentati in sequenza o nascosti in dialoghi estesi.

Questo fenomeno suggerisce che il problema non è tanto una "perdita nel contesto" dovuta a un sovraccarico, quanto una "pigrizia cognitiva" che porta il modello a minimizzare lo sforzo di ragionamento quando il contesto si allunga, indipendentemente dalla rilevanza delle informazioni aggiuntive. Le implicazioni di questa scoperta sono profonde, mettendo in discussione la validità delle attuali tecniche di Harness Engineering che si concentrano sulla gestione fisica del contesto piuttosto che sulla motivazione intrinseca del modello a ragionare in modo approfondito.

Tre livelli di strumenti tecnici non bastano per contenere la crisi del quarto livello

Il primo livello attribuisce il problema a query fallite.

Il secondo livello confuta il primo.

Il terzo livello si basa su uno studio congiunto di Microsoft e Salesforce (ICLR 2025).

Trovare le prove della pigrizia del modello con Shakespeare