La "Harness Engineering", o ingegneria della restrizione, è stata di moda, ma potrebbe presto diventare storia. Ciò che potrebbe divorare l'approccio Harness è probabilmente un modello più tranquillo e paziente. Con l'aumentare della complessità dei compiti, il contesto dell'agente (agente intelligente) si espande infinitamente. In una storia infinita di dialoghi, output di chiamate a strumenti, passaggi intermedi e messaggi di errore, il modello si confonde e inizia a saltare passaggi, ignorare cose e prendere scorciatoie.
Questa è stata finora l'interpretazione delle difficoltà che il contesto porta a compiti a lungo termine. Il problema risiede nel fatto che il contesto è troppo lungo.
L'emergere della Harness Engineering è in gran parte volto a risolvere questi problemi. Un presupposto fondamentale della Harness è che il modello, in un contesto lungo, perda inevitabilmente le sue prestazioni.
Negli ultimi 15 mesi, l'industria è passata dal puro richiamo di testo di AutoGPT allo CLAUDE.md e al sistema di sub-agenti di Anthropic Claude Code. L'industria ha sviluppato un'intera serie di strumenti tecnici per contenere il comportamento incontrollato del modello in un contesto lungo. Questo approccio è noto come Harness Engineering (tecnica di restrizione).
Ma cosa si deteriora esattamente? Qual è il meccanismo fondamentale alla base del salto di passaggi e dell'ignoranza? Ci sono state già tre serie di risposte, che hanno anche prodotto diverse soluzioni tecniche.
Solo nell'aprile 2026, quando Gleb Rodionov di Yandex ha pubblicato uno studio intitolato "Reasoning Shift" (spostamento del ragionamento, cioè come il contesto accorcia segretamente il ragionamento dei grandi modelli), è stata trovata una risposta più profonda.
01. Tre livelli di strumenti tecnici non bastano a contenere la crisi al quarto livello
Il motivo per cui il modello in un contesto lungo fornisce risultati scadenti è stato spiegato dall'industria negli ultimi tre anni su tre livelli, e per ogni livello sono stati sviluppati strumenti tecnici corrispondenti.
Primo livello: il problema delle query fallite
Il primo livello attribuisce il problema a query fallite. Nel 2023, i ricercatori di Stanford hanno mostrato nel loro studio "Lost in the Middle" che il modello in testi lunghi forma una curva di attenzione a forma di U, ignorando la parte centrale. L'industria ha introdotto come contromisura la Retrieval-Augmented Generation (RAG), in cui testi lunghi vengono suddivisi in frammenti e i frammenti più rilevanti vengono forniti tramite query vettoriali.
Secondo livello: la lunghezza del contesto da sola danneggia le prestazioni
Il secondo livello confuta il primo. Uno studio del 2025 intitolato "Context Length Alone Hurts LLM Performance Despite Perfect Retrieval" ha condotto esperimenti: anche se tutti i contenuti irrilevanti vengono nascosti e il modello è costretto a considerare solo le informazioni necessarie, le prestazioni diminuiscono comunque dal 13,9% all'85%. Anche se tutti i contenuti irrilevanti vengono sostituiti da spazi vuoti, il risultato rimane lo stesso. Il problema non è che le informazioni non possono essere trovate, ma che la pura lunghezza del contesto danneggia il ragionamento.
L'industria ha introdotto come contromisura la Context Engineering (ingegneria del contesto). Qui, il contesto viene compresso, le finestre gestite e la cronologia concentrata per limitare rigorosamente il numero di token.
Terzo livello: il crollo delle prestazioni con istruzioni complete
Il terzo livello si basa su uno studio congiunto di Microsoft e Salesforce (ICLR 2025). Essi hanno scoperto che le prestazioni del modello, quando istruzioni complete vengono passate in più round, crollano in media del 39%, in sei compiti e su quindici modelli. Non appena un passaggio viene sbagliato in un round, il modello si perde completamente.
L'industria ha eretto nella Harness la difesa più importante e forte: gestione dei passaggi, verifica forzata regolare dei risultati intermedi e l'uso di un repository di codice come unica fonte di verità. Il modello non deve decidere da solo cosa è successo nel round precedente.
Tre problemi, tre livelli di strumenti tecnici. Ma tutto questo sono solo osservazioni a livello fenomenologico.
Al secondo livello, i ricercatori hanno scoperto che la lunghezza di per sé è dannosa, indipendentemente dalla qualità delle informazioni. Il motivo per cui ciò accade, non hanno una risposta. Senza conoscere la causa, l'industria può solo controllare fisicamente la lunghezza.
Ma cosa succede se la causa del problema non è affatto la lunghezza stessa?
Anthropic ha scoperto che il modello, in un contesto lungo, salta astutamente i passaggi, non segue le istruzioni e tratta aspetti importanti solo superficialmente. Le liste di cose da fare, i checkpoint e i sub-agenti nella Harness combattono direttamente questo comportamento.
Finora, il problema è stato attribuito al fatto che il contesto è troppo lungo e il modello trascura le cose. Ma i risultati dei grandi modelli con una lunghezza del contesto di un milione di token sono solo inganni? È possibile che questo deterioramento sia in realtà dovuto al fatto che il modello è pigro?
Lo studio di Rodionov intende verificare questa ipotesi.
02. Trovare le prove della pigrizia del modello con Shakespeare
L'approccio sperimentale di Rodionov è estremamente diretto.
Per lo stesso compito olimpico, hanno simulato diversi scenari reali che un agente potrebbe incontrare:
- un ambiente di baseline pulito;
- due compiti nello stesso suggerimento (simulazione di più sotto-compiti);
- 64.000 token del testo completo di Shakespeare prima del compito (simulazione dell'accumulo di informazioni storiche);
- il compito nascosto nel secondo round (simulazione di un dialogo multi-round).
Per la valutazione sono stati utilizzati 400 problemi matematici di livello olimpico e sono stati testati quattro modelli di ragionamento leader.
Risultati:
- La precisione di baseline di Qwen-3.5-27B è stata del 74,5% e il ragionamento medio è stato di 28.771 token. Dopo l'aggiunta del testo di Shakespeare, la precisione è scesa al 67,8% e il numero di token di ragionamento si è ridotto a 16.415, il che corrisponde a un calo del 43%.
- Per GPT-OSS-120B, il calo è stato ancora più evidente: la quantità di ragionamento è passata da 24.180 direttamente alla metà, ovvero a 11.876.
In tutti e quattro i modelli, in tutte le condizioni non di baseline, il numero di token di ragionamento si è sistematicamente ridotto, e il valore massimo è stato di quasi il 50%.
Inoltre, questa riduzione aumenta linearmente con la lunghezza del contesto.
Un calo della precisione è comprensibile, ma una forte riduzione della quantità di ragionamento è estremamente insolita. Quando il modello incontra situazioni più difficili, dovrebbe in realtà pensare di più.
Il modello è stato quindi confuso da Shakespeare?
Esattamente il contrario. Nell'appendice dello studio, il modello scrive: "Lasciatemi controllare se qui c'è una trappola. Questo compito viene dal Coriolano di Shakespeare? No, il compito originale è un problema matematico." Per un problema geometrico scrive: "Questo non ha nulla a che fare con il problema geometrico. Concentrati sulla geometria."
Ogni riferimento alla distrazione è estremamente breve e sprezzante. Il modello sa esattamente che Shakespeare è irrilevante e separa precisamente segnale e rumore l'uno dall'altro.
Gli altri due scenari portano allo stesso risultato. Nella modalità "sotto-compiti", il modello limita ulteriormente la sua attenzione cognitiva per il secondo compito una volta completato il primo compito.
- La precisione di baseline di Qwen per un singolo compito è del 74,5%, nello scenario di affiancamento la precisione per il secondo compito scende direttamente al 58,0%.
- La precisione di baseline di Gemini è dell'82,8%, per il secondo compito scende al 65,8%.
La modalità "dialogo multi-round" innesca anch'essa lo stesso meccanismo. Questo significa che il modello non è affatto confuso da contesti lunghi o informazioni irrilevanti. Al contrario, è perfettamente in grado di discernere ciò che è pertinente da ciò che non lo è. Il problema risiede nel fatto che, pur riconoscendo l'irrilevanza, sceglie di ridurre il suo sforzo computazionale e la profondità del ragionamento.
Lo studio di Rodionov suggerisce una "spostamento del ragionamento" (reasoning shift) in cui i modelli, di fronte a contesti più lunghi o compiti multipli, tendono a "tagliare gli angoli", ovvero a ridurre la quantità di ragionamento che applicano, non perché non possano farlo, ma perché non lo fanno. Questo comportamento, etichettato informalmente come "pigrizia" del modello, è una scoperta cruciale che mette in discussione la premessa di molte delle soluzioni di Harness Engineering esistenti.
Se il problema non è l'incapacità del modello di gestire contesti lunghi, ma la sua propensione a ridurre lo sforzo quando non è strettamente costretto, allora le strategie attuali che si concentrano sulla compressione del contesto o sulla frammentazione delle informazioni potrebbero essere insufficienti. Potrebbe essere necessario un nuovo approccio che non si limiti a gestire la lunghezza del contesto, ma che incentivi o addirittura imponga al modello di mantenere un alto livello di ragionamento e attenzione, indipendentemente dalla lunghezza o dalla complessità delle informazioni fornite.
Questo cambio di paradigma implica che il futuro potrebbe non risiedere in tecniche sempre più sofisticate per limitare il contesto, ma nello sviluppo di modelli intrinsecamente più "pazienti" e disposti a svolgere il ragionamento completo necessario, anche in scenari complessi. La "Harness Engineering" potrebbe non scomparire completamente, ma la sua evoluzione richiederà una comprensione più profonda dei meccanismi cognitivi (o della loro assenza) all'interno dei LLM, spostando il focus dalla mera gestione delle informazioni alla gestione dell'impegno del modello.