L'industria dell'intelligenza artificiale è un campo in rapida evoluzione, dove le mode tecnologiche emergono e si affermano con velocità sorprendente. Una di queste è stata la "Harness Engineering", o ingegneria di contenimento, una serie di tecniche sviluppate per gestire le complessità dei modelli linguistici di grandi dimensioni (LLM). Tuttavia, ciò che è attualmente in voga potrebbe ben presto diventare storia, superato da una comprensione più profonda dei meccanismi interni di questi modelli.

Ciò che potrebbe "divorare" la Harness Engineering è, paradossalmente, un modello più silenzioso e paziente. Con l'aumentare della complessità dei compiti, il contesto operativo degli agenti intelligenti si espande all'infinito. In una narrazione senza fine fatta di dialoghi, output delle chiamate agli strumenti, passaggi intermedi e messaggi di errore, il modello si confonde, inizia a saltare passaggi, a ignorare informazioni e a prendere deviazioni inaspettate. Questa è stata finora l'interpretazione prevalente delle difficoltà che il contesto lungo comporta per i compiti a lungo termine: il problema risiede, semplicemente, in un contesto troppo esteso.

L'emergere della Harness Engineering è stato in gran parte una risposta a questi problemi. La premessa fondamentale alla base di questa disciplina è l'assunto che, in un contesto lungo, il modello sia inevitabilmente destinato a perdere prestazioni. Negli ultimi 15 mesi, l'industria ha compiuto passi da gigante, passando dal semplice richiamo testuale di AutoGPT ai sistemi CLAUDE.md e al sistema di sub-agenti Anthropic Claude Code. È stata sviluppata un'intera gamma di strumenti tecnici per frenare il comportamento incontrollato del modello in un contesto esteso. Questo approccio è stato appunto denominato Harness Engineering.

Ma cosa si deteriora esattamente? Qual è il meccanismo fondamentale dietro l'atto di saltare passaggi e di ignorare le istruzioni? Finora, ci sono state tre "ondate" di risposte, ognuna delle quali ha generato soluzioni tecniche distinte. Una risposta più profonda è emersa solo nell'aprile del 2026, quando Gleb Rodionov di Yandex ha pubblicato uno studio intitolato "Reasoning Shift" (Spostamento del Ragionamento), che indaga su come il contesto, in modo subdolo, accorci il ragionamento dei grandi modelli.

01. Tre livelli di aiuti tecnici non bastano per contenere la crisi al quarto livello

La ragione per cui il modello ottiene risultati scadenti in un contesto lungo è stata spiegata dall'industria negli ultimi tre anni attraverso tre livelli concettuali, e per ciascun livello sono stati sviluppati strumenti tecnici corrispondenti.

Il problema alla base del contesto lungo

  • Primo livello: Interrogazioni fallite e "Lost in the Middle"
    Il primo livello attribuisce il problema a interrogazioni fallite. Nel 2023, i ricercatori di Stanford hanno dimostrato nel loro studio "Lost in the Middle" che, nei testi lunghi, il modello sviluppa una curva di attenzione a forma di U, ignorando la parte centrale. L'industria ha risposto introducendo la Retrieval-Augmented Generation (RAG), che scompone i testi lunghi in frammenti e fornisce i più pertinenti attraverso interrogazioni vettoriali.
  • Secondo livello: La lunghezza del contesto è dannosa di per sé
    Il secondo livello ha confutato il primo. Uno studio del 2025, intitolato "Context Length Alone Hurts LLM Performance Despite Perfect Retrieval", ha condotto esperimenti che hanno dimostrato che, anche se tutti i contenuti irrilevanti vengono nascosti e il modello è costretto a considerare solo le informazioni necessarie, le prestazioni diminuiscono comunque dal 13,9% all'85%. Anche sostituendo tutti i contenuti irrilevanti con spazi vuoti, il risultato rimane invariato. Il problema non è che le informazioni non possono essere trovate, ma che la pura lunghezza del contesto danneggia il ragionamento. Come contromisura, l'industria ha introdotto l'Ingegneria del Contesto, che comprime il contesto, gestisce le finestre e concentra la storia per limitare rigorosamente il numero di token.
  • Terzo livello: La frammentazione delle istruzioni e il "deragliamento" del modello
    Il terzo livello si basa su uno studio congiunto di Microsoft e Salesforce (ICLR 2025). Hanno scoperto che, quando le istruzioni complete vengono passate in più round, le prestazioni del modello crollano in media del 39%, su sei compiti e quindici modelli. Una volta che un passaggio viene eseguito in modo errato in un round, il modello si perde completamente. L'industria ha eretto la difesa più importante e robusta nella Harness: la gestione del trasferimento (handover management), il controllo forzato regolare dei risultati intermedi e l'uso di un repository di codice come unica fonte di verità. Il modello non è autorizzato a decidere autonomamente cosa sia successo nel round precedente.

Verso una nuova comprensione

Tre problemi, tre livelli di strumenti tecnici. Ma tutto questo non sono altro che osservazioni a livello fenomenico. Nel secondo livello, i ricercatori hanno scoperto che la lunghezza di per sé è dannosa, indipendentemente dalla qualità delle informazioni. Ma non hanno trovato una risposta al "perché". Senza conoscere la causa, l'industria può solo controllare fisicamente la lunghezza.

Ma cosa succede se la causa del problema non risiede affatto nella lunghezza in sé? Anthropic ha osservato che in un contesto lungo il modello salta intelligentemente i passaggi, non segue le istruzioni e tratta gli aspetti importanti solo superficialmente. Le liste di cose da fare, i checkpoint e i sub-agenti nella Harness combattono direttamente questo comportamento.

Finora, il problema è stato attribuito al fatto che il contesto è troppo lungo e il modello trascura le cose. Ma i risultati dei grandi modelli con una lunghezza di contesto di un milione di token sono solo delle illusioni? È possibile che questo deterioramento sia in realtà dovuto al fatto che il modello è "pigro"? Lo studio di Rodionov si propone di verificare questa ipotesi.

02. Trovare le prove della "pigrizia" del modello con Shakespeare

L'approccio sperimentale di Rodionov

L'approccio sperimentale di Rodionov è estremamente diretto. Per lo stesso tipo di compito, ispirato alle Olimpiadi della matematica, i ricercatori hanno simulato diversi scenari reali che un agente potrebbe incontrare: un ambiente di riferimento (baseline) pulito; due compiti all'interno dello stesso suggerimento (simulando più sotto-compiti); 64.000 token del testo completo di Shakespeare prima del compito (simulando l'accumulo di informazioni storiche); il compito nascosto nel secondo round (simulando un dialogo multi-round). Per la valutazione sono stati utilizzati 400 problemi matematici di livello olimpionico e sono stati testati quattro modelli di ragionamento leader del settore.

I risultati sorprendenti

I risultati sono stati illuminanti. L'accuratezza di base (baseline) di Qwen-3.5-27B era del 74,5%, e il ragionamento medio utilizzato ammontava a 28.771 token. Dopo l'aggiunta del testo di Shakespeare, l'accuratezza è scesa al 67,8%, e il numero di token di ragionamento si è ridotto a 16.415, il che rappresenta un calo del 43%. Con GPT-OSS-120B, la diminuzione è stata ancora più marcata: la quantità di ragionamento è passata da 24.180 direttamente alla metà, ovvero 11.876. In tutti e quattro i modelli, in tutte le condizioni non-baseline, il numero di token di ragionamento si è ridotto sistematicamente, con un massimo di quasi il 50%.

Inoltre, questa riduzione aumenta linearmente con la lunghezza del contesto. Un calo dell'accuratezza è comprensibile, ma una forte diminuzione della quantità di ragionamento è estremamente insolita. Quando il modello incontra situazioni più difficili, dovrebbe in realtà riflettere di più, non meno.

La "pigrizia" del modello non è confusione

Il modello è stato quindi confuso da Shakespeare? Esattamente il contrario. Nell'appendice dello studio, il modello scrive: "Lasciami verificare se qui è nascosta una trappola. Questo compito viene dal Coriolano di Shakespeare? No, il compito originale è un problema matematico." In un compito di geometria, scrive: "Questo non ha nulla a che fare con il problema di geometria. Concentrati sulla geometria." Ogni riferimento alla "disturbazione" è estremamente breve e sprezzante. Il modello sa esattamente che Shakespeare è irrilevante e separa precisamente segnale e rumore.

Scenari ulteriori confermano il meccanismo

Gli altri due scenari hanno portato allo stesso risultato. Nella modalità "sotto-compiti", il modello limita ulteriormente la sua attenzione cognitiva per il secondo compito una volta completato il primo. L'accuratezza di base di Qwen per un singolo compito è del 74,5%; nello scenario di giustapposizione, l'accuratezza per il secondo compito scende direttamente al 58,0%. L'accuratezza di base di Gemini è dell'82,8%; per il secondo compito scende al 65,8%. Anche la modalità "dialogo multi-round" innesca lo stesso meccanismo, dimostrando una tendenza sistemica dei modelli a "risparmiare" sforzo cognitivo e di ragionamento quando il contesto si allunga, indipendentemente dalla rilevanza delle informazioni aggiuntive.

Conclusione

I risultati di Rodionov suggeriscono una spiegazione più profonda per il declino delle prestazioni degli LLM in contesti lunghi, una spiegazione che va oltre la semplice capacità di recupero o la gestione della lunghezza del contesto. Se i modelli non sono confusi, ma piuttosto "pigri" o propensi a uno "spostamento del ragionamento", ciò significa che le attuali strategie di Harness Engineering, che si basano sulla prevenzione della confusione o sul contenimento fisico della lunghezza, potrebbero non essere sufficienti. Sarà necessaria una comprensione più profonda dei meccanismi cognitivi dei modelli e lo sviluppo di nuove tecniche che non si limitino a gestire il contesto, ma che incoraggino attivamente i modelli a impegnarsi in un ragionamento più completo e persistente, anche di fronte a contesti estesi.