I Modelli Linguistici Ricorsivi (RLMs): Una Nuova Architettura

I Modelli Linguistici Ricorsivi (RLMs) mirano a superare il compromesso esistente tra lunghezza del contesto, precisione e costi nei modelli linguistici su larga scala. Invece di forzare un modello a leggere un prompt gigante in un'unica passata, i modelli ricorsivi trattano il prompt come un ambiente esterno. Il linguaggio di programmazione Python REPL è utilizzato come control plane per gestire contesti lunghi. L'ambiente fornisce strumenti come il taglio della stringa, la ricerca tramite espressioni regolari e funzioni ausiliarie per chiamare istanze di modelli piú piccole, come ad esempio GPT-5-mini.

Dopo che il modello ha generato codice funzionale, quest’ultimo chiamerà strumenti ausiliari, permettendo di esaminare parti specifiche dell’input esteso. Questa struttura rende indipendente la dimensione del prompt rispetto alla finestra di contesto del modello e trasforma il problema di gestione del lungo contesto in un problema di sintesi di programma. Al fine di garantire la stabilità, i modelli RLM richiedono l'uso di funzioni specifiche per il taglio del testo e l’analisi ricorsiva.

Valutazione Sperimentale

I ricercatori hanno valutato i modelli RLM su quattro benchmark diversi per ambiente lungo. S-NIAH è un compito di complessità costante per trovare un ago in un pagliaio. BrowseComp-Plus é un compito di benchmark per risposte a domande di stile internet da fino a 1.000 documenti. OOLONG é una prova di complessità lineare dove il modello deve elaborare molteplici voci e aggregarle. OOLONG Pairs incrementa la difficoltà a complessità quadratica di aggregazione reciproca.

Su questi benchmark, i modelli RLM offrono significativi incrementi di prestazione rispetto alle chiamate LLM dirette e ai comuni agenti per contesti lunghi. Ad esempio, con il modello GPT-5, il modello base raggiunge un'accuratezza di 24.00, un agente con sommario arriva a 41.33, mentre il modello RLM raggiunge 62.00, e la versione non ricorsiva del modello RLM tocca 66.00.

I progressi sono più significativi su OOLONG Pairs, dove per GPT-5 il modello diretto ha una F1 di 0.04, mentre i modelli non ricorsivi arrivano a 43.93 e i modelli RLM completi raggiungono 58.00 F1. Le valutazioni dimostrano che sia la REPL che le chiamate ricorsive sottolineano l'importanza critica nei compiti quadrati densi.

Estensione di Contesto Efficiente

Il benchmark BrowseComp-Plus mette a duro prova l’estensione contestuale efficace. Il corpus di test include da circa 6 milioni a 11 milioni di token. Un modello RLM basato su GPT-5 mantiene un'elevata performance anche con 1.000 documenti, mentre i modelli standard degradano all’aumentare del numero di documenti. Il modello RLM implementato con GPT-5 raggiunge circa il 91,33% di accuratezza con una media di circa 0,99 dollari per query. Un modello ipotetico che legga direttamente il pieno contesto avrebbe un costo che va da 1,50 dollari a 2,75 dollari per query.

Lo studio ha inoltre analizzato i percorsi di esecuzione dei modelli RLM. Emergono diversi schemi comportamentali: il modello in genere inizia con un passo visivo che ispeziona i primi migliaia di caratteri del contesto, quindi utilizza filtri di tipo grep per ridurre l'input rilevante. Su query complesse, partiziona il contesto in pezzi e richiama modelli ricorsivi su ciascun pezzo per effettuare etichettatura o estrazione, seguito da un'aggregazione programmata. Per attività di output esteso, il modello RLM conserva i dati parziali in variabili e li unisce, bypassando limiti di output del modello principale.

Contributo di Prime Intellect

L'équipe di Prime Intellect ha implementato un ambiente concreto chiamato RLMEnv, integrato nel loro stack verificatore e nel hub ambiente. La struttura prevede che il modello principale possieda solo un ambiente Python REPL, mentre i LM sub chiamati ricevano strumenti ad alti risorse, come la ricerca web o l’accesso ai file. Il REPL espone una funzione

che permette al modello principale di chiamare in parallelo tante richieste, e una variabile

dove il risultato finale deve essere scritto e contrassegnato come pronto. Questo isola gli output ricchi di token dal contesto principale e permette ai modelli RLM di delegare operazioni costose a modelli sottostanti.

Prime Intellect ha testato questa implementazione su quattro ambienti simulati. DeepDive testa la ricerca web con strumenti aperti. Math Python fornisce un ambiente REPL per problemi matematici complessi. Oolong riesaminisce lo stesso benchmark all'interno di RLMEnv. Il test Verbatim Copy si concentra sulla riproduzione esatta di stringhe complesse attraverso vari formati come JSON, CSV e codice misto. In tutti questi ambienti, i modelli GPT-5-mini e INTELLECT-3-MoE mostrano un miglioramento significativo in termini di tasso di successo e di robustezza, specialmente con contesti estesi e strumenti che altrimenti saturerebbero il contesto del modello.

Entrambe le equipe, l'autore dello studio e l’équipe Prime Intellect, ribadiscono che le attuali implementazioni non sono ottimizzate a pieno. Le chiamate RLM sono sincrone, la profondità di ricorsione è limitata e le distribuzioni di costo hanno code pesanti a causa dei lunghi itinerari. L'opportunità reale sta nel combinare i framework RLM con il reinforcement learning dedicato, in modo da permettere ai modelli di apprendere politiche migliorate di partizionamento, ricorsione e utilizzo di strumenti nel tempo. Eventualmente, i modelli RLM offrireanno una cornice dove miglioramenti in modelli base e in sistemi si tradurranno direttamente in agenti di orizzonte esteso in grado di consumare ambienti di oltre 10 milioni di token senza degradazione contestuale.

Riflessioni Finali

Ecco cinque punti essenziali tecnici tratti dall'articolo:

    • RLMs reframe lungo contesto come variabile esterna: i modelli linguistici ricorsivi (RLMs) trattano l'intero prompt come una stringa esterna in un ambiente simile a Python, che il modello esplora e trasforma tramite codice, invece di ingoiare tutti i token direttamente nel contesto del Transformer.
  • Ricorsione su tempo di inferenza estende il contesto a 10M più token: i RLM permettono al modello root di chiamare sottoc