Harness-1 è una soluzione innovativa nel campo della ricerca automatizzata, realizzata da un team di ricerca dell’Università di Illinio Urbana-Champaign, UC Berkeley, e Chroma. Al contrario di molti agenti di ricerca tradizionali, Harness-1 separa il processo decisionale dagli adempimenti legati alla gestione dello stato, un approccio definito come cognitive offloading (carico cognitivo ridotto). Questo permette al modello di concentrarsi sugli aspetti semantici e decisionali, lasciando la gestione tecnica dell'ambiente.

Harness-1 funziona all'interno di un "harness" con stato, progettato per conservare informazione contestuale, mantenere un insieme organizzato di documenti rilevanti, e facilitare il processo decisionale dell’agente. Il sottogente si prefigge di produrre un insieme di documenti gerarchici per un modello separato che risponde alle domande, senza effettuare direttamente la risposta.

Il processo all’interno dell’harness

Ogni volta che il modello agisce all'interno dell’ambiente, esso passa attraverso un ciclo: l’ambiente presenta un breve stato di ricerca con azioni recenti. Il modello emette un'azione strutturata, l'ambiente esegue l'azione, aggiorna lo stato e presenta l'osservazione successiva.

L’esecuzione avviene attraverso una macchina a stati centrata su un WORKINGMEMORY per cada episodio. La divisione chiave del modello permette a Harness-1 di concentrarsi sulle decisioni semantiche (dove cercare e cosa ritenere rilevante), lasciando al sistema di gestione (harness) ad occuparsi della memorizzazione dello stato e delle altre operazioni dietro le quinte.

Elementi gestiti dal sistema di controllo

Un pool candidati che mantiene documenti compressi e de-duplicati.

Un insieme curato con tag di importanza (very_high, high, fair, low), limitato a 30 documenti.

Una struttura chiamata "evidence graph", che organizza le informazioni per entità frequenti, bridge documents e singoli.

Strumenti utilizzati dal modello

Harness-1 utilizza otto strumenti principali per gestire la ricerca e la curazione:

fanoutsearch: cerca in parallelo più fonti.

search_corpus: ricerca all’interno di un database di documenti.

grep_corpus: cerca testo all'interno del database.

read_document: legge documenti completi.

review_docs: esamina i documenti rilevanti.

curate: aggiunge documenti al pool raffinato.

verify: confronta fatti con le fonti.

end_search: indica la fine dell'episodio.

La ricerca produce output compressi utilizzando la tecnologia sentence-BM25, mantenendo le prime quattro frasi più rilevanti. Viene implementato un sistema di de-duplicazione a due livelli per evitare il ripetersi di chunk simili.

Gestione delle situazioni iniziali

Per affrontare il problema del "cold start", Harness-1 include un seeding automatico: dopo la prima ricerca riuscita, vengono inseriti otto risultati rierlativizzati (con tag fair) nel set curato. Questo permette al modello di concentrarsi non sull’edificio ma sulla raffinazione del pool.

La squadra ha definito tre requisiti fondamentali per un sistema di tipo addestrabile: inizializzazione avanzata della cura, renderizzazione efficiente dello stato in input e incentivazione alla diversità tra gli elementi recuperati.

Metodi di addestramento

Per addestrare Harness-1, la squadra ha utilizzato un modello GPT-5.4 funzionante direttamente nell'intero sistema di ricerca come insegnante. Sono rimaste 899 traiettorie dopo la pulizia del dataset per l’addestramento iniziale. I dati vengono addestrati per tre epoche con Low-Rank Adaptation (LoRA) a rango 32, inizializzando RL con il checkpoint step-550.

Per il reinforcement learning, il team ha utilizzato l’algoritmo di tipo CISPO (Controlled Importance Sampling Policy Optimization). Ogni episodio ha un limite di 40 passi senza un reward intermedio. Il modello mostra buone proprietà di convergenza grazie a un bonus di diversità di tool. Senza il bonus, l’agente ripete gli stessi modelli di ricerca, portando a plateau di 0.53 in curate recall. Con il bonus, però, il modello riesce a raggiungere fino a 0.60.

Risultati su benchmarks

Harness-1 è stato testato su otto diversi benchmark, coprendo campi come web, finanza, brevetti, e domande multi-hop. La metrica centrale è la curate recall, ossia la copertura dei documenti rilevanti nel set finale. Un’altra metrica è la trajcetory recall, che conta i documenti rilevanti incontrati nel corso dell’episodio.

Risultati dei modelli testati

Modello	Tipo	Media di curate recall	Media di trajectory recall
Harness-1 (20B)	Open small	0.730	0.807
Tongyi DeepResearch 30B	Open small	0.616	0.673
Opus-4.6	Frontier	0.764	0.794
GPT-5.4	Frontier	0.709	0.752

Harness-1 è risultato con una media di 0.730 in curate recall, superando Tongyi DeepResearch 30B di 11.4 punti. Fra i modelli del frontier, solo Opus-4.6 ha ottenuto punteggi superiori.

Efficacia su benchmark diversi

Un aspetto rilevante è il miglioramento mostrato quando i benchmark testati sono diversi da quelli utilizzati durante l’addestramento. La differenza tra le performance su dati simili (7.9) e quelli lontani (17.0) mostra una capacità di transfer decisamente alta, segnando una performance 2.2 volte migliore su modelli poco simili.

Usi principali

Harness-1 si rivolge a compiti orientati alla ricerca basata sull’evidenza, in cui i documenti supportano un'analisi o risposta. Tra le applicazioni principali trov