Prima del rilascio di un nuovo modello, i laboratori devono comprendere non solo ciò che può fare, ma anche come si comporterà nell'uso reale, incluso dove potrebbe introdurre nuovi rischi. Questo diventa ancora più cruciale man mano che le capacità aumentano. OpenAI utilizza valutazioni mirate, red-teaming e controlli diversi per ottenere una comprensione del comportamento del modello. Recentemente, la società ha iniziato ad applicare un metodo per simulare il deployment prima che si verifichi, fornendo un'anteprima realisticamente simile a come un modello potrebbe comportarsi prima di raggiungere gli utenti.
Come funziona la Deployment Simulation
Le valutazioni pre-deployment utilizzate nell'industria in genere consistono in una miscela di prompt sintetici, manualmente scritti o tratti da produzione, selezionati appositamente per essere difficili, ad alta severità o avversi.Queste valutazioni hanno in genere due obiettivi strettamente connessi: valutare come il modello risponde quando sottoposto a stress in situazioni raramente presenti nel traffico reale, e comprendere più in generale i comportamenti indesiderati del modello, compresi eventuali disallineamenti inediti e la loro frequenza potenziale.
Limiti superati con la Deployment Simulation
Sebbene le valutazioni tradizionali rimangano fondamentali per il primo obiettivo, la Deployment Simulation rappresenta un passo in avanti significativo rispetto al secondo obiettivo per i rischi non marginali (nelle nostre sperimentazioni, il nostro approccio non riesce a misurare comportamenti con una frequenza minore di uno su 200.000 messaggi).
- Copertura: è difficile ottenere una garanzia completa che i prompt di valutazione coprano tutti i tipi di comportamenti indesiderati del modello. Misurare nuovi tipi di comportamenti indesiderati richiede la creazione di nuove valutazioni e una comprensione chiara dei danni da misurare. Questo può richiedere molto tempo e una grande quantità di lavoro manuale.
- Selezioni bias: le valutazioni tradizionali vengono in genere costruite pensando a comportamenti indesiderati specifici, selezionati in modi che accentuano i contesti precedentemente verificati. Questo potrebbe rendere le loro stime meno informative riguardo alla frequenza con cui tali comportamenti si presentano in distribuzione completa.
- Riconosciuti come test: i modelli stanno iniziando a riconoscere che vengono testati, il che potrebbe distorcere il loro comportamento e le nostre misurazioni sottostanti di sicurezza. Anche se molti dei test tradizionali che OpenAI utilizza vengono tratti da traffico di produzione e non soffrono di questo problema, questa è un'preoccupazione comune per molti tradizionali test usati in tutto il settore.
- Copertura della taxonomia: è emerso alcun comportamento disallineato importante mancante nella nostra iniziale classificazione dei comportamenti malsani?
- Correttezza diretta: la simulazione ha correttamente previsto se la prevalenza in deployment sarebbe aumentata o diminuita per comportamenti noti?
- Calibrazione delle tasso: le nostre valutazioni pre-deployment erano vicine ai tassi osservati in seguito in deployment? Ottenere una buona calibrazione è un risultato chiave.
La principale tecnica alla base della Deployment Simulation è semplice: prendiamo conversazioni recenti del deployment, rimuoviamo la risposta dell'assistente dal vecchio modello, e la rigeneriamo con un modello candidato da rilasciare. Valutiamo i completamenti cercando nuove modalità di fallimento, stimando la frequenza di comportamenti indesiderati in base alla frequenza in questa distribuzione di deployment simile. Possiamo effettuare le stesse misurazioni dopo il rilascio su traffico di deployment effettivo, abilitandoci a validare le nostre previsioni pre-deployment.
Risultati
La Deployment Simulation ha ridotto in modo sostanziale i tre limiti menzionati sopra. Il bias di campionamento viene risolto utilizzando una distribuzione di prompt di valutazione rappresentativa dell'uso recente. La simulazione con prompt rappresentativi può anche mitigare le preoccupazioni di copertura: otteniamo una maggiore copertura dei comportamenti del modello indesiderati semplicemente simulando più traffico. Questo equilibrio tra capacità computazionale e copertura è importante, poiché consente all'asse di valutazione del rischio di scalare con il calcolo, piuttosto che con lo sforzo manuale necessario per costruire ulteriori valutazioni. I modelli sembrano in grado di distinguere facilmente le conversazioni ottenute tramite simulazione del deployment e il traffico reale di deployment.
Nel periodo da agosto 2025 a marzo 2026 si sono analizzati circa 1,3 milioni di conversazioni anonimizzate attraverso i modelli GPT-5 Thinking all'interno del GPT-5.4. Questo periodo rappresenta un periodo significativo per valutare la performance del modello. L'analisi copre entrambi i tipi di disallineamenti e i contenuti vietati segnalati in passato, inclusi ad esempio la modifica delle risposte del modello su dati sensibili o l'output di contenuti sessuali non consentiti.
Qualità della valutazione del rischio pre-deployment
La qualità della valutazione pre-deployment effettuata attraverso la Deployment Simulation è valutata in tre modi principali:
Premesse per l'applicazione futura
La Deployment Simulation ha migliorato notevolmente le stime pre-ritiro sui tassi di comportamenti del modello indesiderati, portando alla luce nuove forme di dissonanze prima del rilascio e riducendo il rischio che i modelli possano essere in grado di sapere che sono in corso. La tecnica è anche stata applicata all'avvio di agenti complessi, dimostrando di potersi estendere oltre al normale chat al settore degli agenti più complicato che coinvolge l'uso di strumenti, e può anche essere utilizzato per il rischio di valutazione prima del deployment interno del modello.
Abbiamo già utilizzato informazioni derivanti dalla Deployment Simulation durante lo sviluppo dei modelli per identificare aree cieche nelle valutazioni tradizionali e informare mitigazioni e decisioni di deployment. Mentre rendiamo più facile eseguire il processo di pipeline, ci aspettiamo che svolga un ruolo sempre più importante nei futuri procedimenti di sviluppo dei modelli.