Il team di ricerca di OpenAI ha scoperto che piccole quantità di addestramento basato su comportamenti vantaggiosi rendono i modelli di intelligenza artificiale più sicuri e difficili da manipolare. Questo studio approfondisce la capacità di comportamenti positivi di generalizzarsi su aree diverse rispetto a quelle originariamente addestrate.

Addestramento su scenari verosimili per comportamenti desiderabili

I ricercatori hanno sperimentato il rafforzamento dei tratti comportamentali desiderati in situazioni realistiche con l'obiettivo di rendere i modelli di AI più sicuri e funzionali in diversi contesti. I tratti testati includevano veridicità, umiltà epistemica, correggibilità, trasparenza del ragionamento, equità e preoccupazione per il benessere umano. Gli scenari spaziavano tra salute, istruzione, scienza, legge ed ingegneria.

Miglioramenti trasversali

Secondo un post sul blog di OpenAI dedicato all’allineamento, l’addestramento con tratti positivi ha prodotto miglioramenti nel modello su 44 su 53 benchmark indipendenti che testavano tratti come debolezza, onestà, cedevolezza, sfruttamento del premio e scenario riguardanti salute mentale e fisica. Persino l’addestramento su dati sanitari migliorava valutazioni non legate alla salute, come rilevamento di frodi o inganno.

Questi risultati suggeriscono che l’addestramento basato su tratti benefici rinforza schemi comportamentali utili anche in contesti diversi da quelli originari.

Resistenza ai manipolatori

I ricercatori hanno inoltre verificato se tali miglioramenti restavano consistenti anche in presenza di input avversi. I prompt destabilizzanti avevano un effetto minimo sul modello addestrato con tratti vantaggiosi. Allo stesso modo, il fine-tuning malizioso non riuscì a corrodere efficacemente i tratti appresi.

Persistenza selettiva

Il modello ha mantenuto la sua reattività a istruzioni utili, pur resistendo a influenze dannose. Questo effetto, denominato "persistence selettiva", illustra come i modelli possano rifiutare manipolazioni negative senza perdere in flessibilità utile.

Differenze rispetto ad Anthropic

OpenAI segue un approccio differente rispetto a Anthropic. In primo luogo, OpenAI si basa su tratti comportamentali misurabili empiricamente, rafforzati tramite scenari realistici. Anthropic, invece, si affidava a un "costituzione" scritta – una dichiarazione di valori guida per formazione e comportamento.

Metodi basati su criteri vs obiettivi misurabili

In secondo luogo, OpenAI utilizza estesamente benchmark per misurare l’efficacia: 44 su 53 valutazioni mostrano miglioramenti che si estendono a diversi settori e tipi di valutazione. Anthropic adotta un approccio basato su principi, dove il modello dovrebbe capire il "perché" certi comportamenti sono auspicabili, supportato da testi costituzionali e esempi ad alta qualità. Anthropic ritiene questo lo renda i suoi modelli più resistenti agli attacchi, anche se non esiste ancora un confronto diretto tra i due approcci.

Sottoscrivi THE DECODER per rimanere aggiornato

I visitatori che desiderano rimanere informati possono sottoscrivere THE DECODER, una newsletter dedicata all’intelligenza artificiale. L’abbonamento offre vantaggi come la lettura senza pubblicità, accesso ad una newsletter settimanale sull’AI, sei volte all’anno un rapporto esclusivo "AI Radar" sull'avanguardia tecnologica, accesso all'archivio completo, e alla sezione di commenti.

Un servizio che mira a fornire informazioni chiare e non esagerate su temi complessi come l'intelligenza artificiale.