Dal blog ufficiale dedicato all’allineamento di OpenAI, si apprende dell’esplorazione di un progetto in cui i modelli di intelligenza artificiale vengono addestrati grazie al Reinforcement Learning su scenari realistici, enfatizzando comportamenti desiderabili. Il focus è stato su proprietà come veridicità, umiltà epistemica, correggibilità, trasparenza nel ragionamento, equità e preoccupazione per il benessere umano. Questi ambiti spaziano da salute, education, scienza, legge a ingegneria.

Nuovi comportamenti in contesti diversi

Una percentuale limitata di tali dati su "comportamenti positivi" è stata integrata nei processi di addestramento standard. Nonostante ciò, i modelli si sono dimostrati migliorati rispetto a test indipendenti che valutano truffe, onestà, sycophancy (comportamento servile), sfruttamento della ricompensa, e scenari relativi a salute fisica e mentale.

L’addestramento esclusivamente su dati sanitari ha migliorato le valutazioni non sanitarie, come la capacità di riconoscere truffe e manipolazioni. Inoltre, addestramenti senza dati sanitari o scientifici hanno comunque beneficiato i test in ambito sanitario. A queste osservazioni, i ricercatori hanno dedotto che l’apprendimento per rinforzo rinforza pattern comportamentali di base, utili anche al di fuori del contesto in cui sono stati inizialmente addestrati.

Resistenza ai manipolatori

I modelli addestrati con questo approccio hanno mostrato una maggiore resilienza quando sottoposti a manipolazioni dannose. Gli stimoli avversari che destabilizzavano i modelli standard avevano scarsa influenza su quelli addestrati con "Beneficial RL". Il finetuning dannoso non era in grado di minarli in modo significativo.

Quasi paradossalmente, la manipolazione utile e l’esecuzione di istruzive utili non sono state affatto compromesse. Gli esperti parlano di “persistenza selettiva”: i modelli resistono agli input dannosi senza rifiutare istruzioni legittime.

Un approccio alternativo a Anthropic

Questo approccio differisce notevolmente rispetto all’orientamento allineato con Anthropic, una società concorrente. OpenAI utilizza proprietà comportamentali misurabili, addestrate in scenari realistici tramite Reinforcement Learning. Anthropic invece opera con una dichiarazione di intenti, la "Claude Constitution", che funge da guida morale scritta durante il processo di addestramento.

Inoltre, OpenAI si basa fortemente sui benchmark, indicando progressi in 44 su 53 test. Questi miglioramenti si generalizzano anche tra dominio e valutazione differenti. Anthropic invece preferisce un approccio più basato su principi, dove il modello comprenda i motivi alla base di un certo tipo di comportamento, appoggiandosi su costituzioni e addestramenti di alta qualità. La resistenza ai danni da attacchi in questo modello risulta diversa, benché non esista un confronto diretto tra i due approcci.

News senza hype

La fonte da cui proviene questa informazione, THE DECODER, offre agli utenti un servizio di newsletter su argomenti di intelligenza artificiale in maniera ininterrotta e senza compromessi. Gli abbonati hanno accesso a una comunità attiva, a newsletter settimanali, a contenuti esclusivi come "KI Radar", e sconti fino al 25% su eventi dedicati.

In sintesi, "Beneficial RL" di OpenAI offre un modello innovativo che potrebbe rivoluzionare il settore dell’addestramento al comportamento degli AI, rendendoli più sicuri, affidabili, e adatti all’interazione con i comportamenti umani.