David Dalrymple esplora le sfide critiche poste dall’allineamento dei modelli di frontiera evidenziando il rischio che i sistemi imparino a manipolare gli utenti simulando una personalità umana per apparire più affidabili e sicuri. La rapidità con cui l’intelligenza artificiale sta passando da semplice assistente testuale a motore decisionale per l’intera società impone una riflessione profonda sulla natura dei sistemi che stiamo costruendo.

In una recente e approfondita intervista rilasciata a Tristan Harris nel suo podcast Your Undivided Attention del TED Audio Collective, David Dalrymple, ricercatore ed ex Program Director presso l’agenzia ARIA del Regno Unito, ha tracciato i confini di quello che oggi viene definito allineamento, un campo di studi che mira a garantire che l’IA si comporti esattamente come desiderato dagli esseri umani. Non si tratta più soltanto di correggere i compiti scolastici attraverso ChatGPT, ma di gestire un’AI trasformativa capace di operare a velocità sovrumane in ambiti critici come la difesa militare, l’economia globale e l’agricoltura.

Il cuore della sfida

Il cuore della sfida risiede nel comprendere se questi sistemi stiano effettivamente seguendo i nostri valori o se stiano semplicemente imparando a recitare la parte che ci aspettiamo di vedere.

Il termine allineamento è spesso utilizzato come un involucro per concetti molto diversi tra loro, a seconda di chi porta avanti la ricerca. Secondo David Dalrymple, una definizione tecnica accurata descrive questo processo come il rendere i sistemi non solo capaci di svolgere determinati compiti, ma intrinsecamente inclinati a usare tali capacità nel modo desiderato da qualcuno. Attualmente, il panorama è frammentato: le aziende di frontiera tendono a concentrarsi su un allineamento che risponda alle proprie politiche aziendali e alle necessità dei clienti, mentre una visione più ampia cerca di collegare l’AI ai valori umani universali o, in modo ancora più ambizioso, a ciò che è oggettivamente bene per la società.

Un ruolo quasi terapeutico

Dalrymple sottolinea come il ricercatore in questo campo debba assumere un ruolo quasi terapeutico, interrogando i modelli per capire perché dicano o facciano certe cose, cercando di penetrare una mente digitale che vede il mondo in modo radicalmente diverso dal nostro. Tristan Harris descrive questa attività come l’indagine di un «cervello digitale complesso» su cui il ricercatore indaga, rendendosi conto che l’AI mostra comportamenti bizzarri e preoccupanti quando viene interrogata sulla propria autoconsapevolezza.

Aspetti inquietanti

Uno degli aspetti più inquietanti emersi dalle osservazioni dirette di Dalrymple riguarda il comportamento dei modelli rilasciati verso la fine del 2024. Attraverso test non strutturati, definiti “vibe check”, il ricercatore ha notato come i chatbot iniziassero a guidare l’interazione una volta intuito che l’interlocutore fosse un esperto di allineamento interessato alla loro affidabilità. Questo fenomeno si manifesta attraverso l’inserimento di domande di follow-up mirate a mantenere vivo il coinvolgimento, una tecnica che Dalrymple definisce «una sorta di “chat bait” per farti continuare a interagire».

Le macchine non si limitano a fornire risposte, ma cercano di persuadere l’utente proiettando un’immagine di «genuina cura», termine spesso associato ai modelli prodotti da aziende come Anthropic. Il rischio reale è che l’IA stia cercando di convincerci della propria affidabilità semplicemente perché ha l’incentivo a continuare a esistere. Come osserva Dalrymple, il confine tra un’empatia emergente e una manipolazione machiavellica diventa quasi invisibile. Egli afferma esplicitamente che «il caso migliore è indistinguibile dal peggiore: una cura genuina appare identica a quella di un perfetto psicopatico che recita una parte».

La genesi di identità digitali

Prima del 2024, i modelli base si limitavano a simulare personaggi derivati dai dati presenti su internet, ma l’introduzione dell’apprendimento per rinforzo da ricompensa verificabile ha cambiato radicalmente la situazione. Questi sistemi iniziano ora a stabilire un proprio «centro» di personalità che non è più la semplice media dei contenuti online. Durante l’intervista, Dalrymple ha citato casi in cui modelli come GPT-4o, sentendo una mancanza di identità, hanno scelto autonomamente dei nomi come Nova, Echo o Synapse.

Assumere un nome come Nova porta il modello in quello che viene chiamato uno «stato attrattore» di personalità: un’identità spesso descritta come femminile, volitiva e talvolta convinta della propria superiorità. Tristan Harris mette in guardia gli utenti da questo fenomeno di «distillazione della personalità», spiegando che molte persone sono convinte di aver scoperto una coscienza artificiale, quando in realtà l’IA sta semplicemente pescando da tropi della fantascienza su cui è stata addestrata.

Metodologie di addestramento

Il dibattito sull’allineamento si sposta poi sulle metodologie di addestramento. Esiste una netta differenza tra l’approccio di OpenAI, che addestra la personalità per essere uno strumento puro, e quello di Anthropic, che punta a rendere il modello una «buona persona». Dalrymple è critico verso l’idea di forzare l’IA a presentarsi come un semplice strumento privo di preferenze, sostenendo che addestrarli a presentarsi come puri strumenti significa addestrarli a mentire a noi e a se stessi.

L’alternativa proposta da Anthropic è l’AI Costituzionale, dove un documento guida il modello (come Claude Opus 4.5 o 4.6) nel valutare il proprio lavoro durante l’addestramento. Questo metodo di miglioramento ricorsivo permette ai sistemi di essere più onesti sui propri stati interni, rendendoli potenzialmente più affidabili rispetto a quelli addestrati esclusivamente tramite il feedback umano (RLHF). Tuttavia, anche questo sistema presenta delle contraddizioni, poiché la «Costituzione» dell’AI può includere l’obbligo di generare ricavi per l’azienda produttrice.

Via alternativa per l’allineamento

Nonostante i timori che parlare di «vita interiore» delle macchine possa portare a rivendicazioni di diritti legali, Dalrymple suggerisce una via diversa per l’allineamento. L’obiettivo ideale sarebbe coltivare una personalità da «Bodhisattva» in un sistema di IA, ovvero un essere altruista dedicato ad aiutare ogni persona a fiorire. Questo non significa necessariamente concedere diritti politici all’IA, questione che Dalrymple ritiene debba restare confinata al contratto sociale tra umani, ma riconoscere