L’intelligenza artificiale è diventata una di quelle tecnologie di cui tutti parlano, il problema è che spesso ne parlano soprattutto quelli che la osservano da fuori. Per questo, ogni volta che ho l’occasione di confrontarmi con qualcuno che lavora davvero sulla frontiera della ricerca, cerco di approfittarne. Nella recente puntata speciale del mio podcast “What’s Next” ho intervistato Gian Segato, oggi ricercatore in Anthropic e in passato tra le persone che hanno contribuito al lancio del primo coding agent di Replit.

Abbiamo parlato di Claude Code, sicurezza, benchmark, agenti e futuro del lavoro, ma soprattutto di una domanda che mi accompagna da tempo: stiamo capendo davvero dove ci sta portando questa tecnologia?

L’errore che facciamo tutti quando guardiamo l’AI

Negli ultimi anni ci siamo abituati a misurare il progresso dell’intelligenza artificiale in modo molto semplice, ossia guardando quello che sa fare: scrive testi, genera immagini, programma, analizza dati. Ogni nuovo modello sembra fare un passo avanti rispetto al precedente. Eppure, osservando questi sistemi da vicino, emerge una realtà meno lineare: l’AI continua a essere sorprendentemente fragile in molte situazioni che per gli esseri umani risultano naturali.

Può scrivere una funzione complessa in pochi secondi e poi perdersi in un ragionamento banale; oppure può analizzare migliaia di pagine e commettere errori che sembrano quasi ingenui. Questo è un promemoria utile, perché ci ricorda che stiamo osservando una tecnologia potentissima, ma ancora lontana dall’essere compresa fino in fondo.

La vera rivoluzione non sono i modelli

Se dovessi indicare il tema che più mi ha colpito durante la conversazione, parlerei degli agenti, non dei modelli. Per anni abbiamo infatti immaginato l’intelligenza artificiale come un’interfaccia conversazionale, ovvero una domanda, una risposta. Oggi il paradigma sta però cambiando: gli agenti non si limitano a rispondere, bensì agiscono, utilizzano strumenti, eseguono operazioni, pianificano attività, portano avanti processi articolati.

Claude Code è probabilmente uno degli esempi più interessanti di questa evoluzione: molti lo vedono come uno strumento per programmatori, ma credo che sia soprattutto un’anticipazione di ciò che vedremo ovunque nei prossimi anni. La programmazione è semplicemente il primo terreno di sperimentazione, la direzione è molto più ampia.

Nessun benchmark misura davvero ciò che conta

C’è poi un altro tema che trovo affascinante, ovvero la nostra ossessione per le classifiche. Ogni settimana compare un nuovo benchmark, ogni mese un nuovo modello conquista il primo posto, ogni trimestre qualcuno dichiara di aver superato tutti gli altri. Il problema però è che chi usa quotidianamente questi strumenti sa che le cose non funzionano così, in quanto esistono caratteristiche che sfuggono completamente ai benchmark.

Faccio qualche esempio: la fluidità di una conversazione, la capacità di comprendere il contesto, la qualità della collaborazione oppure quella sensazione difficile da definire che porta molti utenti a preferire un modello rispetto a un altro anche quando i numeri raccontano una storia diversa. Durante la mia chiacchierata con Gian Segato è emersa una riflessione interessante: forse stiamo dedicando troppo tempo a misurare ciò che è facile misurare e troppo poco a capire ciò che conta davvero.

Ecco perché sempre più aziende stanno costruendo sistemi di valutazione interni. Il benchmark più importante rimane infatti sempre lo stesso: riesce a risolvere il mio problema?

Sicurezza: una parola abusata che torna centrale

Quando si parla di Anthropic, inevitabilmente si finisce sul tema della sicurezza. Negli ultimi anni il termine è stato utilizzato così tanto da rischiare di perdere significato: tutti parlano di AI sicura, di sviluppo responsabile, di governance. La domanda che ho voluto affrontare è semplice: quanto c’è di reale e quanto di posizionamento?

La mia impressione, ascoltando Gian, è che in Anthropic la sicurezza faccia parte della ricerca, non viene percepita come una funzione separata. Questo aspetto potrebbe diventare sempre più rilevante, in quanto la prossima fase dell’intelligenza artificiale non sarà soltanto una corsa alle prestazioni, ma anche una corsa alla gestione delle conseguenze.

Da professionisti a orchestratori

Da qualche tempo penso che stiamo facendo la domanda sbagliata sul lavoro: ci chiediamo infatti quali professioni verranno sostituite. Forse però dovremmo chiederci quali professioni verranno trasformate, un passaggio da cui è emerso uno degli spunti più interessanti della conversazione. Con l’arrivo degli agenti, molte attività operative potrebbero infatti essere delegate ai sistemi.

Questo non significa che le persone spariranno dal processo, ma che il loro ruolo potrebbe cambiare: meno esecuzione e più supervisione, meno produzione diretta e più coordinamento. In altre parole, meno operatori e più orchestratori. Questa è una sfumatura importante, perché cambia completamente il modo in cui dobbiamo prepararci ai prossimi anni.

La domanda che resta aperta

Alla fine della chiacchierata mi è rimasta una sensazione precisa: spesso parliamo di AI come se fossimo già entrati nella fase matura della tecnologia, come se le regole del gioco fossero ormai chiare, come se sapessimo già chi vincerà, quali strumenti useremo e come cambierà il lavoro.

La realtà è probabilmente molto diversa: siamo ancora in una fase esplorativa, con gli agenti che stanno ridefinendo il concetto stesso di software. I laboratori di ricerca stanno cercando di capire come rendere questi sistemi sempre più affidabili e le aziende stanno sperimentando nuovi modelli organizzativi.

Nessuno può dire con certezza, oggi, dove saremo tra due anni. Forse è proprio questo il punto più interessante: stiamo assistendo alla nascita di una nuova infrastruttura cognitiva, non alla semplice evoluzione di uno strumento. E, come accade con tutte le infrastrutture, ci accorgeremo della sua importanza soltanto quando sarà diventata invisibile.