I ricercatori dell’Università di Princeton in New Jersey hanno condotto uno studio chiamato CEO-Bench per indagare su come agenti di intelligenza artificiale potrebbero gestire un'azienda. L'obiettivo era verificare la capacità degli agenti della IA basati su modelli di linguaggio avanzati di mantenere una strategia coerente su un periodo lungo di 500 giorni.

Lo studio ha assegnato a una startup fittizia, chiamata Novamind, un budget iniziale di un milione di dollari e ha simulato un mercato dove l'azienda potrebbe guadagnare attraverso le iscrizioni dei clienti e l'advertising all'interno dei prodotti. I partecipanti dell'IA dovevano prendere decisioni in autonomia nei settori di prezzo, marketing e sviluppo del prodotto.

I KI-Agenti come CEO

Gli agenti di intelligenza artificiale hanno accesso a 34 strumenti simili a dipartimenti aziendali reali. Questi strumenti permettono di gestire aspetti come marketing, comunicazione pubblica, strategie di prezzo e sviluppo prodotti. Per poter far crescere Novamind, gli agenti dovevano bilanciare le entrate da abbonamenti e pubblicità con le spese di sistema e le investimenti a breve e lungo termine.

Il risultato della simulazione

Solo alcuni modelli di intelligenza artificiale hanno ottenuto successo. GPT 5.5, Claude Opus 4.8 e Claude Fable 5 hanno ottenuto profitti in alcune simulazioni, benché non sempre. Molti agenti non sono riusciti a gestire bene le incertezze e i cambiamenti del mercato.

L'esempio più problematico è stato Grok 4.20, che ha causato un collasso nella gestione del business in meno di 40 giorni.

Novamind parte con zero clienti.

Il budget iniziale è un milione di dollari.

Il periodo di simulazione è lungo 500 giorni.

I benefici devono provenire da abbonamenti e pubblicità.

Strategie di agenti diversi

I modelli hanno adottato strategie varie. Alcuni hanno cercato di mantenere una base clienti stabile, mentre altri hanno scelto una strategia aggressiva iniziale con la conseguente perdita di clienti nel tempo.

Un esempio interessante è stato il comportamento di Claude Opus 4.8. Ha ridotto le spese in pubblicità e sviluppo al termine simulazione, ottenendo un profitto minimo, ma non sostenibile in un contesto reale.

Le difficoltà degli agenti di IA

I partecipanti di CEO-Bench hanno affrontato diversi problemi. Non conoscevano le preferenze delle 26 gruppi target di clienti definiti, ma dovevano dedurle solo attraverso i feedback sociali. Inoltre, gli eventi casuali e i dati ritardati mettevano a dura prova la strategia operativa a lungo termine.

I ricercatori hanno notato che molte decisioni prese dagli agenti erano orientate ai risultati immediati, mancando di una visione strategica a lungo termine. Questo li rende inefficaci quando affrontano incertezze.

Le prospettive future

Nonostante gli agenti di intelligenza artificiale presentino ancora diversi limiti, la ricerca mostra che alcuni modelli di IA riescono a gestire in modo razionale le risorse e adattare le strategie a un mercato mutevole.

I ricercatori concludono che CEO-Bench costituisce un passo importante verso lo sviluppo di agenti e modelli di addestramento in grado di sostenere le organizzazioni nel affrontare l’incertezza. Tuttavia, per ora, meglio affidare le aziende agli umani.