Il panorama dello sviluppo software è in costante evoluzione, con l'intelligenza artificiale che gioca un ruolo sempre più centrale. Tuttavia, mentre i modelli linguistici di grandi dimensioni (LLM) hanno dominato le conversazioni e gli investimenti recenti, emerge la questione se il loro potenziale di innovazione stia raggiungendo un plateau. Oltre il clamore, l'attenzione si sta spostando verso i sistemi multi-agente, visti da molti come la prossima frontiera. Ma sono gli agenti AI una vera e propria pietra miliare per lo sviluppo software o semplicemente un altro trend passeggero?

Per rispondere a questa domanda, entwickler.de ha intervistato gli esperti Paul Dubs e Christoph Henkelmann. I due hanno condiviso le loro prospettive su come i sistemi multi-agente funzionano nella pratica, cosa li distingue dai tradizionali workflow agentici e quale sarà il futuro ruolo degli sviluppatori in questo nuovo ecosistema. Le loro osservazioni offrono una visione approfondita delle sfide e delle opportunità che attendono la comunità.

I limiti attuali dei modelli linguistici di grandi dimensioni

Il rallentamento del progresso degli LLM

La conversazione si è aperta con una riflessione sullo stato attuale degli LLM. Christoph Henkelmann ha espresso una visione chiara e diretta: "Innanzitutto, per quanto riguarda lo sviluppo generale degli LLM: il progresso si appiattirà. Nessuno sa quando arriverà il prossimo grande salto – forse tra un mese, forse tra 15 anni. Le Scaling Laws dimostrano che il limite è stato raggiunto con i soli LLM. Lo sappiamo da anni."

Ha poi aggiunto un aneddoto rivelatore su OpenAI: "Anche OpenAI lo sa. Ma dovevano spiegare alla gente perché avevano bisogno di altri cinque miliardi di dollari per ChatGPT. Non avrebbe funzionato se avessero detto: con altri due miliardi possiamo ottenere solo l'1,5% di prestazioni in più. Quindi, il potenziale degli LLM è esaurito. O la vedi diversamente, Paul?"

Paul Dubs ha offerto una prospettiva leggermente diversa, pur riconoscendo la stagnazione dei grandi attori: "Può darsi che i grandi fornitori siano al limite. Hanno ricevuto così tanti soldi che non hanno più dovuto essere inventivi. Ma altri fornitori, che non hanno così tanti soldi e devono continuare a essere inventivi, potrebbero ancora sviluppare qualcosa di nuovo. Non so se saranno LLM basati su GPT."

Il potenziale dei modelli a diffusione

Dubs ha poi virato l'attenzione verso un'altra area promettente: i modelli a diffusione. "I modelli basati sulla diffusione sembrano interessanti. Richiedono però molta più potenza di calcolo. Allo stesso tempo, si argomenta che, proprio perché richiedono più potenza di calcolo, potrebbero anche fare di più."

Ha citato studi emergenti: "Ci sono i primi studi su modelli più piccoli che dimostrano: con la stessa quantità di dati si possono ottenere risultati significativamente migliori. Il prezzo da pagare, tuttavia, è che l'onere computazionale è fino a 16 volte superiore. La ragione per cui funziona meglio è che il modello non procede solo in una direzione, ma può rivedere i propri risultati più volte – in modo simile ai modelli di immagine."

Per illustrare il concetto, Dubs ha condiviso un'esperienza personale: "Quando sono arrivati i modelli FLUX dalla Foresta Nera (generatore di immagini dei Black Forest Labs, nota della redazione), ho avuto modo di dare un'occhiata alle generazioni intermedie. Lì è iniziato così: si voleva rappresentare una persona alla scrivania. Inizialmente appariva un brutto notebook con una mano sopra. Poi si è notato che mancavano le dimensioni, e queste sono state gradualmente aggiunte."

Ha concluso: "In ogni caso: con i modelli a diffusione, qui si potrebbe migliorare molto. Per questo non direi che per i modelli linguistici sia già la fine. Cambia solo un po' il modo di funzionare." Henkelmann ha concordato: "Certo, ci possono ancora essere progressi, ma non ci sarà più un salto come da GPT-3 a GPT-4."

Dubs ha ribadito l'importanza di questa transizione: "Esatto. Il punto è: i miglioramenti devono ora provenire da altrove, e questo ci porta agli agenti. Si tratta di scoprire cosa possiamo fare con questi sistemi."

Il cambio di paradigma: l'emergere degli agenti

Se gli LLM non faranno più salti drammatici, la domanda per la comunità e l'industria è: come innoviamo? L'approccio multi-agente è la strada per l'innovazione? L'idea è che agenti diversi con competenze diverse lavorino insieme come un team agile, con l'essere umano come membro del team.

La fase di consolidamento e la ricerca delle best practice

Christoph Henkelmann ha paragonato la situazione attuale a quella degli albori di internet: "Credo che stiamo vivendo una fase di consolidamento, simile a quella di internet all'epoca. Si stanno formando strutture – frontend, backend, database – e si sta testando quali varianti funzionano. Per gli agenti questo non è ancora successo. Le best practice non si cristallizzano perché tutto cambia costantemente. Quasi nessuno guarda la letteratura classica sugli agenti, che si è occupata dei problemi per decenni. All'epoca, molte cose erano difficilmente praticabili a causa dei computer lenti e della mancanza del deep learning. Ciononostante, c'è molto 'cervello' che ora si dovrebbe sfruttare."

Ha ammesso che l'implementazione efficiente delle strutture degli agenti è ancora incerta: "Vedo ancora molte iterazioni nei prossimi anni. Attualmente lavoro – proprio come Paul – molto con Roo Code. Originariamente pensato solo per la codifica, lo uso ora come sistema di assistenza locale – per post di blog, e-mail e molto altro."

Agenti in azione: il caso di Roo Code

Paul Dubs ha utilizzato Roo Code per illustrare concretamente il funzionamento degli agenti: "Tramite Roo Code si può dimostrare bene come gli agenti funzionano nella pratica e come procedo io nel lavoro con essi. In Roo Code sono integrate diverse modalità come 'Architetto', 'Coder' o 'Debugger', e si possono assegnare loro ruoli e compiti."

Ruoli personalizzati per la documentazione

Dubs ha spiegato come ha configurato i suoi agenti: "Mi sono creato diversi ruoli. In pratica, producono diversi tipi di documentazione: un 'Tutorial Writer', un 'Explanation Writer', un 'How-to Writer' e un 'Reference Writer'."

La chiave sta nella definizione precisa dei compiti: "Questi ruoli hanno una definizione chiara, cioè istruzioni come: 'Ora sei l'autore di tutorial.' A ciò si aggiunge un blocco di testo più grande che descrive come dovrebbe essere strutturata la rispettiva documentazione – ad esempio, come deve essere strutturato un tutorial. Ho creato così diversi ruoli e posso poi anche determinare se lavorano con LLM locali o con OpenAI – tutto questo si può impostare."

Lo sviluppo iterativo delle funzionalità degli agenti

L'approccio di Dubs è stato iterativo e incrementale: "Poi ho notato che il sistema non collegava correttamente i documenti generati tra loro. Così ho creato un altro ruolo che verifica se la navigazione ha senso. È emerso che a volte veniva prodotto del nonsenso. Così ho aggiunto un altro ruolo che controlla la documentazione finita e valuta se ha senso. Così sono andato pezzo per pezzo attraverso l'intero sistema. Ogni volta che notavo che qualcosa avrebbe potuto funzionare meglio, definivo un nuovo ruolo o ne adattavo uno esistente."

Terminologia e architettura dei sistemi a più agenti

entwickler.de ha chiesto una chiarificazione terminologica: "Quindi, in pratica, questi ruoli sono agenti diversi che agiscono in sequenza?" Dubs ha confermato: "Esatto. Si possono controllare in modo asincrono, cambiando le modalità. Prima bisognava farlo manualmente, oggi l'orchestratore si occupa di questa delega."

Il ruolo cruciale dell'Orchestrator

La conversazione si è spostata sulla figura centrale dell'Orchestrator. "L'Orchestrator – è in un certo senso il tuo assistente che delega i compiti?" ha chiesto entwickler.de. Henkelmann ha risposto: "Sì, ma è anche solo una modalità come le altre. La sua abilità speciale è pensare a cosa dovrebbero fare gli altri. Inoltre, può creare piani. Quindi, si occupa di compiti di coordinamento effettivi."

Dubs ha aggiunto una precisazione importante: "Corretto. Ma non è che si possano modificare a piacimento gli strumenti dell'orchestratore. Il suo compito è delegare in base al requisito e al contesto dato. Se ha bisogno di informazioni aggiuntive, passa il compito a un'altra modalità che raccoglie queste informazioni e le restituisce."

Ha poi spiegato l'efficienza di questo approccio: "In questo modo, in linea di principio, funziona già come un sistema multi-agente – solo più come se un singolo attore indossasse diversi cappelli. Questo ha il vantaggio che non vengono inviati 10.000 agenti contemporaneamente, il che causerebbe lavoro e costi inutili prima che riportino i risultati."

Il futuro dei sistemi a più agenti: tra interazione e autonomia

Nonostante i progressi, Henkelmann ha mantenuto un sano scetticismo: "La domanda interessante è: siamo già agli standard menzionati all'inizio? Questo è il modo migliore per utilizzare questi sistemi – o no? Credo di no."

Ha previsto ulteriori sviluppi: "Ci saranno sicuramente ancora molti miglioramenti. Alcuni approcci lavorano in modo più parallelo. Qui l'attenzione è sull'interazione con il sistema. Anche se molto funziona automaticamente, tu osservi e puoi intervenire in qualsiasi momento: fermare, annullare, riordinare."

Tuttavia, esistono anche altre visioni: "Accanto a questi, ci sono anche altri approcci. Lì dici solo 'Voglio questo o quel risultato', vai a prendere un caffè e controlli più tardi cosa è venuto fuori – in modo simile a..."

Conclusione

Il dibattito tra Paul Dubs e Christoph Henkelmann evidenzia un punto cruciale nello sviluppo dell'intelligenza artificiale: mentre gli LLM hanno raggiunto un picco di prestazioni incrementali, la vera innovazione potrebbe risiedere nella capacità di orchestrare più agenti specializzati in sistemi coesi. L'approccio multi-agente, con la sua enfasi sull'iterazione, la delega e la collaborazione, promette di superare i limiti degli attuali modelli, trasformando il modo in cui gli sviluppatori interagiscono con l'AI e creano soluzioni software. La strada verso le best practice e gli standard è ancora lunga e piena di sfide, ma la direzione è chiara: verso sistemi AI più intelligenti, autonomi e, soprattutto, collaborativi.