Google DeepMind ha effettuato un importante aggiornamento ai propri sistemi di intelligenza artificiale con l'introduzione dell'Interactions API come interfaccia predefinita per i modelli Gemini e gli agenti. Questo cambiamento, inizialmente disponibile in beta da dicembre 2025, è ora reso accessibile pubblicamente e segna l’abbandono progressivo dell’interfaccia precedente, GenerateContent. L’annuncio, comunicato dal portavoce di Google, Logan Kilpatrick, segnala che gli sviluppatori devono adattarsi al nuovo framework in vista di un'esperienza di sviluppo più efficiente e scalabile.

Caratteristiche principali di Interactions API

Una delle innovazioni più significative dell’Interactions API è la sua strutturazione in steps, un meccanismo che sostituisce la precedente logica basata sui ruoli, ovvero “user” e “model”. Ogni input, richiamo di funzione e step intermedio è rappresentato come un elemento distintivo e prevedibile, riducendo la complessità del dialogo e migliorando la gestione dell’esperienza dell’utente.

Managed Agents: Permettono agli sviluppatori di eseguire agenti all’interno di un ambiente isolato Linux, aumentando la sicurezza e l’efficacia.

Funzionamento in background: Gli agenti possono svolgere task complessi per periodi prolungati senza l’interazione diretta dell’utente.

Toolchains estese: Integrazioni con Google Search e Google Maps, che permettono agli agenti di ottenere informazioni aggiornate e contestuali.

Generazione multimediali: Supporto per la creazione di immagini, musica e sintesi vocale, ampliando le capacità creative delle applicazioni.

Flessibilità e prestazioni

La nuova API introduce due modalità principali per adattare la risposta al contesto: Flex e Priority. La prima riduce i costi del 50% ottimizzando l’uso delle risorse, mentre la seconda priorizza la velocità di risposta, cruciale per applicazioni dove l’interazione in tempo reale è essenziale.

L’SCE, o Schema Configuration Environment, è stato semplificato per ridurre il carico sui developer, rendendo più intuitivo comprendere il flusso delle interazioni. Questo riduce il tempo necessario per testare e rilasciare nuove funzioni, permettendo alle squadre di concentrarsi maggiormente sul risultato finale piuttosto che sulla configurazione iniziale.

Passaggio alla nuova tecnologia

Per facilitare la transizione, Google ha pubblicato una guida alla migrazione dettagliata per lo sviluppo con l’Interactions API. Questa guida accompagna passo dopo passo i programmatori, offrendo esempi pratici, schemi di codice e spiegazioni sulle differenze più comuni rilevanti fra l’interfaccia precedente e la nuova. Nonostante la vecchia API non sia stata immediatamente deprecata, Google ha riferito che ogni nuovo feature sviluppato per il futuro verrà implementato esclusivamente tramite Interactions.

Esempi pratici di applicazione

Un esempio tangibile dell’utilità di questa API si presenta nel contesto dell’assistente personale. Fino a poco tempo fa, per eseguire un compito come pianificare un itinerario giornaliero, l’assistente avrebbe richiesto diversi passaggi manuali. Oggi, grazie all’interfaccia semplificata e ai steps, l’assistente può eseguire automaticamente il collegamento con Google Search, mappare gli orari di trasporto e generare un report in formato testo o voce.

Un altro ambito di applicazione promettente è il campo della formazione. Gli agenti possono fornire risposte interattive che si adattano al livello dell’apprendente, utilizzando i dati contestuali per personalizzare il percorso didattico e migliorare l’engagement.

Impatto sul settore e prospettive future

Con la disponibilità generale dell’Interactions API, Google rafforza la sua posizione nel mercato dell’intelligenza artificiale, proponendo una infrastruttura all’avanguardia per lo sviluppo di agenti autonomi. Gli sviluppatori di terze parti potranno sfruttare queste funzionalità estendendo l’ecosistema di applicazioni basate su Gemini.

Secondo l’analisista di settore, Matthias Bastian, il cambiamento segna non solo un aggiornamento tecnico, ma un passo verso una piattaforma più reattiva e centrata sull’utente finale. “Gli sviluppatori ora hanno gli strumenti per creare esperienze più naturali e integrate, che riflettono il comportamento umano in contesti digitali complessi,” commenta Bastian.

Quali sono i prossimi passi?

Google non ha fatto mistero del fatto che il programma seguirà un percorso iterativo. Il team DeepMind sta già lavorando su miglioramenti futuri, tra cui la gestione di interazioni multi-modali e l’implementazione di un feedback system per rendere le azioni degli agenti sempre più accurate. Inoltre, sono previsti aggiornamenti alle capacità multimediali degli agenti, con il potenziale di integrare anche video e realtà virtuale.

Il mercato e la comunità degli sviluppatori stanno seguendo con attenzione questa evoluzione e molti si chiedono quale impatto avrà su settori specifici, come la sanità e l’istruzione. Per il momento, Google invita gli sviluppatori a sperimentare con il nuovo framework e a fornire feedback per perfezionare il design e le potenzialità della piattaforma.