Google ha annunciato un significativo passo avanti nell’elaborazione di testo con DiffusionGemma, un modello sperimentale aperto che introduce un’architettura innovativa per l’accelerazione dell’interfaccia locale. Rispetto al trattamento token per token utilizzato tradizionalmente dagli altri modelli di grandi lingue (LLM), DiffusionGemma genera interi blocchi di testo simultaneamente grazie alle tecniche di diffusione, permettendo agli utenti di ottenere risposte fino a quattro volte più rapide.

Un'architettura diversa per risultati eccezionali

I modelli di grandi lingue sono estremamente potenti, ma finora il modo in cui operano è rimasto simile a una tastiera: elaborano il lavoro in modo lineare e bidirezionale, come è tipico della struttura transformer. Tuttavia, in contesti locali, questa elaborazione lineare può portare a una sottoutilizzazione delle GPU o delle TPU. Google ha affrontato questa sfida con DiffusionGemma, un modello sperimentale appartenente alla famiglia Gemma 4. Il modello genera testo in modo estremamente rapido, producendo blocchi di testo interi contemporaneamente.

Forte di tecnologia MoE

DiffusionGemma si basa sull’approccio Mixture-of-Experts (MoE), con 26 miliardi di parametri. Questo sistema rappresenta un cambio radicale nel modo in cui i modelli interagiscono con le risorse hardware, assegnando un carico di lavoro maggiore ai processori in ogni ciclo. Il modello può produrre blocchi completi di testo che contengono fino a 256 token di seguito. Google dichiara che grazie a questa ottimizzazione, DiffusionGemma riesce a generare testo fino a quattro volte più velocemente rispetto agli altri modelli che utilizzano un trattamento sequenziale.

I ricercatori Brendan O’Donoghue e Sebastian Flennerhag spiegano nel blog che «Con il Mixture of Experts, passiamo dal trattamento sequenziale che ricorda una semplice macchina da scrivere al processo parallelo che invece funziona come una grande pressa. Questo permette una stampa simultanea di blocchi di testo interi.».

DiffusionGemma attiva solo 3,8 miliardi di parametri durante l’inferenza.

Una volta quantizzato, il modello richiede circa 18 GB di VRAM su sistemi come la Nvidia RTX 5090.

Il modello è ottimizzato per la stack di hardware di Nvidia e funziona con dispositivi di basso costo e sistemi a alta performance come Hopper e Blackwell.

Innovazione nel generare testo

Il principio di diffusione, conosciuto già nel campo delle immagini, consiste nel partire da un “rumore puro” e iterativamente migliorare il contenuto per arrivare al risultato finale. DiffusionGemma applica questa metodologia al testo. Non si limita a generare i singoli token in sequenza, ma crea una griglia di token casuali che affina iterativamente, individuando quelli più rilevanti e adattando il resto in base a essi.

Un elemento distinto di DiffusionGemma è la capacità di auto-correzione. Usa un sistema di punteggio di fiducia per riconsiderare i token durante ogni iterazione, permettendo una correzione in tempo reale nel blocco intero del testo.

Il modello dispone anche di un attentore bidirezionale, che consente a ogni token generato in parallelo di tenere conto dei token precedenti e successivi. Questa caratteristica può essere particolarmente utile in campi come la matematica, l’editoria del codice e il coding interattivo.

Supporto aperto e compatibile

DiffusionGemma è rilasciato con una licenza Apache 2.0, il che significa che gli sviluppatori possono utilizzarlo, modificarlo, distribuirlo o monetizzarlo liberamente. Il modello può essere implementato su GPU locali oppure nel cloud tramite Google Cloud Model Garden e Nvidia NIM. È disponibile su piattaforme come Hugging Face, GitHub e vLLM, con il supporto alla libreria open-source llama.cpp in arrivo.

Casi d'uso chiave

DiffusionGemma si dimostra particolarmente utile nel contesto delle elaborazioni locali dove la rapidità è cruciale, come ad esempio la generazione di testi strutturati non lineari. Per Google, il modello apre la strada a nuovi modelli comportamentali che includono compiti complessi come l'elaborazione multimodale, la sintesi e il rendering del codice in tempo reale.

Carmi Levy, analista tecnologico, ha enfatizzato che la capacità del modello di funzionare all'interno di dispositivi con solo 18 GB di VRAM e il supporto per GPU locali potrebbe rivoluzionare le interazioni a richiesta, in particolare nei lavori clienti che richiedono rapide risposte con bassa latenza.

Esempi pratici

DiffusionGemma ha mostrato eccellenti risultati in compiti complessi. Ad esempio:

Esegue il Sudoku in maniera estremamente efficiente, un compito che spesso crea problemi ai modelli autorégressivi a causa della dipendenza sequenziale tra gli elementi.

Grazie al mode di “pensiero”, mostra una notevole capacità di risolvere in modo logico problemi complessi.

Supporta interazioni codificate in tempo reale, rendendolo ideale per la generazione di codice interattivo.

Limitazioni

Nonostante le sue performance impressionanti, DiffusionGemma presenta delle limitazioni che Google riconosce apertamente. Il modello è stato concepito per flussi di lavoro specifici e presenta compromessi significativi quando utilizzato in ambienti ad alta intensità come i servizi di cloud computing.

Non è ottimizzato per le situazioni in cui si richiede un alto volume di richieste al secondo (high-throughput environments).

La sua struttura a bassa latenza non rende efficiente il processo quando si ha bisogno di servire migliaia di query al secondo.

La qualità del testo generato è inferiore rispetto a quella offerta dal classico modello Gemma 4, progettato per applicazioni che richiedono una qualità estremamente elevata.

Nonostante queste limitazioni, gli esperti ritengono che con cicli aggiuntivi di affinamento, alcune di queste criticità potrebbero essere superate. Google sembra fiduciosa nel fatto che, nel momento giusto, l’efficienza di DiffusionGemma possa ridurre i costi operativi e i carichi di lavoro complessi.