Il team Google AI, in collaborazione con ricercatori di Google DeepMind, ha appena rilasciato DiffusionGemma, un modello open source sperimentale per la generazione del testo. A differenza dei metodi autoregressivi tradizionali, DiffusionGemma utilizza la diffusion text generation con un'architettura basata sulla parallela elaborazione del testo, ottenendo una velocità fino a 4 volte maggiore rispetto ai modelli standard.

Che così è DiffusionGemma

DiffusionGemma è un modello Mixture of Experts (MoE) da 26M. Attiva solo 3,8 miliardi di parametri durante l'inferenza, costruendo su un'architettura Gemma 4 denominata 26B-A4B. Un head di diffusione è integrato su questa base.

Il modello è multimodale, in grado di elaborare testi, immagini e video in modo intercambiabile; produce output in testo. Include una finestra di contesto di 256K token e supporta più di 140 lingue.

Quando quantizzato, il modello occupa circa 18 GB di VRAM, rendendolo compatibile con GPU da consumo di fascia alta. Su una NVIDIA H100 singola, raggiunge oltre 1000 token al secondo; mentre su un modello NVIDIA GeForce RTX 5090, arriva a 700 token al secondo.

Google chiarisce esplicitamente il compromesso: DiffusionGemma priorizza velocità e generazione parallela; la qualità complessiva degli output è inferiore rispetto a standard Gemma 4. Per i task di massima qualità, Google consiglia l’utilizzo di autoregressive Gemma 4.

Come funziona la text diffusion

La text diffusion prende ispirazione dai generatori di immagini AI, che iniziano con rumore visivo e lo raffinano iterativamente. DiffusionGemma adotta lo stesso schema per la generazione del testo.

Il processo avanza in tre fasi fondamentali. Prima, il modello inizia con un’area di token di segnaposto casuali. In secondo luogo, esegue numerosi passaggi su questa area bloccando i token di maggiore confidenza e usando il loro contesto per proseguire. Terzo, il testo si cristallizza in output finale.

Google ha battezzato il meccanismo fondamentale "Uniform State Diffusion", dove i token ad alta confidenza aiutano a risolvere altre posizioni durante il denoising. Il testo complessivo diventa definitivo passo dopo passo.

In pratica, il modello esegue il denoising di una tela da 256 token in parallelo, generandoci circa 15-20 token per passo in avanti. Questa parallela computazione spiega i notevoli vantaggi di velocità.

La tecnica utilizza l'attenzione bidirezionale durante il denoising; ogni token della tela può interagire con gli altri. Questo rompe il modello unidirezionale tipico dei modelli standard, i quali vedono solo i token precedenti.

La bidirezionalità permette una correzione in tempo reale. Se la confidenza di un token cala, il campionatore ha la capacità di renoise, sostituendolo in un passo successivo. I modelli standard sono disabilitati in questo aspetto, fissando ogni token una volta.

L'architettura

L’advancemento principale riguarda l'utilizzo hardware. Per l'inferenza su GPU locale, il collo di bottiglia principale è la larghezza di banda della memoria. I modelli autoregressivi riconoscono i pesi in memoria per ogni token.

DiffusionGemma invece sposta il collo di bottiglia verso la parte di calcolo. Il modello elabora e perfeziona insieme una tela di 256 token, fornendo alle GPU tensor core operazioni parallele estese.

Il modello alterna due modi di attenzione durante l'inferenza: Prefill utilizza attention causale per introdurre l’input e completare la KV cache. Denoising usa l’attenzione bidirezionale per raffinare la tela.

Per output più lunghi, DiffusionGemma richiama il Block Autoregressive Diffusion. Dopo il denoising completo di un blocco da 256 token, il modello lo registra nella KV cache. Quindi inizia una tela fresca condizionata dalla storia antecedente. Questo accoppiamento fornisce velocità parallela con stabilità sequenziale.

L’architettura condivide lo stesso backbone della 26B A4B Gemma 4. Gli sviluppatori hanno bisogno soltanto di implementare un passo di denoising. Questo rende più semplice l’integrazione nei framework esistenti.

Un chiaro esempio riguarda il problema Sudoku presentato da Google nelled guide per sviluppatori. I modelli autoregressivi hanno difficoltà con schemi vincolati a molteplici variabili. Senza fine-tuning, il modello DiffusionGemma ha una correttezza di circa 0%. Dop una ricetta di fine-tuning supervisionata, la correttezza arriva al 80%.

Demo interattiva: decodifica parallela di DiffusionGemma

Di seguito, un visualizzatore interattivo mostra come DiffusionGemma decodifica, rispetto a un modello standard. Scegli l’opzione da confrontare e avvia. In modalità Autoregressive, i token si completano uno alla volta, da sinistra a destra, ogni volta in un passo in avanti. In modalità Diffusion, il modello inizia da una tela di token segnaposto, in parallelo.

Nell’animaizione sono mostrati brevi passaggi di renoise dove un token con bassa confidenza è reimpostato; rappresenta un esempio di autocorrezione in cui un modello autoregressivo non potrebbe intervenire una volta che un token è fissato. Nota che l’animazione è concettuale e non rappresenta l'output in tempo reale.

Usi pratici di DiffusionGemma

DiffusionGemma viene indicata per un set specifico di task, non per il livello di produzione generale. Google ed esperti esterni mettono in evidenza queste applicazioni pratiche:

Editing inline e infilling codice: L'attenzione bidirezionale adatta bene le strutture non-lineari

Iterazione rapida: La bassa latenza locale sostiene i cicli di sviluppo interattivi per utenti singoli

Analisi documentale a lungo contesto: La finestra 256K supporta grandi input

OCR e parsing documentale: L’input multimodale gestisce immagini e documenti

Codifica e agenti: Unsloth elenca queste attività come sostenute

Generazione vincolata: Problemi come Sudoku, grafici matematici e sequenze di acidi

Un avvertimento accompagna tutti i vantaggi: l’aumento di velocità è progettato per l’inferenza locale a bassa concorrenza. In servizi cloud ad alto carico di query, i modelli autoregressivi saturano in modo efficace la capacità di calcolo.