Google Lancia DiffusionGemma

Google ha presentato DiffusionGemma, un modello sperimentale di intelligenza artificiale che cambia la forma in cui si genera il testo. A differenza dei modelli attuali che costruiscono le risposte una parola per volta, questo invece lo fa su blocchi completi e, per questo motivo, è molto più veloce.

Secondo una pubblicazione sul blog di Google, DiffusionGemma raggiunge fino a quattro volte la velocità di Gemma 4 e altri modelli tradizionali autorregressivi. Su una GPU dedicata come la NVIDIA H100, il modello superava i 1000 token al secondo, corrispondenti a dieci volte la velocità di GPT-5.4 mini.

Il funzionamento tradizionale e il problema del token per token

Per capire che cosa rende speciale DiffusionGemma, bisogna partire dal concetto base. La maggior parte dei modelli di linguaggio funziona in maniera simile a una macchina da scrivere: generano un token alla volta, da sinistra verso destra, aspettando che ogni parola sia pronta prima di passare alla successiva.

Questo processo è efficiente negli ambienti cloud dove migliaia di richieste vengono accodate per utilizzare al massimo l’hardware. Tuttavia, se un modello è eseguito su un singolo computer, la forte GPU dedicata potrebbe trascorrere molto tempo in inattività, in attesa del prossimo token.

Come Funziona DiffusionGemma

DiffusionGemma rompe con questo schema tradizionale. Invece di generare i token in successione, produce un blocco intero di 256 token per volta. Questo significa che l’hardware riceve un lavoro molto più ampio ogni volta, sfruttando in maniera ottimale la potenza che ha a disposizione.

Il modello applica un processo di raffinamento iterativo, partendo da un blocco iniziale di testo casuale, che va perfezionando passo dopo passo. DiffusionGemma lavora in modo simile ai modelli visivi come DALL-E 3 e Midjourney, che trasformano rumore in immagini nitide.

Attenzione Bidirezionale

Un’altra funzione rilevante del modello è l’attenzione bidirezionale. Quando genera questi 256 token in parallelo, ciascun token può relazionarsi con tutti gli altri. Questo apre interessanti possibilità in compiti dove i modelli tradizionali hanno difficoltà, come il completamento di frammenti di codice, l’editing di testi complessi o il lavoro su strutture non lineari.

Dimensioni e Accessibilità

Per quanto riguarda le dimensioni, DiffusionGemma è un modello Mistura di Esperti di 26 miliardi di parametri totali, ma durante l’inferenza ne attiva solo 3,8 miliardi. In termini di hardware, il modello richiede circa 18 GB di memoria VRAM, il che lo rende compatibile con la consumer GPU più comune, come la RTX 5090 o la RTX 4090, rendendolo accessibile senza necessitare di infrastrutture server specializzate.

Quando Usarlo (e Quando No)

DiffusionGemma è già disponibile su Hugging Face con una licenza Apache 2.0, il che significa che è possibile scaricarlo e usarlo liberamente. Google sta lavorando con strumenti come vLLM, MLX e Hugging Face Transformers per semplificare l’integrazione. Il supporto ufficiale per llama.cpp arriverà presto.

Limiti da conoscere

Comunque, si deve essere onesti riguardo ai suoi limiti. DiffusionGemma prioritizza la velocità rispetto alla qualità finale, e in questo senso, Google stesso riconosce che i modelli Gemma 4 standard restano superiori se si parla di produttività. DiffusionGemma eccelle in ambienti locali per attività di editing in tempo reale, prototipazione veloce o sperimentazione con flussi non lineari.

Per l’entusiasta che già possiede una GPU decente e ama sperimentare con modelli sulla propria macchina, DiffusionGemma è una delle proposte più interessanti che siano mai apparse nell’anno in corso.