Google ha annunciato il nuovo modello sperimentale DiffusionGemma, che non genera testo parola per parola, ma in blocchi di 256 token. Questo approccio si basa sulle tecniche di diffusione già utilizzate nella visione artificiale per produrre immagini da rumore, e permette di sfruttare meglio il potenziale delle GPU.

Tradizionalmente, i modelli del linguaggio generano un token alla volta, costruendo ciascun token a partire da quello precedente. DiffusionGemma, invece, inizia con 256 token casuali e li raffina in diverse fasi fino a ottenere un testo coerente. Questo nuovo metodo permette al modello sperimentale di Google di lavorare in modo molto più veloce sulle GPU dedicate — fino a quattro volte tanto —, grazie al processamento parallelo.

Il modello ha un totale di 26 miliardi di parametri, ma ad ogni passo ne utilizza solo una parte, per l’esattezza 3,8 miliardi. Questa architettura Mixture-of-Experts attiva solo i sottoreti necessari in base all'input fornito. Dopo la quantizzazione, il modello può essere eseguito su schede video di fascia alta da 18 GB di memoria grafica.

Fondata sull’architettura della famiglia Gemma-4, DiffusionGemma integra le tecnologie sperimentali studiate in precedenza da Google con Gemini Diffusion. Sebbene prodotta più velocemente, la qualità del testo non risulta perfetta, motivo per cui Google consiglia di utilizzare i modelli regolari Gemma-4 per output di alta qualità.

Prestazioni elevate grazie all’utilizzo ottimizzato della GPU

Nvidia attribuisce il vantaggio di velocità al miglior utilizzo della GPU. Mentre i modelli autoregressivi spesso sono limitati dalla velocità di trasferimento della memoria (memory-bound), DiffusionGemma diventa compute-bound — quindi limitato solo dalla potenza di calcolo — permettendo di saturare meglio la hardware.

Su una H100, Nvidia ha riportato circa 1.000 token al secondo, mentre su una GeForce RTX 5090, Google dichiara una velocità superiore a 700 token al secondo. Questa velocità risulta circa quattro volte maggiore rispetto ai modelli tradizionali in contesti locali di singolo utente.

L’effetto riscontrato è principalmente osservabile su dispositivi con GPU dedicate. Su architetture a memoria condivisa, come Apple Silicon, il vantaggio di DiffusionGemma non è evidente tanto da giustificare l’utilizzo.

Nella cloud serving — dove molti utenti lavorano in parallelo — i modelli autoregressivi riescono già a sfruttare al massimo la capacità di calcolo. In questi ambienti, Google indica che DiffusionGemma potrebbe essere addirittura più costoso da utilizzare.

Bassaa qualità, ma nuove potenzialità

Le performance elevate di DiffusionGemma si pagano in termini di qualità della generazione. Per compiti sensibili, Google raccomanda i modelli regolari Gemma 4. DiffusionGemma, invece, si presta bene per compiti sperimentali, dove è importante la velocità locale.

Il modello si rivela particolarmente adatto a task non lineari, ad esempio l’inserimento di testo all’interno di un paragrafo esistente, il completamento di lacune in codice informatico o la gestione di dati strutturati come sequenze di aminoacidi o rappresentazioni grafiche matematiche. Google citò come esempio il caso in cui DiffusionGemma, dopo un fine-tuning, si dimostrò in grado di completare un rompicapo Sudoku, una sfida difficile per i modelli autoregressivi visto che ogni cella dipende anche da quelle che vi seguiranno.

Il modello sperimentale ha completato correttamente due griglie di Sudoku 9×9 in circa 30 cicli di denoising. La sinistra grid è stata ritenuta corretta al 100%, mentre la destra mostra alcuni errori con l’indicazione grafica.

Disponibilità e supporto tecnico

I pesi del modello sono disponibili sul sito Hugging Face sotto licenza Apache 2.0. DiffusionGemma è compatibile con librerie di inferenza come Hugging Face Transformers e vLLM, che offre supporto integrato da Red Hat, e MLX.

Per l’addestramento, Google segnala iniziative come Hackable Diffusion (JAX-Toolkit di Google), Unsloth e il framework Nvidia NeMo. Il supporto per llama.cpp dovrebbe arrivare a seguito.

Nvidia ha già ottimizzato il modello per RTX 5090, 4090 e per le architetture Hopper e Blackwell, inclusi DGX Spark e DGX Station. È inoltre disponibile su Gemini Enterprise Agent Platform Model Garden e Nvidia NIM.

Google ha pubblicato una guida chiamata DiffusionGemma Developer Guide, e Maarten Grootendorst ha realizzato una guida visuale spiegativa del funzionamento del modello.

Gemini Diffusion: un primo esperimento

Con Gemini Diffusion, Google DeepMind aveva già sperimentato con un modello di diffusione per il testo. Allora, il modello raggiungeva velocità di 1.479 token al secondo, paragonabile ai risultati di Gemini 2.0 Flash-Lite.

Anche la startup Inception ha adottato un approccio parallelo con Mercury 2, un modello di ragionamento diffuzionale dichiarato il primo nel suo genere e lanciato nel 1° semestre 2026.

KI libera da hype: l’abbonamento THE-DECODER

THE-DECODER offre un servizio di notizie su intelligenza artificiale senza eccessi promozionali, curato da esperti. Tra i vantaggi per gli abbonati: accesso al Commentare i contenuti, newsletter settimanale, edizione annuale "KI Radar", sconti su eventi Pro KI e accesso gratuito all’archivio di informazioni dell’ultimo decennio su KI.

Fonte: Google | Nvidia