Oggi, Google DeepMind ha rilasciato DiffusionGemma — un modello sperimentale open source progettato per una generazione di testo estremamente rapida. NVIDIA ha ottimizzato DiffusionGemma per funzionare ancora più velocemente attraverso le GPU NVIDIA GeForce RTX, la piattaforma NVIDIA RTX PRO e i sistemi NVIDIA DGX Spark, dalla generazione locale ai dispositivi cloud.

Generazione parallela

Al contrario di modelli tradizionali che generano testo una parola alla volta, DiffusionGemma genera più parole in parallelo, producendo interi blocchi di testo, aprendo una nuova frontiera a bassa latenza per i carichi di lavoro di singoli utenti che ricercatori e appassionati di AI utilizzano quotidianamente.

Caratteristiche del nuovo modello

Le principali caratteristiche del modello DiffusionGemma includono:

Generazione Parallela: DiffusionGemma deserializza fino a 256 token in un singolo passo, invece di predirne uno alla volta.

Su Gemma 4: DiffusionGemma è costruito su Gemma 4, un modello di esperti mischiati con 26 miliardi di parametri che attiva appena 3,8 miliardi di parametri per passo, unendo un'intestazione di diffusione con l'architettura Google Gemma 4.

Performance fino a 4x più veloce: Il miglioramento significa una generazione testuale rapida dove solitamente i carichi di lavoro singoli utenti si rallentano — sull'hardware locale.

Accesso aperto e locale: DiffusionGemma ha licenza Apache 2.0 aperta e si esegue completamente su RTX e DGX Spark — niente servizi cloud, niente costi per token — con supporto immediato in Hugging Face Transformers, vLLM e Unsloth.

Un modo diverso per generare testo

Quasi tutti i modelli di linguaggio di grandi dimensioni (LLM) usati comunemente oggi sono autoregressivi — il che significa che generano un token alla volta, con ogni nuova parola dipendente da quella precedente. Quel processo sequenziale è ciò che rende intuitiva l’interazione con l’IA.

DiffusionGemma invece adotta un approccio diverso. Costruita sull'architettura Gemma 4 26B, genera testo come i modelli di diffusione generano immagini: iniziando dal rumore e migliorando l’intero blocco testuale in una volta sola. Ogni passo deserializza fino a 256 token in parallelo, invece di emetterne uno alla volta e aspettare prima di calcolarne il prossimo.

DiffusionGemma accelera su GPU NVIDIA

Generare un token alla volta è essenzialmente un problema legato alla memoria — un LLM tradizionale spende gran parte del suo tempo ad attendere la larghezza di banda della memoria, non a svolgere matematica, lasciando un sacco di capacità di calcolo inutilizzata. La diffusione capovolge l'equazione. Trarre fuori un blocco di token da 256 attraverso il transformer in parallelo è un lavoro a carico di calcolo — esattamente ciò per cui sono state progettate le GPU NVIDIA. I Tensor Cores NVIDIA accelerano la matematica parallela e il software CUDA consente al modello di girare in modo efficiente sin da subito senza dover affrontare il tuning. In breve, la struttura del modello gioca direttamente a favore dei punti forti delle GPU.

Questo si dimostra nei numeri. DiffusionGemma fornisce 1.000 token/sec su una singola GPU H100 Tensor Core, 150 token/sec su DGX Spark e fino a 2.000 token/sec su DGX Station - circa 4 volte più veloce rispetto a un modello equivalente autoregressivo che funziona con la stessa politica del singolo utente. Questo vantaggio si mantiene su tutta la gamma di prodotti NVIDIA, in esecuzione:

Su NVIDIA DGX Spark desktop: Alimentato dal NVIDIA GB10 Grace Blackwell Superchip con 128GB di memoria unificata, con il stack NVIDIA AI preinstallato pronto per prototipare, finire e workflow completamente autonomi in locale.

Su workstation NVIDIA RTX PRO 6000: Offre ai programmatori, ricercatori e professionisti dell’AI la capacità di eseguire localmente la generazione a bassa latenza e cicli di agenti come parte di una pipeline professionale.

Su DGX Station: Offre la più alta velocità locale con 2.000 token/sec per la generazione di testo con bassa latenza e cicli di agente, grazie a una memoria coerente da 748GB.

Su GeForce RTX GPU: Supporto per llama.cpp in arrivo a breve.

Come iniziare a testare localmente

Il modo più veloce per iniziare a testare e prototipare il modello è attraverso Hugging Face Transformers, che esegue DiffusionGemma su una GeForce RTX 5090 o su DGX Spark. Per inferenze a più alto throughput, vLLM offre supporto al server da subito.

Per adattare il modello a un compito o dominio specifici, la finetuning è disponibile attraverso Unsloth e il framework NVIDIA NeMo, con playbook DGX Spark già creati per far partire rapidamente un ambiente locale. Consulta i playbook vLLM per DGX Spark, RTX PRO e DGX Station.

Prova DiffusionGemma su Hugging Face o testalo gratuitamente utilizzando le interfacce di programmazione di NVIDIA all’indirizzo build.nvidia.com. Approfondisci l’architettura e il modello di distribuzione locale leggendo il blogger tecnico NVIDIA e l’announcement Google DeepMind.

Alcune novità recenti dalla NVIDIA RTX AI Garage

SANA-WM, un modello open source sviluppato da ricercatori NVIDIA, trasforma un'unica immagine e un percorso della camera in un video di un minuto a 720p con controllo preciso a sei gradi di libertà. La versione distillata, con solo 2,6 miliardi di parametri, genera un clip intero da 60 secondi in 34 secondi su un'unica GPU NVIDIA GeForce RTX 5090 utilizzando il formato NVFP4, offrendo un throughput fino a 36 volte maggiore rispetto ai modelli aperti simili, eseguendo il tutto su una singola GPU. Leggi l'articolo.

Crea agenti per Windows con uno strumento completo: NVIDIA e Microsoft hanno lanciato un agente sandbox nativo con Windows, con Microsoft Exec Containers ed il runtime NVIDIA OpenShell, insieme a performance di inferenza agentesche fino a 2 volte più rapide, e supporto nativo per Agenti Hermes su sistema operativo Windows.

DGX Spark da imballaggio a funzionare in pochi minuti: Un’installazione semplificata del software NVIDIA NemoClaw permette ai programmatori di ot