Con i limiti di utilizzo su Claude, Gemini e ChatGPT, sempre più programmatori stanno passando a modelli che possano essere eseguiti direttamente sul proprio computer. Anche se non raggiungono livelli come Opus 4.8 o Gemini 3.1 Pro, recentemente ci sono stati progressi significativi. Un esempio è Gemma 4 12B, un modello open source progettato per generare, completare e correggere codice, oltre a supportare funzioni legate al ragionamento.

Gemma 4 12B rappresenta una nuova versione del modello Gemma 4 e può essere eseguita su qualsiasi computer con 16 GB di RAM o VRAM. In termini di specifiche si tratta di un modello multilingue con 12.000 miliardi di parametri e una finestra di contesto di fino a 256.000 token. Questo rende il modello molto utile per chi lavora su progetti con tantissimi file o documentazione estesa, poiché gestisce il tutto senza problemi.

Una delle peculiarità a cui Google va orgoglioso è il fatto che Gemma 4 12B non richiede encoder separati. Non necessita di moduli distinti per elaborare immagini o audio, ma gestisce tutto attraverso il backbone principale del modello. Questo rende il modello molto più veloce e riduce la latenza e il consumo di risorse.

Se sei interessato ad usarlo come alternativa a Claude Code, questa variante di Gemma 4 si rivela molto potente. Nella misurazione del benchmark LiveCodeBench, Gemma 4 12B ha ottenuto un balzo impressionante: da 29,1% a 80,0%. Inoltre, nei test su Codeforces ELO ha raggiunto i 2.150 punti, livello che lo colloca fra gli sviluppatori esperti.

Come installare e utilizzare Gemma 4 12B per lo sviluppo di software

Per far funzionare Gemma 4 12B con 8 GB di RAM, consigliamo la quantizzazione a 4 bit, ma 16 GB assicurano prestazioni ottimali. Questo significa che puoi eseguirlo su qualsiasi Mac con chip Apple Silicon da 16 GB di RAM unificata, oppure su un PC con 16 GB di RAM o una GPU NVIDIA da 16 GB VRAM (ad esempio una RTX 3090 o meglio).

Se non sei esperto ma vuoi provarlo sul tuo computer, puoi seguire la guida che abbiamo pubblicato su come installare LM Studio pochi giorni fa. Questo strumento è pensato per utenti meno tecnici.

Se invece sei un developer, Ollama è la scelta ideale: si integra bene con VS Code. Puoi anche utilizzarlo insieme a OpenCode, l’interfaccia in terminale dove puoi lavorare con il modello come un assistente codificatore. Ollama gestisce il download del modello e lo esegue con un unico comando. Devi solo scaricare il software da ollama.com.

Configurazione iniziale di Gemma 4 12B

Una volta configurato, apri il terminale ed esegui il comando:

ollama run gemma4:12b

Ollama scaricherà i pesi del modello e farà girare un server locale compatibile con l'API. Ciò vuol dire che puoi collegarlo a qualsiasi strumento preferisci, come Continue (estensione per VS Code), Aider o qualsiasi client in grado di utilizzare endpoint API.

Una volta avviato, installa Continue (estensione VS Code) e indica il punto finale a http://localhost:11434. Da qui puoi chiedere al modello di completare codice, spiegare funzioni, riorganizzare blocchi o generare test direttamente nell'editor, rimanendo nel tuo ambiente di lavoro.

Per usare Gemma 4 12B con OpenCode, apri o crea un file ~/.config/opencode/opencode.jsonc e aggiungi:

{
"provider": {
"ollama": {
"npm": "@ai-sdk/openai-compatible",
"options": {
"baseURL": "http://localhost:11434/v1"
},
"models": {
"gemma4:12b": {}
}
}
}
}

Inoltre, aggiungi un elemento placeholder nel file ~/.local/share/opencode/auth.json:

{
"ollama": {
"type": "api",
"key": "ollama"
}
}

Quando termini, riavvia OpenCode, esegui /models e cambia il modello selezionando ollama/gemma4:12b.

Prestazioni su dispositivi locali

Una considerazione importante è che Ollama memorizza il modello in cache per massimo cinque minuti. Per non ricaricare ogni volta dopo quel periodo, aggiungi la seguente riga al tuo file ~/.zshrc:

OLLAMAKEEPALIVE="-1"

A confronto con Claude Code

Sebbene Claude Code sia un’app robusta, richiede una connessione alla rete e presenta costi mensili da sostenere, che dipendono dalla complessità dei progetti. Al contrario, Gemma 4 12B non genera alcun costo di token e funziona esclusivamente su dispositivi locali, offrendo una risoluzione economica e privata. Il fatto che non venga mai caricato alcun dato esterno online lo rende una scelta ideale per progetti protetti da NDA o per il codice proprietario.

Sebbene Gemma 4 12B abbia molti punti di forza, esiste una sua limitazione: in attività che richiedono ristrutturazioni profonde di progetti, decisioni architetturali complesse o interazioni estese con strumenti esterni, i modelli in cloud come Claude Sonnet continuano a rappresentare la soluzione ottimale.

Puoi comunque utilizzare un approccio ibrido: lascia che Gemma 4 12B si occupa del 60-70% delle attività quotidiane (come codice boilerplate, test o spiegazione di errori), e riserva i compiti complessi a modelli come Claude Code. Questo permette di ridurre notevolmente i costi API senza compromettere la qualità quando serve.