E se potessi avere la tua intelligenza artificiale, 100% locale, senza internet e completamente privata? Questa guida ti mostrerà come eseguire un modello linguistico di grandi dimensioni (LLM) sul tuo PC o Mac, anche se non sei un esperto.
Sapevi che è possibile avere il tuo "ChatGPT" personale, che gira direttamente sul tuo computer senza dipendere da alcun servizio online? I grandi modelli linguistici, o LLM (Large Language Models), non sono più un'esclusiva dei giganti del cloud. Oggi, con un PC o Mac adeguato e qualche piccolo trucco, puoi installarli comodamente a casa tua.
Perché dovresti farlo? Per mantenere i tuoi dati privati, evitare costosi abbonamenti o semplicemente per "smanettare" con un'IA a tuo piacimento. In questa guida, ti spiegheremo tutto, passo dopo passo, per permetterti di prendere il controllo della tua esperienza con l'intelligenza artificiale.
Che cos'è un LLM? È come ChatGPT?
Un LLM, o Large Language Model (grande modello linguistico in italiano), è un'intelligenza artificiale addestrata su montagne di testi per comprendere e generare il linguaggio umano. In pratica, significa che può conversare, rispondere a domande, scrivere testi o persino programmare, un po' come un super assistente virtuale. Il principio è che gli si fornisce un'istruzione (un prompt), e lui utilizza i suoi miliardi di parametri, una sorta di connessioni apprese, per produrre una risposta coerente. ChatGPT è un esempio celebre di LLM, creato da OpenAI, ma ce ne sono molti altri, come LLaMA, Mistral o DeepSeek, spesso gratuiti e open-source.
Per approfondire: Che cos'è un LLM? Come funzionano i motori di ChatGPT, Gemini e altri?
Allora, è esattamente come ChatGPT? Non proprio. ChatGPT è una versione ultra-rifinita e ottimizzata di un LLM, con dei guardrail (dei limiti) per rimanere sicuro e un'interfaccia già pronta nel cloud. Gli LLM che possiamo installare in locale, invece, sono spesso più "grezzi": dipendono da come li configuri e dal tuo hardware (PC o Mac). Possono essere altrettanto potenti, se non addirittura personalizzabili al massimo, potendo addestrarli sui tuoi testi, ma non sempre hanno la stessa rifinitura o la stessa facilità di accesso di ChatGPT. Tuttavia, puoi avere un'interfaccia altrettanto intuitiva quanto ChatGPT, dipende dalle tue esigenze e dal tuo impegno nella configurazione.
Infine, parliamo anche degli agenti IA. Questi agenti servono principalmente ad automatizzare compiti autonomi sulla tua macchina, elaborando i tuoi dati privati senza inviarli sul cloud, per una privacy massima. Analizzano, decidono e agiscono autonomamente (su file, codice, web), con latenza nulla e zero costi ricorrenti.
Perché installare un LLM in locale sul proprio PC?
Iniziamo dal vantaggio più grande: la privacy. Quando utilizzi un'IA online, le tue conversazioni spesso finiscono su server lontani. Diverse interruzioni di servizio di ChatGPT, Grok o Gemini si sono verificate, questi servizi sono lungi dall'essere disponibili al 100% e soprattutto sicuri al 100%. Un'interruzione nel 2023 di OpenAI ha dimostrato che le cronologie degli utenti potevano essere divulgate per errore – non molto rassicurante se si tratta di dati sensibili. Con un LLM locale, tutto rimane sul tuo computer. Nulla esce dal tuo PC, punto e basta. Questo è un argomento di peso per le aziende o per chi è particolarmente attento alla propria privacy.
Poi, c'è l'autonomia. Non hai bisogno di Internet per far girare la tua IA casalinga. Che tu sia in piena campagna o su un aereo, sarà sempre pronta a risponderti. E per quanto riguarda la velocità, se la tua macchina è ben equipaggiata, eviti i continui scambi di dati in rete che a volte rallentano i servizi cloud. Come vedrai, anche su un MacBook M1 ben ottimizzato, un LLM locale supera un PC classico in termini di reattività. Aggiungi a questo l'assenza di interruzioni dei server o di quote imposte da un fornitore, e sarai libero come l'aria.
E i costi, in tutto questo? A prima vista, è necessario investire un po' in hardware (ne parleremo più avanti), ma a lungo termine, è spesso più conveniente che pagare un'API cloud per parola generata. Nessuna fattura a sorpresa né aumenti di prezzo imprevisti. Una volta che il tuo PC o la tua GPU sono pronti, la tua IA ti costa solo qualche watt di elettricità, un investimento minimo rispetto ai benefici offerti.
Infine, il top del top: puoi personalizzare il tuo modello. Cambiare i suoi parametri, addestrarlo sui tuoi testi, persino collegarlo alle tue applicazioni personali – con un LLM locale, sei tu al comando. Questa flessibilità apre scenari illimitati per usi specifici e ottimizzati.
Ma attenzione, non è magia. Serve una macchina che regga il carico, e l'installazione può intimidire i principianti. I modelli più enormi, quelli con centinaia di miliardi di parametri, rimangono fuori dalla portata dei PC classici – lì si parla di supercomputer. Detto questo, per usi comuni (chat, redazione, codice), i modelli open-source più leggeri fanno ampiamente il loro dovere, offrendo prestazioni sorprendenti per la maggior parte delle esigenze quotidiane.
Quali modelli di LLM scegliere?
Sul fronte dei modelli, c'è molta scelta. Ecco una tabella riassuntiva di alcuni dei più popolari e performanti:
| Modello | Uso principale | RAM | Vitesse (tokens/s) |
|---|---|---|---|
| Qwen3 14B | Codifica, multilingue | 10 GB | 35+ |
| DeepSeek V3.2 14B | Matematica, debug | 9 GB | 40+ |
| Mistral Large 3 / Ministral 14B | Chat creativo, ragionamento | 12 GB | 30+ |
| Llama 4 70B (MoE) | Chat generale, contesti lunghi | 40 GB | 25+ |
| GLM-4.7 / GLM-5 | Ragionamento avanzato | 18 GB | 28+ |
| Gemma 4 E2B/E4B (Google) | Edge/mobile, istruzioni | 3-5 GB | 80+ |
| Gemma 4 26B MoE | Agentic/codifica locale | 15 GB | 40+ |
| Phi-4 14B (Microsoft) | Codifica leggera, generale | 8 GB | 50+ |
| Gemma 3 9B (Google) | Chat rapida, multilingue | 6 GB | 60+ |
| Qwen3 4B | Istruzioni basilari | 3 GB | 80+ |
| Llama 4 8B | Uso mobile/leggero | 5 GB | 70+ |
| Mistral Nemo 12B | Ragionamento compatto | 7 GB | 45+ |
Prendiamo DeepSeek V3.2 (successore di R1, previsto per inizio 2026), per esempio. Questo modello open-source è eccezionale con le sue versioni da 14B e 32B di parametri, estremamente forte nel ragionamento, nella matematica e nella generazione di codice; la versione 14B funziona perfettamente con 9 GB di VRAM.
Un'altra star è Llama 4, creato da Meta. Estremamente popolare grazie alla sua flessibilità MoE (70B attivi su oltre 400B totali) e alla sua licenza gratuita anche per uso professionale; la versione 8B è ideale per iniziare, mentre la 70B è per carichi di lavoro pesanti.
C'è anche Mistral Large 3 (francese), con 123B parametri MoE. Batte i modelli proprietari in diversi benchmark di codifica e multilingue, pur rimanendo efficiente (15 GB di VRAM in formato Q4). È ideale con schede grafiche RTX 30/40-series con almeno 12 GB di VRAM.
Mistral Small 3.1, l'ultimo di Mistral AI (uscito nel primo trimestre 2026), è progettato per essere leggero e potente con 24B di parametri. Compete con GPT-4o mini in chat e codifica, e funziona su PC/Mac con 12 GB di VRAM.
Google ha anche il suo LLM open-source, chiamato Gemma, una famiglia di modelli ottimizzati per l'esecuzione locale. Gemma 4 è progettato per funzionare su macchine molto diverse, dai Mac M1 a M5 ai PC Nvidia RTX/AMD Radeon, con un contesto di 128k+ e supporto Ollama nativo.
La lista degli LLM open-source si allunga ogni mese. Menzione speciale per GPT4All, che raggruppa oltre 2000 modelli pronti tramite un'interfaccia unificata: DeepSeek V3.2, Llama 4, Mistral, Gemma 4, Qwen3, Phi-4 e molti altri – perfetto per testare rapidamente e trovare il modello più adatto alle tue esigenze.
In sintesi, hai l'imbarazzo della scelta, dal piccolo modello ultra-leggero da eseguire su CPU fino al grande modello quasi equivalente a ChatGPT, se disponi della macchina adeguata. L'importante è selezionare quello che corrisponde alle tue esigenze (lingua, tipo di attività, prestazioni) e al tuo hardware.
Come attrezzarsi?
A livello hardware, non hai bisogno di un supercomputer, anche se questi ultimi stanno diventando sempre più personali, con quello che Nvidia e AMD stanno lanciando quest'anno... e persino un Mac Studio.
Per approfondire: Ecco le prime due macchine di Nvidia per fare IA a casa: PC che sono supercomputer personali
Un PC con un processore recente (ad esempio Intel i7 o AMD Ryzen 7), almeno 16 GB di RAM e una scheda grafica NVIDIA (8 GB di VRAM minima) è sufficiente. Se hai una GPU RTX 3060 o superiore, è l'ideale – grazie a CUDA, tutto viene accelerato in modo significativo.
Si noti che una GPU non è obbligatoria, ma è fortemente raccomandata per beneficiare di prestazioni interattive. Per gli LLM, la memoria video (VRAM) è fondamentale: deve essere in grado di contenere almeno una parte dei parametri del modello. La dimensione della finestra di contesto (memoria della conversazione) dipende anch'essa dalla VRAM disponibile; è per questo che 8 GB di VRAM è il minimo indispensabile per un'esperienza fluida e reattiva.