L'intelligenza artificiale (IA) generativa è diventata una tecnologia sempre più accessibile e potente, trasformando il modo in cui interagiamo con i computer e creiamo contenuti. Mentre molti di noi sono abituati a utilizzare strumenti di IA generativa basati su cloud attraverso piattaforme proprietarie come Copilot di Microsoft, ChatGPT di OpenAI, Mistral, Grok di xAI, Claude di Anthropic o Gemini di Google, queste soluzioni spesso comportano costi e sono soggette a specifiche condizioni di servizio, con modalità gratuite che presentano notevoli limitazioni d'uso.
A differenza dell'IA predittiva, che da decenni è integrata in vari processi aziendali e di ricerca, l'IA generativa è una novità relativamente recente per gli utenti finali. L'IA predittiva è un campo dell'intelligenza artificiale che si concentra sulla creazione di sistemi in grado di fare previsioni accurate su eventi futuri o risultati sconosciuti basandosi su dati storici e modelli statistici. Il suo utilizzo implica una serie di passaggi metodologici ben definiti: innanzitutto, è necessario acquisire i dati pertinenti che saranno elaborati dagli strumenti di IA. Successivamente, questi dati devono essere "puliti", ovvero depurati da errori, incongruenze o valori mancanti, e poi ordinati e formattati in modo appropriato per essere digeribili dal modello. Solo a questo punto si possono effettuare le interrogazioni opportune attraverso strumenti specializzati, programmi personalizzati o altri metodi sviluppati ad hoc.

Didascalia: Fonte M.IA su Linkedin.
Questi sistemi, basati su algoritmi sofisticati, sono in grado di analizzare vasti set di informazioni, rivelando correlazioni e tendenze che sarebbero impercettibili all'occhio umano. Si pensi, ad esempio, all'analisi di immagini mediche per la diagnosi precoce di malattie, dove l'IA predittiva può identificare anomalie con una precisione sorprendente. Oppure, nel settore energetico, alla rilevazione di complessi pattern in enormi volumi di dati geologici, permettendo di individuare con maggiore efficacia potenziali giacimenti petroliferi. Nel contesto del commercio elettronico, la sua applicazione è forse la più familiare: analizzando i nostri acquisti precedenti, le ricerche effettuate, e persino informazioni sul nostro lavoro, hobby o altri dettagli condivisi su diverse piattaforme, comprese le reti sociali, l'IA predice i nostri gusti e ci propone prodotti o servizi in linea con le nostre preferenze, personalizzando l'esperienza dell'utente a un livello senza precedenti.
Questa tipologia di IA è costruita su tecnologie fondamentali come il machine learning e il deep learning. Queste discipline permettono ai sistemi di apprendere autonomamente dai dati e di identificare relazioni complesse a partire da processi di addestramento preliminari. L'obiettivo è quello di dotare l'IA della capacità di prevedere schemi, riconoscere pattern esistenti o classificare nuove informazioni con elevata accuratezza. L'addestramento intensivo su grandi volumi di dati consente a questi modelli di generalizzare e di applicare le conoscenze acquisite a nuovi scenari, rendendo l'IA predittiva uno strumento indispensabile in numerosi settori.
La IA generativa: il linguaggio è la chiave
Nell'ambito dell'IA generativa, si utilizzano anch'essi metodi statistici e algoritmi propri di tecnologie avanzate come il machine learning e il deep learning. Tuttavia, l'obiettivo primario qui non è la previsione o la classificazione, bensì la generazione di nuove inferenze. Queste inferenze possono assumere diverse forme creative e complesse, spaziando dalla produzione di testo coerente e stilisticamente appropriato alla creazione di immagini e video realistici, dalla generazione di codice di programmazione funzionale alla composizione di musica originale o alla sintesi vocale altamente naturale.
Per la generazione di immagini e video, l'approccio è leggermente diverso. Nella maggior parte dei casi, si impiegano i cosiddetti modelli di diffusione. Questi modelli sono particolarmente efficaci nel creare immagini di alta qualità e nel trasformare dati casuali in contenuti visivi strutturati. Spesso, i modelli di diffusione vengono combinati con i Large Language Models (LLM) nel processo di identificazione del tipo di immagine o video desiderato o nell'elaborazione delle istruzioni dettagliate (i "prompt") che l'utente fornisce ai modelli durante il flusso di lavoro, garantendo così una maggiore pertinenza e accuratezza nel risultato finale.

Didascalia: Fonte keep coding.
Anche nei Large Language Models (LLM) si sfrutta l'IA predittiva, ma con un fine specifico e di fondamentale importanza: quello di calcolare i miliardi di parametri che costituiscono questi complessi modelli di linguaggio. Tali parametri giocano un ruolo diretto e decisivo nel processo di generazione delle inferenze, determinando la qualità e la coerenza del testo prodotto. Un elemento chiave in questo processo sono i token, le unità basilari di elaborazione del linguaggio utilizzate dagli LLM. Ogni token è associato a vettori multidimensionali, spesso con migliaia di dimensioni, che ne codificano il "significato" intrinseco. I valori di questi vettori vengono calcolati durante la fase di addestramento del modello e sono strettamente correlati ai diversi significati o accezioni che i token possono assumere in contesti differenti.
È proprio attraverso la manipolazione e l'analisi di questi vettori, elaborati dai cosiddetti transformers mediante l'innovativo meccanismo di "attenzione", che è possibile definire con una precisione straordinaria il significato dei "prompt" forniti dall'utente. Questo meccanismo consente al modello di differenziare sottilmente le sfumature semantiche, distinguendo, ad esempio, tra il significato di "reina" (regina) inteso come "era la regina della festa" (in senso figurato) e quello di "reina" come "era la regina di Spagna" (in senso letterale). Questa capacità di comprensione contestuale è essenziale per generare risposte pertinenti e accurate.

Didascalia: Fonte Medium.
A partire da questa differenziazione contestuale, i valori numerici dei diversi token vengono delimitati specificamente al contesto del prompt. Questo passaggio è cruciale per avviare il processo di calcolo dei token che andranno a comporre l'inferenza finale. In tale processo, intervengono operazioni complesse con matrici e vettori di dimensioni enormi, che sono le stesse che vengono eseguite nei centri dati dedicati all'IA generativa. In questi ambienti ad alte prestazioni, le schede grafiche di NVIDIA, predominanti sul mercato attuale, svolgono un ruolo fondamentale, consentendo che questi calcoli intensivi vengano realizzati in tempi estremamente ridotti, rendendo possibile l'elaborazione quasi istantanea di risposte anche a prompt complessi.
I token o i mattoni dell'IA generativa
Nonostante i rapidi progressi, l'IA generativa presenta ancora alcune limitazioni intrinseche, che gli sviluppatori cercano di superare attraverso l'implementazione di diverse tecniche e "trucchi" ingegnosi. La limitazione più significativa risiede nell'incapacità dei Large Language Models (LLM) di ricalcolare i propri parametri in tempo reale. Ciò significa che i modelli non possono aggiornarsi autonomamente con dati recenti su argomenti in continua evoluzione. Per esempio, se un LLM è stato addestrato alcuni mesi fa, le inferenze generate riguardo ai processori non potranno includere i modelli più recenti presentati sul mercato dopo la data di addestramento.
Analogamente, nel caso di aziende che operano con dati non di dominio pubblico, le inferenze generate dal modello non conterranno informazioni rilevanti o veritiere, poiché il modello non ha accesso a tali archivi privati. Tuttavia, è importante sottolineare che per le interrogazioni riguardanti dati storici, gli LLM si dimostrano estremamente utili. Allo stesso modo, eccellono nella generazione di inferenze destinate ad analizzare tendenze o stili di un testo, o a eseguire correzioni grammaticali e ortografiche, ambiti in cui la loro base di conoscenza pre-esistente è più che sufficiente.

Didascalia: NVIDIA blog.
Un'altra importante limitazione sono le cosiddette "allucinazioni", che consistono sostanzialmente in inferenze decontestualizzate, ricche di errori, dati "inventati" o completamente privi di senso. I Large Language Models (LLM) calcolano le inferenze attraverso complesse operazioni matematiche. Se, ad esempio, durante questo processo di calcolo si verificano deviazioni nella fase di identificazione del contesto del prompt, le inferenze generate possono discostarsi considerevolmente da ciò che considereremmo una risposta coerente e attendibile. Questo problema può portare a risposte che, pur sembrando plausibili a una prima occhiata, sono in realtà false o fuorvianti.
Oltre a queste problematiche intrinseche, esistono anche fattori che complicano l'utilizzo degli LLM, come il considerevole costo computazionale associato alla generazione delle inferenze. Questo costo è dovuto all'interazione di operazioni algebriche che coinvolgono vettori e matrici di dimensioni molto grandi, richiedendo una notevole quantità di risorse di calcolo e di energia, specialmente per modelli di grandi dimensioni o per carichi di lavoro intensivi.
Superare le limitazioni: RAG e MoE
Per affrontare e superare queste limitazioni, sono state sviluppate e implementate diverse tecniche avanzate, tra cui il RAG (Retrieval Augmented Generation o generazione aumentata per recupero) e il MoE (Mixture of Experts), oltre a vari meccanismi di verifica delle inferenze. Queste soluzioni mirano a migliorare l'accuratezza, la pertinenza e l'efficienza dei modelli di IA generativa.
La tecnica RAG consente l'utilizzo di dati aggiornati e specifici nella generazione di inferenze, mitigando il problema delle informazioni obsolete. Il processo si svolge in più fasi: dopo aver elaborato il prompt (ad esempio, una domanda sui processori di ultima generazione), invece di generare direttamente la risposta basandosi solo sulla sua conoscenza interna pre-esistente, il modello cerca attivamente fonti attuali. Queste fonti possono includere pagine web, database in tempo reale o repository contenenti documenti recenti sull'argomento. A partire da queste informazioni recuperate e verificate, il modello crea un nuovo prompt interno arricchito con i dati rilevanti e più aggiornati. Successivamente, questi nuovi dati vengono parzialmente integrati e incorporati nella risposta finale. Questa è una soluzione estremamente ingegnosa che permette agli LLM di fornire informazioni sempre attuali e pertinenti, superando una delle loro principali vulnerabilità.

Didascalia: Fonte obot.
Tuttavia, l'implementazione del RAG comporta un compromesso. Sebbene risolva il problema dell'attualità dei dati, questa metodologia accresce in modo significativo il numero di token che devono essere processati. Un maggiore volume di token implica un incremento dei calcoli computazionali necessari, il che si traduce in un aumento dei costi di generazione. Questi costi non si manifestano solo in termini di consumo energetico, ma anche nell'esigenza di infrastrutture per centri dati più potenti e costose, rendendo l'IA generativa basata su RAG più esigente dal punto di vista delle risorse.
La tecnica MoE (Mixture of Experts) rappresenta un'altra strategia avanzata per ottimizzare le prestazioni e l'efficienza dei Large Language Models. Invece di avere un unico modello monolitico che tenta di gestire tutti i tipi di compiti e dati, il MoE divide internamente gli LLM in diversi "esperti" specializzati. Ciascuno di questi esperti è addestrato in modo specifico per la generazione di particolari tipi di inferenze o per l'elaborazione di determinati domini di conoscenza. Quando un prompt viene fornito al modello MoE, i token vengono classificati in base alla loro natura e complessità. Successivamente, vengono reindirizzati in modo intelligente all'esperto più adatto per la loro elaborazione. Questo approccio modulare permette al sistema di assegnare le risorse di calcolo in modo più efficiente, attivando solo le parti del modello necessarie per un determinato compito. Ne consegue una maggiore velocità di elaborazione e una riduzione del consumo di risorse rispetto a un modello unico che dovrebbe attivare l'intera sua struttura per ogni richiesta. L'efficienza migliora notevolmente, specialmente per compiti eterogenei che richiedono competenze diverse.
Queste innovazioni, RAG e MoE, sono fondamentali per rendere l'IA generativa non solo più potente e accurata, ma anche più pratica e sostenibile per una vasta gamma di applicazioni, dall'assistenza clienti alla creazione di contenuti, dalla ricerca scientifica all'analisi di mercato, aprendo nuove frontiere per l'interazione uomo-macchina e la produttività.