L'intelligenza artificiale (IA) non è affatto un fenomeno nuovo. Fin dagli anni '50, scienziati e ricercatori hanno dedicato i loro sforzi allo studio di sistemi informatici capaci di risolvere una vasta gamma di compiti complessi, basandosi su algoritmi sofisticati. Anche l'IA generativa, sebbene abbia guadagnato un'attenzione senza precedenti con l'avvento di ChatGPT, non è una scoperta recente. Tuttavia, la discussione intorno all'IA generativa ha ormai permeato quasi ogni aspetto della nostra società, rendendo sempre più cruciale la comprensione dei termini ad essa associati. Solo così è possibile partecipare attivamente e consapevolmente a questo dibattito in evoluzione.

Per affrontare questa esigenza, abbiamo stilato un glossario che raccoglie i concetti e i termini tecnici più rilevanti, spiegandoli in modo chiaro e conciso. Questo strumento si propone di demistificare il gergo specialistico, rendendo accessibili le idee fondamentali che si celano dietro a queste tecnologie rivoluzionarie, dall'AGI fino ai principi più specifici del machine learning.

Indice

AGI
Chain of Thought e Reasoning
Context Engineering
Deep Learning
Destillazione e Quantizzazione
Diffusion
Embeddings
Fine-Tuning
GPT
Allucinazioni
Agenti IA
Mixture of Experts
Pesi Aperti
Prompt Engineering
RAG
(Grandi) Modelli Linguistici/LLM
Token
Transformer
Modello del Mondo
Zero-Shot

AGI

L'acronimo AGI, o Artificial General Intelligence (Intelligenza Artificiale Generale), è onnipresente nella narrativa che circonda l'IA generativa. Questo termine si riferisce prevalentemente a futuri modelli linguistici e altri algoritmi di IA che si prevede saranno intelligenti quanto o più degli esseri umani, capaci di risolvere compiti con la stessa efficacia o superiorità. Attualmente, non esiste un consenso unanime né sulla definizione precisa di AGI, né su quando essa potrebbe essere raggiunta, alimentando un vivace dibattito tra esperti e appassionati sulle sue implicazioni future.

Chain of Thought e Reasoning

La metodologia Chain of Thought (Catena di Pensiero) costituisce uno dei pilastri fondamentali dei cosiddetti modelli di Reasoning (Ragionamento). È essenziale sottolineare che questi chatbot basati su IA, nonostante il loro nome evocativo, non operano in realtà su una base di "ragionamento" nel senso umano del termine. Essi si limitano a seguire i dati di addestramento e i pattern in essi contenuti. Tuttavia, ciò che li distingue è la loro capacità di esporre e presentare i singoli passaggi del loro processo decisionale agli utenti. Sebbene questa procedura venga spesso interpretata come un vero e proprio processo di pensiero da parte dei modelli linguistici, si tratta, in realtà, di un complesso calcolo di probabilità, finalizzato a fornire risposte coerenti e logicamente strutturate.

Basandosi sulla metodologia Chain of Thought, alcuni modelli di Reasoning sono in grado di scomporre prompt complessi in parti più piccole, rispondendo internamente a ciascuna di esse prima di sintetizzare le risposte parziali in una soluzione complessiva e definitiva. Questa capacità permette una gestione più efficace di quesiti articolati, come illustrato nel dettaglio in alcune gallerie di immagini che presentano esempi specifici, come quello del modello di Reasoning cinese Deepseek, mostrando la sua architettura e il suo funzionamento unico rispetto ad altri modelli di IA.

Context Engineering

Fino a pochi mesi fa, il Prompt Engineering era considerato una delle competenze più critiche nell'interazione con i chatbot basati sull'IA. Tuttavia, la maggior parte dei modelli attuali è stata ottimizzata a tal punto da riuscire a gestire e interpretare efficacemente anche comandi meno dettagliati. Oggi, il Context Engineering è emerso come il nuovo standard d'oro nella gestione degli strumenti di IA. Secondo Phil Schmid, ex sviluppatore di Hugging Face e ora parte del team Deepmind, il "contesto" è definito come
tutto ciò che un modello linguistico di grandi dimensioni vede prima che venga generata una risposta.

Questo include una serie di elementi cruciali: i system prompts, i contenuti provenienti da conversazioni precedenti e da quella attuale, le conoscenze acquisite tramite tecniche come la RAG (Retrieval Augmented Generation), le direttive su quali strumenti il chatbot deve utilizzare, le specifiche su come deve essere l'output finale e, naturalmente, il prompt di base stesso. Di conseguenza, il Context Engineering riveste un'importanza fondamentale sia per gli sviluppatori di strumenti IA, che devono progettare interfacce e sistemi robusti, sia per gli utenti finali, che possono così massimizzare l'efficacia delle loro interazioni.

Deep Learning

Mentre gli algoritmi nel machine learning tradizionale seguono spesso percorsi predefiniti, si muovono lungo strutture ad albero e richiedono agli sviluppatori di preparare manualmente i processi di apprendimento, il Deep Learning opera senza la necessità di una pre-sortimentazione dei dati. Gli algoritmi di Deep Learning sono capaci di riconoscere autonomamente pattern e schemi nei dati di addestramento e di ponderarli di conseguenza, imparando in modo più organico e complesso. Tuttavia, questa maggiore autonomia e capacità di elaborazione si traduce in una necessità di set di dati significativamente più grandi e voluminosi per un addestramento efficace.

Destillazione e Quantizzazione

I modelli linguistici più avanzati stanno diventando sempre più grandi e di conseguenza, consumano risorse in modo così intenso che gli utenti privati spesso possono accedervi solo attraverso le offerte web delle grandi aziende di IA. Per coloro che desiderano eseguire chatbot IA localmente, l'opzione più comune è ricorrere a modelli "distillati".

Nel processo di destillazione, i modelli di grandi dimensioni vengono interrogati sistematicamente e le loro risposte sono utilizzate per affinare modelli più piccoli. I modelli distillati risultanti sono spesso più efficienti e performanti rispetto ai modelli più piccoli nella loro forma base non distillata, pur mantenendo una capacità analitica elevata.

Un'altra tecnica per comprimere un modello di partenza è la quantizzazione. Attraverso la quantizzazione, i modelli linguistici di grandi dimensioni diventano meno precisi, ma richiedono anche un minor numero di risorse computazionali. Sebbene la precisione possa diminuire, una riduzione da modelli a 32 o 16 bit a modelli a 4-8 bit è generalmente accettabile, a seconda della dimensione di partenza e dello scopo dell'applicazione. È fondamentale, tuttavia, evitare varianti troppo compresse, in quanto potrebbero compromettere eccessivamente l'accuratezza e l'utilizzabilità del modello.

Diffusion

Quando un chatbot IA genera un'immagine a partire da un prompt testuale, è molto probabile che dietro questo processo vi sia un modello di Diffusion. Questa tecnologia è così centrale che in prodotti come Stable Diffusion è stata persino inclusa nel nome. I modelli di Diffusion si distinguono, nel loro funzionamento, dai modelli Transformer, che sono invece impiegati per la generazione di testo da parte di sistemi come ChatGPT.

Durante la fase di addestramento del modello, le immagini vengono scomposte in singoli pixel attraverso l'aggiunta di rumore casuale. Successivamente, il modello viene addestrato a "denoizzare" questi singoli pixel, ricostruendo l'immagine originale basandosi sulla probabilità statistica. Affinché l'intero processo funzioni efficacemente con prompt testuali, le immagini e i loro singoli elementi devono essere etichettati in modo preciso, un'operazione che spesso
avviene manualmente e talvolta in condizioni di sfruttamento.

Embeddings

Gli Embeddings giocano un ruolo cruciale nell'aiutare i modelli linguistici di grandi dimensioni a identificare le somiglianze tra le frasi inserite. Per esempio, a un prompt di input viene assegnata una serie di numeri, un vettore, che rappresenta la composizione delle parole e il loro significato. Se un'altra struttura testuale ha un valore numerico simile, è probabile che condivida lo stesso contesto semantico. Questa tecnica è particolarmente utile per la ricerca semantica, permettendo di trovare contenuti pertinenti anche quando il prompt non include keyword specifiche, ma concetti affini.

Fine-Tuning

Quando un modello linguistico già addestrato viene ulteriormente perfezionato con dataset aggiuntivi per svolgere compiti specifici, si parla di Fine-Tuning. Questo processo è particolarmente rilevante in ambiti d'uso altamente specializzati e critici, come la ricerca scientifica o la produzione industriale, dove i modelli linguistici standard potrebbero non essere sufficienti a garantire la precisione o la specificità richieste. Anche l'ottimizzazione di un modello di base per scopi specifici, come la generazione di codice (coding), rientra nella definizione di Fine-Tuning, consentendo di adattare l'IA a esigenze verticali.

GPT

GPT sta per Generative Pre-Trained Transformer. Questo acronimo è diventato celebre grazie a una serie di modelli sviluppati dalla startup di IA OpenAI. Sebbene i modelli attuali adottino spesso sigle più brevi, il prodotto di punta di OpenAI, ChatGPT, prende il nome proprio da questa tipologia di grande modello linguistico. In questo contesto, il termine "Generative" è di particolare rilevanza, in quanto sottolinea la capacità di questi modelli di creare contenuti nuovi e originali, piuttosto che limitarsi a elaborare o riprodurre dati esistenti.

La rapida evoluzione dell'intelligenza artificiale e la sua crescente integrazione in ogni aspetto della vita quotidiana rendono la comprensione di questi termini non solo utile, ma essenziale. Familiarizzare con concetti come AGI, Deep Learning, Diffusion e Fine-Tuning permette non solo di seguire il dibattito, ma anche di valutare criticamente le potenzialità e i limiti delle tecnologie che stanno plasmando il nostro futuro. Questo glossario è un primo passo per decodificare il linguaggio dell'IA, fornendo le basi per un'esplorazione più approfondita e consapevole di questo affascinante campo.