L'intelligenza artificiale non è affatto un fenomeno nuovo. Fin dagli anni '50, scienziati e scienziate hanno condotto ricerche sui sistemi informatici in grado di risolvere una vasta gamma di compiti basati su algoritmi complessi. Anche l'IA generativa non esiste solo da ChatGPT, anche se l'argomento ha ricevuto da allora molta più attenzione. Negli ultimi anni, in particolare, la discussione sull'IA generativa ha raggiunto quasi tutti i settori della nostra società. Di conseguenza, diventa sempre più importante comprendere i termini associati per partecipare attivamente a questa discussione e poter dire la propria. In questo glossario, raccogliamo concetti e termini tecnici rilevanti e li spieghiamo in modo conciso e chiaro.

Non è necessario un tomo corposo: i termini chiave dell'IA più importanti spiegati in sintesi. (Grafica: Midjourney / t3n)

Indice

AGI
Chain of Thought e Reasoning
Context Engineering
Deep Learning
Distillazione e Quantizzazione
Diffusion
Embeddings
Fine-Tuning
GPT
Allucinazioni
Agenti AI
Mixture of Experts
Open Weights
Prompt Engineering
RAG
(Grande) Modello Linguistico/LLM
Token
Transformer
Modello del Mondo
Zero-Shot

AGI

L'acronimo AGI, onnipresente nella reportistica sull'intelligenza artificiale generativa, sta per Artificial General Intelligence (Intelligenza Artificiale Generale). Con questo termine ci si riferisce solitamente a futuri modelli linguistici e altri algoritmi di IA che dovrebbero essere intelligenti quanto o più degli esseri umani, e risolvere compiti altrettanto bene o meglio. Non vi è consenso sulla definizione esatta di AGI e su quando verrà raggiunta.

Chain of Thought e Reasoning

Il metodo Chain of Thought (Catena di Pensiero) è uno dei blocchi costitutivi più importanti dei cosiddetti modelli di Reasoning (Ragionamento). È importante notare che questi chatbot di IA, contrariamente al loro nome, non operano in modo veramente basato sulla ragione. Seguono sempre i loro dati di addestramento e i pattern in essi contenuti, ma rivelano i singoli passi e li presentano ai loro utenti. Sebbene questo processo sia rappresentato dai modelli linguistici come un processo di pensiero, si tratta comunque del calcolo di probabilità.

Sulla base del metodo Chain of Thought, alcuni modelli di Reasoning possono suddividere i prompt in segmenti più piccoli e rispondere internamente, prima che le risposte parziali vengano sintetizzate in una risposta più grande e quindi emesse. Il funzionamento dettagliato di ciò è illustrato nella galleria di immagini presente nell'articolo originale, utilizzando come esempio il modello di ragionamento cinese Deepseek.

Contenuti editoriali consigliati:

Qui trovate contenuti esterni di TargetVideo GmbH, che integrano la nostra offerta editoriale su t3n.de. Cliccando su "Mostra contenuti" accettate che vi mostriamo ora e in futuro contenuti di TargetVideo GmbH sulle nostre pagine. In questo processo, i dati personali possono essere trasmessi a piattaforme di terzi.

Mostra contenuti

Nota sulla protezione dei dati

Purtroppo qualcosa è andato storto...

Qui di solito si trovano contenuti esterni di TargetVideo GmbH, ma non siamo riusciti a recuperare le tue impostazioni di consenso.

Ricarica la pagina o adatta manualmente le tue impostazioni di consenso.

Gestisci le impostazioni sulla protezione dei dati

Vedi 4 immagini

Ecco come funziona Deepseek – e cosa lo rende diverso dagli altri modelli di IA

Fonte: (Grafica: Dall-E / t3n)

Context Engineering

Fino a pochi mesi fa, il Prompt Engineering era considerata una delle competenze più importanti nell'interazione con i chatbot di IA. Tuttavia, la maggior parte dei modelli è ormai così calibrata che può gestire bene anche comandi meno dettagliati e metterli in pratica.

Oggi, il Context Engineering è considerato il nuovo standard d'oro nell'uso degli strumenti di IA. Il contesto è, secondo l'ex sviluppatore di Hugging-Face e attuale sviluppatore di Deepmind Phil Schmid, tutto ciò che un grande modello linguistico vede prima che venga generata una risposta.

Questo include i prompt di sistema, i contenuti delle conversazioni precedenti e attuali, le conoscenze acquisite tramite RAG, le specifiche su quali strumenti il chatbot deve utilizzare e come dovrebbe essere l'output, nonché il prompt fondamentale. Il Context Engineering è quindi importante sia per gli sviluppatori di strumenti di IA che per i loro utenti.

Deep Learning

Mentre gli algoritmi nell'apprendimento automatico in molti casi seguono percorsi predefiniti, si muovono lungo strutture ad albero e gli sviluppatori devono preparare manualmente i processi di apprendimento, il Deep Learning funziona anche senza pre-ordinamento. Gli algoritmi di Deep Learning riconoscono autonomamente i pattern nei dati di addestramento e possono ponderarli di conseguenza. Per fare ciò, tuttavia, richiedono set di dati significativamente più grandi.

Distillazione e Quantizzazione

I modelli linguistici più avanzati diventano sempre più grandi e sono così esosi di risorse che gli utenti privati spesso possono vederli solo attraverso le offerte web delle grandi aziende di IA. Chi vuole eseguire i chatbot di IA localmente ricorre spesso a modelli distillati.

In questo processo, i modelli grandi vengono sistematicamente interrogati e le loro risposte vengono utilizzate per affinare modelli più piccoli. I modelli distillati risultanti sono spesso più efficienti dei modelli più piccoli nella loro forma base non distillata.

Un altro tipo di compressione di un modello di partenza è la quantizzazione. In questo modo, i grandi modelli linguistici diventano meno precisi, ma richiedono anche meno risorse. Solo le varianti eccessivamente compresse non dovrebbero essere utilizzate; una riduzione da modelli a 32 o 16 bit a modelli a 4-8 bit è tuttavia accettabile a seconda delle dimensioni iniziali e dello scopo d'uso.

Diffusion

Quando un chatbot di IA genera un'immagine da un prompt testuale, è molto probabile che ci sia dietro un modello di Diffusion. In Stable Diffusion, la tecnica è addirittura entrata nel nome del prodotto. Nella loro funzione, i modelli di Diffusion sono diversi dai modelli Transformer, che vengono utilizzati per la generazione di testo da parte di ChatGPT.

Durante l'addestramento del modello, le immagini vengono scomposte in singoli pixel aggiungendo rumore. Il modello viene quindi addestrato a "denoizzare" questi singoli pixel e a generare un'immagine basata sulla probabilità statistica. Affinché tutto ciò funzioni con i prompt testuali, le immagini e i loro singoli elementi devono essere etichettati, cosa che spesso avviene a mano e in condizioni di sfruttamento.

Embeddings

Gli Embeddings aiutano i grandi modelli linguistici a individuare le somiglianze nelle frasi inserite. Ad esempio, a un prompt inserito viene assegnata una serie di numeri come vettore, a seconda della composizione delle parole e del loro significato. Se un'altra costruzione ha un valore numerico simile, è probabile che abbia lo stesso contesto. Questo aiuta, ad esempio, nella ricerca semantica, anche se nel prompt non compare una parola chiave corrispondente.

Fine-Tuning

Quando un modello linguistico già addestrato viene affinato con dataset aggiuntivi per compiti specifici, si parla di Fine-Tuning. Questo è rilevante, ad esempio, quando si tratta di settori di applicazione altamente specifici e particolarmente critici come la ricerca o la produzione, dove i modelli linguistici standard non sono sufficienti. Anche l'ottimizzazione di un modello di base per scopi specifici come la programmazione è definita Fine-Tuning.

GPT

GPT sta per Generative Pre-Trained Transformer ed è stato reso famoso da una serie di modelli sviluppati dalla startup di IA OpenAI. Anche se i modelli stessi ora portano piuttosto acronimi, il prodotto principale di OpenAI, ChatGPT, è stato chiamato in base a questo tipo di grande modello linguistico. In questo contesto, il termine "Generative" è particolarmente rilevante, poiché sottolinea la capacità del modello di creare nuovi contenuti.

Allucinazioni

Il termine Allucinazioni, nel contesto dell'IA, si riferisce a quando un modello generativo produce informazioni false, fuorvianti o prive di senso, ma le presenta come fatti. Questo accade perché i modelli di IA, in particolare i modelli linguistici, sono addestrati a prevedere la sequenza di parole più probabile e a generare un output coerente, piuttosto che a verificare la veridicità delle informazioni. Possono quindi inventare dati, citazioni o eventi che non esistono. La gestione delle allucinazioni è una sfida significativa per lo sviluppo e l'applicazione affidabile dell'IA.

Agenti AI

Gli Agenti AI sono sistemi autonomi che possono percepite il loro ambiente, elaborare le informazioni e agire su di esse per raggiungere obiettivi specifici. A differenza di semplici chatbot che rispondono a domande, gli agenti AI sono progettati per eseguire compiti complessi in modo indipendente, spesso interagendo con altri sistemi o utenti. Possono pianificare azioni, eseguire sequenze di comandi e persino imparare dalle loro esperienze per migliorare le prestazioni future. Un agente AI può essere impiegato per automatizzare processi, gestire flussi di lavoro o fornire assistenza personalizzata in ambienti dinamici.

Mixture of Experts

La tecnica Mixture of Experts (MoE) è un'architettura di rete neurale in cui diverse sottoreti, chiamate "esperti", sono specializzate in diversi tipi di dati o compiti. Un componente aggiuntivo, il "gate", determina quale esperto o quali esperti dovrebbero elaborare un determinato input. Questo permette ai modelli MoE di scalare a un numero molto elevato di parametri senza aumentare proporzionalmente i costi computazionali per ogni input. Ogni esperto è addestrato su una porzione specifica dei dati o per un tipo specifico di problema, il che rende il modello complessivo più efficiente e performante su un'ampia gamma di compiti, spesso con una maggiore efficienza in termini di risorse rispetto ai modelli densi di dimensioni simili.

Open Weights

Il termine Open Weights si riferisce ai modelli di intelligenza artificiale i cui pesi (i parametri interni del modello che determinano le sue previsioni) sono resi pubblici e accessibili. A differenza dei modelli open source completi, dove è disponibile anche il codice sorgente per l'addestramento, gli "open weights" permettono a ricercatori e sviluppatori di utilizzare, modificare e implementare modelli pre-addestrati senza la necessità di addestrarli da zero. Questo facilita la ricerca, lo sviluppo di nuove applicazioni e la verifica dei modelli, promuovendo la trasparenza e la collaborazione all'interno della comunità dell'IA, pur mantenendo potenzialmente privati alcuni aspetti del processo di addestramento o dell'architettura sottostante.

Prompt Engineering

Il Prompt Engineering è la disciplina di formulare istruzioni, domande o dati di input (i "prompt") in modo tale da ottenere le risposte desiderate da un modello di intelligenza artificiale, in particolare da un modello linguistico. Implica la comprensione di come l'IA interpreta e risponde a diversi tipi di input e l'ottimizzazione del prompt per guidare il modello verso un output specifico e di alta qualità. Anche se i modelli più recenti sono diventati più resilienti a prompt meno precisi, un buon prompt engineering rimane cruciale per compiti complessi, per evitare ambiguità e per massimizzare l'efficacia dell'interazione con l'IA, soprattutto quando si mira a risultati molto specifici o creativi.

RAG

RAG è l'acronimo di Retrieval-Augmented Generation. Questa tecnica combina la generazione di testo con il recupero di informazioni. Invece di basarsi esclusivamente sulle conoscenze incorporate durante l'addestramento, un modello RAG recupera attivamente informazioni pertinenti da una vasta base di conoscenza esterna (ad esempio, un database o un set di documenti) in risposta a un prompt. Queste informazioni recuperate vengono quindi utilizzate per "aumentare" il prompt originale, fornendo al modello un contesto aggiuntivo e più specifico prima di generare una risposta. Il vantaggio principale del RAG è la capacità di produrre risposte più accurate, aggiornate e meno soggette ad allucinazioni, poiché il modello ha accesso a dati verificabili e recenti.

(Grande) Modello Linguistico/LLM

Un (Grande) Modello Linguistico, spesso abbreviato in LLM (Large Language Model), è un tipo di modello di intelligenza artificiale addestrato su enormi quantità di dati testuali. Questi modelli sono progettati per comprendere e generare linguaggio naturale. Sono capaci di una vasta gamma di compiti legati al linguaggio, come traduzione, riassunto, generazione di testo, risposta a domande e persino scrittura creativa. La loro "grandezza" si riferisce all'enorme numero di parametri (spesso miliardi) e alla vasta scala dei dati di addestramento, che consentono loro di apprendere pattern linguistici complessi e di eseguire compiti con un'elevata flessibilità e coerenza. ChatGPT è un esempio ben noto di LLM.

Token

Nel contesto dei modelli linguistici, i Token sono le unità fondamentali di testo che vengono elaborate dall'IA. Un token può essere una parola intera, una parte di parola, un singolo carattere o anche un segno di punteggiatura. I modelli di IA non elaborano il testo direttamente come stringhe di caratteri, ma lo suddividono in token e convertono questi token in rappresentazioni numeriche (embeddings) che possono essere elaborate dagli algoritmi. La tokenizzazione è un passaggio cruciale nel pre-elaborazione del testo e nella rappresentazione del linguaggio per i modelli di IA, poiché permette al modello di comprendere la struttura e il significato del linguaggio a un livello granulare.

Transformer

Il Transformer è un'architettura di rete neurale introdotta nel 2017 e che ha rivoluzionato il campo dell'elaborazione del linguaggio naturale (NLP). La caratteristica distintiva dei modelli Transformer è il meccanismo di "attenzione" (attention mechanism), che permette al modello di pesare l'importanza di diverse parti di un input quando elabora una specifica parte dell'output. Questo elimina la necessità di elaborare sequenze di testo in ordine, superando i limiti dei precedenti modelli RNN (Reti Neurali Ricorrenti). I Transformer sono alla base di molti dei più potenti modelli linguistici attuali, inclusi i modelli GPT di OpenAI, grazie alla loro capacità di elaborare efficacemente lunghe dipendenze all'interno del testo e di parallelizzare l'addestramento, rendendolo molto più efficiente su grandi dataset.

Modello del Mondo

Un Modello del Mondo (World Model) è un concetto in cui un'intelligenza artificiale non solo impara a eseguire compiti, ma anche a creare una rappresentazione interna, una "simulazione", del mondo in cui opera. Questo modello interno permette all'IA di prevedere le conseguenze delle proprie azioni, di pianificare in anticipo e di comprendere meglio le dinamiche dell'ambiente. Un'IA dotata di un World Model può, ad esempio, imparare le leggi della fisica in un ambiente virtuale o le interazioni sociali in un contesto conversazionale, permettendole di agire in modo più intelligente e proattivo, anziché solo reattivo. È un passo fondamentale verso un'IA più autonoma e consapevole del contesto.

Zero-Shot

La capacità Zero-Shot di un modello di IA si riferisce alla sua abilità di eseguire un compito per il quale non è stato esplicitamente addestrato e per il quale non ha ricevuto alcun esempio durante l'addestramento. In altre parole, il modello può generalizzare la sua comprensione di concetti appresi da altri compiti e applicarla a un nuovo compito senza alcuna ulteriore messa a punto o esempi specifici. Ad esempio, un modello linguistico addestrato su una vasta gamma di testi potrebbe essere in grado di tradurre una frase da una lingua all'altra, anche se non ha mai visto esempi specifici di traduzione per quella coppia di lingue, basandosi sulla sua comprensione generale del linguaggio. Questa capacità è un segno di una forte generalizzazione e di una comprensione profonda dei dati di addestramento.