Il 13 gennaio 2026, alle 19:40, Jeremy Likness ha pubblicato un approfondimento fondamentale sull'intelligenza artificiale generativa per la comunità degli sviluppatori .NET/C#. Questo articolo arriva in un momento cruciale, poiché l'IA generativa è rapidamente diventata la tecnologia grand pubblico in più rapida crescita nella storia, superando fenomeni come Instagram e TikTok, e raggiungendo l'impressionante cifra di 100 milioni di utenti in meno di due mesi.

La svolta che ha portato l'IA generativa alla ribalta è avvenuta alla fine del 2022, quando OpenAI ha rilasciato un'anteprima gratuita di GPT-3.5, presentata sotto forma di client di chat conversazionale: ChatGPT. Il modello è stato perfezionato utilizzando il rinforzo tramite apprendimento dal feedback umano (RLHF), segnando il momento in cui l'IA generativa ha raggiunto una notevole notorietà. All'inizio del 2023, Microsoft ha risposto prontamente lanciando il servizio Azure OpenAI, consentendo agli sviluppatori di fornire e utilizzare in modo sicuro modelli compatibili con OpenAI dietro endpoint gestiti da Azure.

Poco dopo, Microsoft ha introdotto una suite di strumenti essenziali per supportare gli sviluppatori nel loro percorso con l'IA:

Semantic Kernel (SK): strumenti per orchestrare prompt, memorie e plugin utilizzando C# o Python.
Microsoft Extensions for AI (MEAI): astrazioni unificate per interagire con i modelli (ad esempio, IChatClient).
Microsoft Extensions for Vector Data: interfacce standard per i database vettoriali utilizzati nei sistemi RAG.

Questo articolo si discosta dall'innovazione rapida dell'IA per concentrarsi sui concetti fondamentali, fornendo una solida base per gli sviluppatori .NET/C# che lavorano con Microsoft Foundry, GitHub Models, AI Extensions e runtime locali come Ollama.

Comprendere i termini legati all'IA

L'intelligenza artificiale possiede un proprio insieme di termini distinti con significati molto specifici che è fondamentale comprendere.

Intelligenza artificiale (IA)

L'IA comprende tecniche che consentono ai computer di eseguire compiti che tipicamente richiedono l'intelligenza umana, come il ragionamento, il linguaggio, la pianificazione o la percezione. L'IA non è una novità, ma oggi la maggior parte delle persone usa il termine "IA" per riferirsi specificamente all'IA generativa.

IA generativa (GenAI)

L'IA generativa si riferisce a sistemi di IA capaci di produrre testo, immagini, audio o altri contenuti. Ad esempio, l'acronimo GPT sta per "Generative Pre-trained Transformer" (trasformatore generativo pre-addestrato). Riassumendo, otteniamo:

Generativo: produce contenuto.
Pre-addestrato: addestrato su enormi set di dati.
Trasformatore: architettura di rete neurale che consente una modellazione linguistica di alta qualità.

Grandi modelli di linguaggio (LLM)

Gli LLM sono addestrati su miliardi di token (gettoni) e possono generare testo, immagini, codice o passaggi di ragionamento. La loro capacità di funzionare in più lingue deriva dalla capacità di apprendere le relazioni tra le parole, e non da una semplice traduzione dizionario uno-a-uno. Questo approccio è cruciale perché il linguaggio umano è intrinsecamente ambiguo, e la traduzione può essere difficile a causa dei molteplici significati delle parole.

Perché la traduzione è difficile?

Le parole hanno più significati, come si può osservare negli esempi seguenti:

"pass the car" = superare l'auto
"mountain pass" = passo di montagna
"pass on the opportunity" = lasciare andare l'opportunità
"your park pass on the dashboard" = il tuo pass per il parco sul cruscotto

I software tradizionali faticavano a gestire questa ambiguità; gli LLM eccellono perché operano nello spazio semantico, comprendendo il contesto e le sfumature di significato.

Token e embeddings (gettoni e integrazioni)

I modelli non leggono direttamente il testo. Lo suddividono in gettoni, che possono essere:

Parole intere
Frammenti di parole
Caratteri

Questi gettoni vengono convertiti in vettori numerici chiamati embeddings (integrazioni), che sono rappresentazioni matematiche del significato. Consideriamo gli esempi di frasi:

"l'attore era una star"
"amavano le stelle"

La parola "star" appare in entrambe le frasi, ma con significati diversi. Le integrazioni catturano questa differenza. Ecco un modo semplificato per visualizzare questo concetto: in un grafico, il significato semantico della parola "star" può essere rappresentato in base alla sua vicinanza al concetto di "corpo celeste" (una stella nella notte) e al concetto di "attore" (star dello spettacolo).

Immaginate ora miliardi di punti di questo tipo. I modelli generano testo navigando in questo spazio e prevedendo il vettore successivo più probabile. Questo permette anche di misurare la distanza semantica tra i concetti:

scuola ↔ scola (distanza vicina → correzione ortografica)
gatto ↔ cane (distanza vicina → animali simili)
gatto ↔ computer portatile (distanza lontana)

La ricerca semantica utilizza la distanza nello spazio di integrazione, e non la corrispondenza di stringhe, per trovare informazioni rilevanti.

Parametri: dimensione del modello

Gli LLM sono spesso descritti dal loro numero di parametri: 7 miliardi, 14 miliardi, 70 miliardi, 123 miliardi, ecc. I parametri sono pesi addestrati all'interno della rete neurale del modello. Più parametri ci sono, più profondo è il ragionamento che il modello può eseguire, più ricche le conoscenze che può attingere e più fini le sfumature che può cogliere.

GPT‑1 (2018) contava 117 milioni di parametri.
I modelli all'avanguardia moderni vanno da 100 miliardi a oltre 400 miliardi di parametri, mostrando l'enorme crescita in complessità e capacità.

Prompt (istruzione generativa), istruzioni e strumenti

Le sezioni precedenti hanno trattato le informazioni relative al modello. I termini in questa sezione sono direttamente correlati agli input e agli output del modello, e al modo in cui interagiamo con essi.

Prompt (istruzione generativa)

I prompt sono semplicemente gli input dell'utente nel modello. Ad esempio: "Qual è il modo migliore per sbucciare un mango?".

Istruzioni di sistema

Le istruzioni di sistema sono un "piano" nascosto che guida il comportamento del modello. Esse definiscono il ruolo o la personalità del modello e le sue linee guida operative. Ad esempio: "Sei un sbucciatore di manghi e sei considerato un esperto nel tuo campo."

Strumenti / Funzioni

Gli LLM sono addestrati su dati storici e, per loro natura, non hanno accesso diretto a informazioni attuali o specifiche. Gli strumenti e le funzioni colmano questa lacuna, consentendo loro di accedere a informazioni aggiornate o autorevoli, ad esempio:

API meteo
Ricerca in un database
Motore di ricerca
Indice delle conoscenze aziendali

Questo modello di utilizzo degli strumenti è chiamato "generazione aumentata dalla recupero" (RAG). Esaminiamo due scenari per comprenderne meglio il funzionamento:

Scenario 1: Agente Concierge

Immaginate un agente concierge che disponga di un'API per i ristoranti locali e di un'API per il meteo. L'utente inserisce la seguente istruzione generativa:

"Puoi prenotarmi un tavolo per cena questa settimana in un ristorante con terrazza?"

L'LLM chiama prima l'API meteo per determinare quali serate sono probabilmente asciutte e più calde, quindi chiama l'API del ristorante per trovare i ristoranti aperti e con posti disponibili. Infine, restituisce un elenco di suggerimenti che corrispondono esattamente alla richiesta dell'utente.
Scenario 2: Agente del Servizio Clienti

Immaginate un agente del servizio clienti di un negozio al dettaglio che disponga di tutte le informazioni sui prodotti. L'utente digita:

"Che tipo di batterie servono per il Traveling Wonder Cube?"

L'LLM è in grado di estrarre il nome del prodotto, "Traveling Wonder Cube". Vettorizza il testo della query, quindi chiama l'API del prodotto con il nome del prodotto e i vettori. La ricerca semantica viene invocata utilizzando una funzione per trovare i punti del manuale del prodotto che sono semanticamente più vicini alla query. Questo restituirà il risultato pertinente riguardo alle batterie richieste, se tale sezione esiste.

Protocollo di contesto del modello (Model Context Protocol - MCP)

Il protocollo di contesto del modello, o MCP in breve, è un insieme di standard per l'interoperabilità tra agenti e strumenti. Consente ai modelli di comprendere facilmente quali strumenti sono disponibili e come richiamarli. Questo vi permette di creare delle "cassette degli attrezzi" virtuali che qualsiasi vostro modello o agente può utilizzare, facilitando l'integrazione e la flessibilità.

Cosa sono gli agenti?

Abbiamo menzionato il termine "agente" più volte. Un agente è semplicemente un modo per fornire una soluzione specializzata che include un modello, strumenti e un contesto. Ad esempio, un "agente concierge" può includere un modello di ragionamento con strumenti che forniscono informazioni su meteo, eventi e opzioni di ristorazione, tutti configurati per operare in un contesto specifico e rispondere a esigenze complesse in modo autonomo e intelligente. Gli agenti sono il fulcro dell'automazione e della personalizzazione nelle applicazioni di IA generativa, permettendo di combinare le capacità dei grandi modelli di linguaggio con le informazioni e le funzionalità del mondo reale attraverso l'uso strategico degli strumenti.