Il boom dell'intelligenza artificiale generativa ha messo in evidenza la forza trainante che la sottende: i Modelli Linguistici di Grandi Dimensioni (LLM). Decine di LLM esistono già, ma con il rapido progresso della tecnologia, sempre più di questi modelli di intelligenza artificiale stanno emergendo.

Confrontiamo questo fenomeno con l'industria automobilistica: centinaia di produttori di automobili in tutto il mondo hanno i propri modelli, che soddisfano le diverse esigenze dei consumatori. Anche le automobili si sono trasformate nel tempo, passando da veicoli a benzina a veicoli elettrici con molte funzioni intelligenti.

Lo stesso vale per gli LLM. Questi sistemi di intelligenza artificiale sono nati come modelli fondazionali, costituiti da più strati di reti neurali addestrati su enormi volumi di set di dati. Essi utilizzano il deep learning per svolgere compiti di elaborazione del linguaggio naturale (NLP) e comprensione del linguaggio naturale (NLU). Le loro capacità, tuttavia, sono migliorate e ora includono anche funzioni e ragionamenti dell'IA agentica.

Questa rapida evoluzione significa che il panorama aziendale degli LLM è in costante cambiamento. Gli sviluppatori di IA devono aggiornare continuamente i loro modelli o addirittura svilupparne di nuovi per tenere il passo con il rapido progresso.

Mentre i compiti di NLP e NLU come la sintesi di contenuti, la traduzione automatica, l'analisi del sentiment e la generazione di testo rimangono i pilastri, gli sviluppatori di IA stanno adattando i loro modelli a casi d'uso specifici. Ad esempio, alcuni LLM sono progettati specificamente per la generazione di codice, mentre altri sono concepiti per eseguire compiti di visione-linguaggio.

È impossibile menzionare ogni LLM presente sul mercato, ma qui di seguito è presentata una lista dei modelli linguistici di grandi dimensioni più attuali e popolari, attraverso la quale le aziende possono restringere le loro opzioni e scoprire quale modello soddisfa al meglio le loro esigenze:

Claude

Data di rilascio: Febbraio 2025 per Claude 3.7 Sonnet
Numero di parametri: Non reso pubblico
Accesso: Anthropic API, Amazon Bedrock, Google Cloud Vertex AI

Claude è una famiglia di LLM basati su un'architettura Transformer. È il modello di grandi dimensioni che sta alla base dell'omonimo assistente AI conversazionale. Il design di Claude è guidato da principi di IA costituzionale, che si concentrano sulla sicurezza dell'IA per ridurre comportamenti dannosi come il bias dell'IA.

Claude 3.5 Haiku

È il modello più veloce. È ideale per casi d'uso a bassa latenza, come i chatbot per il servizio clienti e il completamento del codice per accelerare il flusso di lavoro nello sviluppo software.

Claude 3.7 Sonnet

È il "modello più intelligente di Anthropic fino ad oggi". Questo modello di ragionamento presenta una modalità di "pensiero potenziato" che gli permette di riflettere su se stesso prima di fornire una risposta. Coloro che utilizzano l'API di Anthropic possono anche specificare per quanto tempo il modello dovrebbe "pensare".

Claude 3.7 Sonnet può essere utilizzato per compiti più specifici come la generazione di codice, l'utilizzo del computer (permette all'LLM di usare un computer come farebbe un essere umano), l'estrazione di informazioni da dati visivi e la risposta a domande.

Claude 3 Opus

È il modello più potente tra i tre. Può gestire analisi approfondite e compiti più lunghi e complessi in più fasi.

Command

Data di rilascio: Aprile 2024 per Command R+ e Dicembre 2024 per Command R7B
Accesso: Cohere API, Amazon Bedrock, Microsoft Azure AI Studio, Oracle AI Infrastructure Generative AI

Command è il fiore all'occhiello dei modelli linguistici di Cohere. Questa famiglia di LLM per le aziende include i seguenti modelli:

Command R

È un modello di generazione di testo multilingue con 32 miliardi di parametri.¹ È stato addestrato per rafforzare la sua capacità di Retrieval-Augmented Generation (RAG) fornendo citazioni nelle sue risposte. Command R offre anche funzionalità per l'utilizzo di strumenti di conversazione.

Command R+

È una versione più potente con 104 miliardi di parametri.² Può gestire complesse funzioni RAG e l'utilizzo di strumenti multistep, consentendo agli agenti IA di raccogliere le informazioni più recenti e aggiornare la loro base di conoscenza attingendo a strumenti esterni.

Command R7B

Con 7 miliardi di parametri, è il modello più piccolo e veloce. È ideale per distribuzioni basate su CPU, GPU di fascia bassa e altri dispositivi edge, e può essere implementato per l'inferenza sul dispositivo.

DeepSeek-R1

È un modello di ragionamento open-source della startup cinese di IA DeepSeek. Utilizza un'architettura Mixture of Experts (MoE) per il machine learning ed è stato addestrato con un Reinforcement Learning su larga scala per affinare le sue capacità di ragionamento.

Le prestazioni di DeepSeek-R1 sono simili o addirittura migliori di quelle dei modelli di ragionamento o1 di OpenAI in specifici benchmark LLM. DeepSeek-R1 ha inoltre utilizzato la distillazione della conoscenza per ottimizzare diversi modelli Llama e Qwen più piccoli, utilizzando i dati di ragionamento generati dal ben più grande LLM DeepSeek-R1.

Falcon

È un gruppo di modelli open-source sviluppati dai ricercatori del Technology Innovation Institute (TII) degli Emirati Arabi Uniti. Questi modelli sono stati addestrati con il RefinedWeb, proprietario del TII, un enorme set di dati con dati web inglesi filtrati.

Altre versioni precedenti e più grandi di Falcon includono Falcon 40B con 40 miliardi di parametri e Falcon 180B con 180 miliardi di parametri.

Falcon 2 11B

È un modello puro decodificatore causale con 11 miliardi di parametri. Offre supporto multilingue e presto avrà anche funzionalità di visione-linguaggio.

Falcon 3

È un design puro decodificatore ed è disponibile in dimensioni di parametri leggere di 1, 3, 7 e 10 miliardi. Migliora il suo predecessore e le sue capacità di ragionamento.

Falcon Mamba 7B

È un modello linguistico di spazio di stato (State Space Language Model, SSLM) che si discosta dalla tipica architettura Transformer degli LLM. I modelli Transformer utilizzano un meccanismo di attenzione per concentrare la loro attenzione sui token più importanti nella sequenza di input. Tuttavia, man mano che la finestra di contesto si allarga, i Transformer richiedono più memoria e potenza di calcolo.

Gli SSLM aggiornano continuamente uno "stato" durante l'elaborazione e utilizzano un algoritmo di selezione per adattare dinamicamente i parametri in base all'input. Questo permette a Falcon Mamba 7B di elaborare lunghe sequenze di testo senza memoria aggiuntiva e di generare nuovi token nello stesso tempo, indipendentemente dalla lunghezza del contesto.

Gemini

Numero di parametri: Non reso pubblico
Accesso: Gemini API, Google AI Studio, Google Cloud Vertex AI

Gemini è la suite di modelli multimodali di Google. Supporta anche il chatbot intelligente generativo (precedentemente noto come Bard) con lo stesso nome. Gemini utilizza un modello Transformer, un'architettura di rete neurale che ha avuto origine da Google stessa e si basa sui precedenti modelli linguistici fondamentali dell'azienda, tra cui BERT (Bidirectional Encoder Representations from Transformers) e PaLM 2 (Pathways Language Model).

L'ultima versione, Gemini 2.0, è secondo Google "progettata per l'era agentica". Gemini 2.0 è disponibile in diverse varianti:

Gemini 2.0 Flash

È un modello leggero che supporta l'utilizzo di strumenti. Le funzionalità che saranno presto disponibili includono la generazione di immagini e il text-to-speech.

Gemini 2.0 Flash-Lite

È una versione migliorata del precedente 1.5 Flash, leggero e conveniente. Mantiene la stessa velocità e gli stessi costi, migliorando al contempo la qualità.

Gemini 2.0 Pro

È ciò che Google definisce il suo modello più potente per la codifica e la gestione di prompt complessi, grazie alle sue funzionalità e alla sua finestra di contesto più lunga di due milioni di token. È ancora in fase sperimentale.