L'ascesa dei modelli linguistici di grandi dimensioni (LLM)

L'ascesa dell'IA generativa ha messo in luce la sua forza trainante: i modelli linguistici di grandi dimensioni (LLM). Esistono già decine di LLM, ma con il rapido progresso della tecnologia, continuano ad apparire sempre più di questi modelli di intelligenza artificiale (IA).

Si pensi alla prospettiva del settore automobilistico. Centinaia di produttori di automobili in tutto il mondo hanno modelli distinti per soddisfare le esigenze dei consumatori. Le auto si sono anche evolute nel tempo, da quelle a benzina a quelle elettriche, con molte caratteristiche intelligenti.

Lo stesso vale per gli LLM. Questi sistemi di IA sono nati come modelli fondazionali, composti da più strati di reti neurali addestrate su grandi volumi di set di dati. Utilizzano tecniche di deep learning per eseguire compiti di elaborazione del linguaggio naturale (PLN) e comprensione del linguaggio naturale. Tuttavia, le loro capacità sono migliorate fino a includere funzioni e ragionamento di IA agentiva.

Questa rapida evoluzione significa che il panorama dell'IA è in costante cambiamento. Gli sviluppatori di IA devono aggiornare continuamente i loro modelli o persino costruirne di nuovi per rimanere al passo con i rapidi progressi.

Sebbene i compiti di PLN e comprensione del linguaggio naturale (CLN), come il riassunto di contenuti, la traduzione automatica, l'analisi del sentiment e la generazione di testo, rimangano pilastri fondamentali, gli sviluppatori di IA stanno adattando i loro modelli a specifici casi d'uso. Ad esempio, alcuni LLM sono progettati specificamente per la generazione di codice, mentre altri sono fatti per gestire compiti di linguaggio visivo.

Sebbene sia impossibile menzionare tutti gli LLM esistenti, ecco un elenco di alcuni dei modelli linguistici di grandi dimensioni più attuali e popolari per aiutare le organizzazioni a restringere le loro opzioni e a considerare quale modello si adatta meglio alle loro esigenze:

Modelli linguistici di grandi dimensioni attuali e popolari

Claude (Anthropic)

  • Data di lancio: febbraio 2025 per Claude 3.7 Sonnet
  • Accesso: API di Anthropic, Amazon Bedrock, Google Cloud Vertex AI

Claude è una famiglia di LLM basata su un'architettura transformer. È il modello di grandi dimensioni alla base dell'assistente di IA conversazionale con lo stesso nome. Il design di Claude è guidato dai principi costituzionali dell'IA, che si concentrano sulla sicurezza dell'IA per ridurre comportamenti dannosi come il bias dell'IA.

  • Il Claude 3.5 Haiku è il modello più veloce. È ideale per casi d'uso a bassa latenza, come i chatbot di assistenza clienti e il completamento di codice, per accelerare i flussi di lavoro di sviluppo software.
  • Claude 3.7 Sonnet è ciò che Anthropic definisce il suo "modello più intelligente fino ad oggi". Questo modello di ragionamento ha una modalità di "pensiero esteso", che gli permette di riflettere su se stesso prima di rispondere. Chi utilizza l'API di Anthropic può anche specificare per quanto tempo il modello può "pensare". Claude 3.7 Sonnet può essere implementato per compiti più specifici, come la generazione di codice, l'uso di computer (che consente all'LLM di utilizzare un computer come farebbe un essere umano), l'estrazione di informazioni da dati visivi e la risposta a domande.
  • Claude 3 Opus è il modello più potente dei tre. Può gestire analisi approfondite e compiti più lunghi e complessi con diversi passaggi.

Command (Cohere)

  • Data di lancio: aprile 2024 per Command R+ e dicembre 2024 per Command R7B
  • Accesso: API Cohere, Amazon Bedrock, Microsoft Azure AI Studio, Oracle Cloud Infrastructure Generative AI

Command è il modello linguistico di punta di Cohere. Questa famiglia di LLM focalizzati sull'impresa include i seguenti modelli:

  • Command R è un modello di generazione di testo multilingue con 32 miliardi di parametri. È stato addestrato per fondare la sua capacità di generazione aumentata da recupero (RAG) fornendo citazioni nelle sue risposte. La funzione Command R offre anche capacità di utilizzo di strumenti conversazionali.
  • Command R+ è una versione più potente, con 104 miliardi di parametri. Può gestire funzioni RAG complesse e l'utilizzo di strumenti a più passaggi, consentendo agli agenti di IA di raccogliere le informazioni più recenti e aggiornare la loro base di conoscenze tramite strumenti esterni.
  • Command R7B è il modello più piccolo e veloce con 7 miliardi di parametri. È ideale per implementazioni basate su CPU, GPU di fascia bassa e altri dispositivi edge e può essere implementato per l'inferenza on-device.

DeepSeek-R1 (DeepSeek)

DeepSeek-R1 è un modello di ragionamento open-source della startup cinese di IA DeepSeek. Utilizza un'architettura di machine learning Mixture of Experts (MoE) ed è stato addestrato tramite apprendimento per rinforzo su larga scala per perfezionare le sue capacità di ragionamento.

Le prestazioni di DeepSeek-R1 sono simili o addirittura migliori della serie o1 di modelli di ragionamento di OpenAI in determinati benchmark LLM. DeepSeek-R1 ha anche utilizzato la distillazione di conoscenze per mettere a punto diversi modelli Llama e Qwen più piccoli utilizzando i dati di ragionamento generati dal molto più grande DeepSeek-R1 LLM. I modelli distillati risultanti hanno migliorato le capacità di ragionamento dei loro omologhi originali e persino le prestazioni rispetto ad altri modelli più grandi.

Falcon (TII)

  • Data di lancio: dicembre 2024 per Falcon 3

Falcon è un gruppo di modelli open-source sviluppati da ricercatori del Technology Innovation Institute (TII) degli Emirati Arabi Uniti. Questi modelli sono stati addestrati sulla RefinedWeb proprietaria del TII, un enorme set di dati che contiene dati web in inglese filtrati.

Altre versioni precedenti e più grandi di Falcon includono il Falcon 40B con 40 miliardi di parametri e il Falcon 180B con 180 miliardi di parametri.

  • Falcon 2 11B è un modello di decodificatore unico causale con 11 miliardi di parametri. Offre supporto multilingue e presto includerà capacità di traduzione vocale.
  • Falcon 3 adotta un design a decodificatore unico e si presenta in dimensioni di parametri leggere da 1, 3, 7 e 10 miliardi. Migliora il suo predecessore e aumenta le sue capacità di ragionamento.
  • Falcon Mamba 7B è un modello linguistico basato sullo spazio degli stati (SSLM), che si discosta dalla tipica architettura del transformer. I modelli transformer utilizzano un meccanismo di attenzione per "focalizzare la loro attenzione" sul token più importante dell'input. Tuttavia, man mano che la finestra di contesto cresce, i transformer richiedono più memoria e potenza di calcolo. Gli SSLM aggiornano continuamente uno "stato" durante l'elaborazione e impiegano un algoritmo di selezione per regolare dinamicamente i parametri in base all'input. Ciò consente a Falcon Mamba 7B di elaborare lunghe sequenze di testo senza la necessità di memoria aggiuntiva e di generare nuovi token nella stessa quantità di tempo, indipendentemente dalla lunghezza del contesto.

Gemini (Google)

  • Accesso: API Gemini, Google IA Studio, Google Cloud Vertex AI

Gemini è la suite di modelli multimodali di Google. Alimenta anche il chatbot di IA generativa (precedentemente noto come Bard) con lo stesso nome. Gemini impiega un modello transformer, un'architettura di reti neurali che ha avuto origine nella stessa Google, e si basa sui precedenti modelli linguistici fondamentali dell'azienda, inclusi BERT (rappresentazioni di codificatore bidirezionale di trasformatori) e PaLM 2 (modello linguistico di percorsi).

L'ultima versione, Gemini 2.0, è "fatta per l'era agentiva", secondo Google. Gemini 2.0 è disponibile in diverse varianti:

  • Gemini 2.0 Flash è un modello leggero compatibile con l'uso di strumenti. Prossimamente saranno incluse altre funzioni, come la generazione di immagini e la conversione di testo in voce.
  • Gemini 2.0 Flash-Lite è una versione migliorata del precedente 1.5 Flash, leggero ed economico. Mantiene la stessa velocità e costo, migliorando al contempo la qualità.
  • Gemini 2.0 Pro è ciò che Google definisce il suo modello più robusto per la codifica e per affrontare istruzioni complesse.