IBM ha annunciato oggi il rilascio di IBM Granite 3.1, l'ultimo aggiornamento della sua rinomata serie Granite di modelli linguistici aperti, potenti e ottimizzati per l'uso aziendale. Questa suite di miglioramenti, aggiunte e nuove funzionalità è principalmente incentrata sull'incremento delle prestazioni, della precisione e dell'affidabilità in casi d'uso aziendali cruciali, quali l'utilizzo di strumenti, la generazione aumentata dal recupero (RAG) e i flussi di lavoro di intelligenza artificiale basati su agenti scalabili.

Granite 3.1 si basa sul successo della collezione Granite 3.0, rilasciata di recente. IBM prevede di continuare a rilasciare modelli e funzionalità aggiornati per la serie Granite 3 nei prossimi mesi, con nuove capacità multimodali pianificate per il primo trimestre del 2025.

Panoramica delle novità principali di Granite 3.1

Le innovazioni introdotte con Granite 3.1 sono molteplici e significative, pensate per elevare gli standard dell'intelligenza artificiale generativa in ambito aziendale. Ecco un riepilogo dei punti salienti:

Granite 3.1 8B Instruct offre miglioramenti sostanziali delle prestazioni rispetto a Granite 3.0 8B Instruct, posizionandosi tra i modelli aperti con i punteggi medi più alti nella sua classe di peso, secondo i benchmark della classifica Hugging Face OpenLLM.
Sono state estese le finestre di contesto per l'intera famiglia di modelli linguistici Granite 3. I più recenti modelli densi (Granite 3.1 8B, Granite 3.1 2B), modelli MoE (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) e modelli Guardian (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) vantano ora una lunghezza del contesto di 128K token.
Viene rilasciata una serie di modelli di embedding completamente nuovi. Questi nuovi modelli Granite, ottimizzati per la velocità di recupero, sono offerti in quattro dimensioni, che vanno da 30 milioni a 278 milioni di parametri. Similmente alle loro controparti generative, offrono supporto multilingue in 12 diverse lingue: inglese, tedesco, spagnolo, francese, giapponese, portoghese, arabo, ceco, italiano, coreano, olandese e cinese.
Granite Guardian 3.1 8B e 2B introducono una nuova funzionalità di rilevamento delle allucinazioni, fornendo maggiore controllo e osservabilità per gli agenti che invocano strumenti.
Tutti i modelli Granite 3.1, Granite Guardian 3.1 e Granite Embedding sono open source sotto la licenza Apache 2.0.
Queste ultime aggiunte alla serie Granite seguono la recente introduzione da parte di IBM di Docling (un framework open source per la preparazione di documenti per RAG e altre applicazioni di intelligenza artificiale generativa) e Bee (un framework open source indipendente dal modello per l'AI basata su agenti).
Granite TTM (TinyTimeMixers), la serie di modelli compatti ma altamente performanti di IBM per serie temporali, è ora disponibile tramite la versione beta dell'API e dell'SDK di previsione delle serie temporali di watsonx.ai, all'interno di watsonx.ai.
I modelli Granite 3.1 sono ora disponibili in IBM watsonx.ai e tramite partner della piattaforma, tra cui (in ordine alfabetico): Docker, Hugging Face, LM Studio, Ollama e Replicate.
Granite 3.1 viene anche utilizzato internamente da partner aziendali: Samsung sta integrando modelli Granite selezionati nella sua piattaforma SDS; Lockheed Martin sta integrando i modelli Granite 3.1 nei suoi strumenti AI Factory, utilizzati da oltre 10.000 sviluppatori e ingegneri.

Granite 3.1 8B Instruct: innalzare l'asticella per i modelli aziendali leggeri

Gli sforzi di IBM nell'ottimizzazione continua della serie Granite sono più evidenti nella crescita del suo modello di punta con una densità di 8 miliardi di parametri. IBM Granite 3.1 8B Instruct supera ora la maggior parte dei modelli aperti nella sua classe di peso nelle medie dei punteggi di benchmark accademici inclusi nella classifica Hugging Face OpenLLM.

Nello sviluppo della famiglia di modelli Granite, si è continuato a dare priorità all'eccellenza e all'efficienza nei casi d'uso aziendali, inclusa l'intelligenza artificiale basata su agenti. Questo progresso è più evidente nel miglioramento significativo delle prestazioni del più recente modello 8B su IFEval, un set di dati di attività che testano la capacità di un modello di seguire istruzioni dettagliate, e su Multi-Step Soft Reasoning (MuSR), che misura la capacità di ragionamento logico e di comprensione di testi lunghi.

La tabella comparativa delle prestazioni dei modelli sulla classifica Hugging Face OpenLLM evidenzia chiaramente questo salto qualitativo, posizionando Granite 3.1 8B Instruct come un leader di categoria.

Lunghezza del contesto estesa per una maggiore versatilità

Il salto prestazionale da Granite 3.0 a Granite 3.1 è supportato dall'espansione delle finestre di contesto di tutti i modelli. La lunghezza del contesto di 128K token di Granite 3.1 è pari a quella di altre serie di modelli aperti leader, inclusi Llama 3.1–3.3 e Qwen2.5.

La finestra di contesto (o lunghezza del contesto) di un Large Language Model (LLM) è la quantità di testo, espressa in token, che un LLM può elaborare contemporaneamente. Una finestra di contesto più ampia consente a un modello di gestire input più grandi, di sostenere scambi continui più lunghi e di incorporare maggiori informazioni in ogni output.

La tokenizzazione non implica un "tasso di cambio" fisso token-parola, ma 1,5 token per parola è una stima utile. 128K token equivalgono quindi approssimativamente a un libro di 300 pagine.

Al di sopra di una soglia di circa 100.000 token, si aprono nuove e impressionanti possibilità, tra cui la risposta a domande su più documenti, la comprensione del codice a livello di repository, la auto-riflessione e gli agenti autonomi potenziati da LLM. La lunghezza del contesto estesa di Granite 3.1 si adatta quindi a una gamma molto più ampia di casi d'uso aziendali, dall'elaborazione di codebase e documenti legali estesi nella loro interezza alla revisione simultanea di migliaia di transazioni finanziarie.

Granite Guardian 3.1: rilevamento delle allucinazioni nei flussi di lavoro basati su agenti

Granite Guardian 3.1 8B e Granite Guardian 3.1 2B possono ora rilevare le allucinazioni che possono verificarsi in un flusso di lavoro basato su agenti, offrendo la stessa responsabilità e fiducia nelle chiamate di funzione che già IBM fornisce per la RAG.

Tra la richiesta iniziale a un agente AI e l'output che l'agente restituisce infine all'utente, avvengono molti passaggi e sottoprocessi. Per garantire una supervisione end-to-end, i modelli Granite Guardian 3.1 monitorano ogni chiamata di funzione per individuare allucinazioni sintattiche e semantiche.

Ad esempio, se un agente AI presume di interrogare una fonte di informazione esterna, Granite Guardian 3.1 monitora il flusso di informazioni false. Se un flusso di lavoro basato su agenti include calcoli intermedi con numeri provenienti da un set di dati bancari, Granite Guardian 3.1 verifica che l'agente abbia invocato la chiamata di funzione corretta insieme ai numeri appropriati.

Il rilascio di oggi rappresenta un ulteriore passo verso la responsabilità e la fiducia per ogni componente di un flusso di lavoro aziendale basato su LLM. I nuovi modelli Granite Guardian 3.1 sono disponibili su Hugging Face. Saranno disponibili anche tramite Ollama entro la fine di questo mese e in IBM watsonx.ai a gennaio 2025.

Nuovi modelli di embedding multilingue

Con Granite 3.1, IBM introduce una serie di modelli di embedding completamente nuovi, pensati per supportare un'ampia gamma di applicazioni di ricerca e recupero di informazioni. Questi modelli sono ottimizzati per la velocità di recupero, il che li rende ideali per scenari che richiedono risposte rapide e accurate.

I nuovi modelli Granite di embedding sono offerti in quattro dimensioni diverse, che variano in complessità da 30 milioni a 278 milioni di parametri. Questa varietà consente agli sviluppatori di scegliere il modello più adatto alle loro esigenze specifiche, bilanciando tra prestazioni e requisiti di risorse.

Un aspetto cruciale di questi modelli è il loro supporto multilingue. Offrono capacità in 12 diverse lingue, estendendo la loro utilità a un pubblico globale. Le lingue supportate includono:

Inglese
Tedesco
Spagnolo
Francese
Giapponese
Portoghese
Arabo
Ceco
Italiano
Coreano
Olandese
Cinese

Questa capacità multilingue è fondamentale per le aziende che operano in contesti internazionali, permettendo di elaborare e recuperare informazioni in diverse lingue con la stessa efficacia.

L'impegno di IBM per l'open source

Come sempre, il storico impegno di IBM per l'open source si riflette nella licenza open source liberale e standard per ogni offerta trattata in questo articolo. Tutti i modelli Granite 3.1, Granite Guardian 3.1 e Granite Embedding sono rilasciati sotto la licenza Apache 2.0, garantendo accessibilità, flessibilità e trasparenza alla comunità degli sviluppatori.

Questi nuovi modelli Granite non sono gli unici contributi notevoli di IBM all'ecosistema LLM open source di recente. Il rilascio di oggi corona una serie di lanci innovativi open source recenti, da un framework flessibile per lo sviluppo di agenti AI a un toolkit intuitivo per sbloccare informazioni chiave archiviate in PDF, presentazioni e altri formati di file difficili da elaborare per i modelli. L'uso di questi strumenti e framework in combinazione con i modelli di Granite 3.1 offre agli sviluppatori funzionalità estese per RAG, agenti AI e altri flussi di lavoro basati su LLM.

Altri contributi open source di IBM

Docling: un framework open source progettato per la preparazione dei documenti per RAG e altre applicazioni di intelligenza artificiale generativa. Docling semplifica il processo di estrazione e strutturazione delle informazioni da documenti complessi, rendendole facilmente accessibili e utilizzabili dai modelli AI.
Bee: un framework open source indipendente dal modello per l'intelligenza artificiale basata su agenti. Bee fornisce una struttura robusta per lo sviluppo di agenti AI che possono interagire con vari sistemi e svolgere compiti complessi, migliorando l'automazione e l'efficienza.

Disponibilità e partnership strategiche

I modelli Granite 3.1 sono ora disponibili in IBM watsonx.ai, la piattaforma di IBM per la creazione, il deployment e la gestione di modelli di AI. Inoltre, sono accessibili tramite una rete di partner della piattaforma, tra cui (in ordine alfabetico):

Docker
Hugging Face
LM Studio
Ollama
Replicate

Questa ampia disponibilità assicura che sviluppatori e aziende possano integrare facilmente Granite 3.1 nei loro ecosistemi esistenti.

Granite 3.1 viene anche utilizzato internamente da partner aziendali di rilievo:

Samsung sta integrando modelli Granite selezionati nella sua piattaforma SDS, per potenziare le sue soluzioni di storage e gestione dati con capacità AI avanzate.
Lockheed Martin sta integrando i modelli Granite 3.1 nei suoi strumenti AI Factory, che sono utilizzati da oltre 10.000 sviluppatori e ingegneri per accelerare lo sviluppo e l'implementazione di applicazioni AI critiche.

Granite TTM (TinyTimeMixers)

La serie Granite TTM (TinyTimeMixers) di IBM, composta da modelli compatti ma altamente performanti per serie temporali, è ora disponibile tramite la versione beta di watsonx.ai Timeseries Forecasting API e SDK. Questi modelli sono cruciali per le applicazioni che richiedono l'analisi e la previsione di dati di serie temporali, come in finanza, produzione e logistica, offrendo precisione anche con requisiti computazionali ridotti.

Uno sguardo al futuro: funzionalità multimodali nel 2025

IBM continua a dimostrare il suo impegno verso l'innovazione nel campo dell'intelligenza artificiale. L'azienda prevede di rilasciare costantemente aggiornamenti per la serie Granite 3 nei prossimi mesi, con un focus particolare sulle nuove funzionalità multimodali che sono pianificate per il primo trimestre del 2025. Queste capacità permetteranno ai modelli di elaborare e comprendere non solo il testo, ma anche altri tipi di dati come immagini, audio e video, aprendo la strada a applicazioni AI ancora più sofisticate e integrate.

Con Granite 3.1, IBM riafferma il suo ruolo di leader nell'offerta di soluzioni di intelligenza artificiale open source, potenti e affidabili, progettate per soddisfare le esigenze complesse del mondo aziendale e accelerare la trasformazione digitale attraverso l'innovazione continua.