In data odierna, IBM annuncia il lancio di IBM Granite 3.1, l'ultima e più avanzata versione della sua serie Granite di modelli di linguaggio aperti, performanti e ottimizzati per l'uso aziendale. Questa suite di miglioramenti, aggiunte e nuove funzionalità si concentra principalmente sull'aumento delle prestazioni, della precisione e della responsabilità in casi d'uso aziendali essenziali, come l'utilizzo di strumenti, la generazione aumentata da recupero (RAG) e i workflow di intelligenza artificiale agentica scalabili.

Granite 3.1 si basa sul successo della collezione Granite 3.0, lanciata di recente, e rafforza l'impegno di IBM nell'innovazione continua. L'azienda continuerà a rilasciare modelli e funzionalità aggiornate per la serie Granite 3 nei prossimi mesi, con nuove capacità multimodali la cui uscita è prevista per il primo trimestre del 2025. I principali contributi e vantaggi di questa versione includono un significativo incremento delle prestazioni, finestre di contesto notevolmente estese, l'introduzione di nuovi modelli di embedding e l'aggiunta di funzionalità avanzate per la rilevazione delle allucinazioni.

Questi nuovi modelli Granite non sono gli unici contributi notevoli di IBM all'ecosistema LLM open source. Il lancio odierno è il culmine di una serie recente di innovative release open source, che vanno da un framework flessibile per lo sviluppo di agenti IA a una toolbox intuitiva per accedere a informazioni cruciali archiviate in PDF, diapositive e altri formati di file difficili da gestire per i modelli. L'utilizzo di questi strumenti e framework in tandem con i modelli Granite 3.1 offre agli sviluppatori capacità estese per RAG, agenti IA e altri workflow basati su LLM. Come sempre, lo storico impegno di IBM nei confronti dell'open source si riflette nelle licenze open source permissive e standard di tutte le offerte presentate in questo articolo.

Granite 3.1 8B Instruct: alzare l'asticella per i modelli leggeri per l'impresa

Gli sforzi di IBM nell'ottimizzazione continua della serie Granite sono particolarmente evidenti nella crescita del suo modello denso di punta, il modello 8B. IBM Granite 3.1 8B Instruct supera ora la maggior parte dei modelli aperti della sua categoria in termini di punteggi medi sulle valutazioni di riferimento accademiche incluse nella classifica Hugging Face OpenLLM. Questa evoluzione della serie di modelli Granite dimostra un impegno continuo verso l'eccellenza e l'efficacia nei casi d'uso aziendali, inclusa l'IA agentica.

Questi progressi sono particolarmente visibili nel significativo miglioramento delle prestazioni del modello 8B su IFEval, un set di dati che include attività che testano la capacità di un modello di seguire istruzioni dettagliate, e sul ragionamento multi-step soft (MuSR), le cui attività misurano il ragionamento su testi lunghi e la loro comprensione. Il punteggio medio del modello sulle valutazioni di riferimento della classifica Hugging Face OpenLLM è ora tra i più alti di tutti i modelli aperti della sua categoria, ponendo Granite 3.1 come un leader di mercato per i modelli leggeri e performanti.

Lunghezza del contesto estesa

L'estensione delle finestre di contesto di tutti i modelli rafforza i guadagni di prestazioni tra Granite 3.0 e Granite 3.1. La lunghezza del contesto di 128.000 token di Granite 3.1 è comparabile a quella delle altre principali serie di modelli aperti, tra cui Llama 3.1-3.3 e Qwen2.5. Questa capacità migliorata consente ai modelli di elaborare un volume di input maggiore e di effettuare scambi continui più lunghi, incorporando più informazioni in ogni output.

La finestra di contesto (o lunghezza massima del testo) di un modello di linguaggio di grandi dimensioni (LLM) è la quantità di testo, in token, che un LLM può considerare in un dato momento. Una finestra di contesto più grande consente a un modello di elaborare un volume di input maggiore, di effettuare scambi continui più lunghi e di incorporare più informazioni in ogni produzione. La tokenizzazione non implica una "parità di cambio" fissa token-parola, ma piuttosto circa 1,5 token per parola. Ciò significa che 128.000 token rappresentano approssimativamente un libro di 300 pagine, consentendo ai modelli di comprendere e generare testo basandosi su una quantità molto più ampia di informazioni.

Oltre una soglia di circa 100.000 token, emergono nuove e impressionanti possibilità, tra cui la risposta a domande che coprono più documenti, la comprensione di codice a livello di repository, l'autoriflessione e gli agenti autonomi alimentati da LLM. La lunghezza di contesto estesa di Granite 3.1 si presta quindi a una gamma molto più ampia di casi d'uso aziendali, dal trattamento di basi di codice e lunghi documenti legali nella loro interezza all'esame simultaneo di migliaia di transazioni finanziarie. I modelli densi (Granite 3.1 8B, Granite 3.1 2B), i modelli MoE (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) e i modelli guardrail (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) presentano tutti una lunghezza di contesto di 128.000 token.

Nuovi modelli di embedding

IBM sta anche lanciando una famiglia di nuovissimi modelli di embedding. I nuovi modelli Granite Embedding, ottimizzati per il recupero, sono disponibili in quattro dimensioni, che vanno da 30 milioni a 278 milioni di parametri. Questi modelli sono progettati per migliorare la capacità di recuperare informazioni pertinenti in applicazioni RAG e altri scenari che richiedono una comprensione profonda e contestuale del testo.

Come i loro omologhi generativi, i modelli Granite Embedding offrono supporto multilingue in 12 lingue diverse:

Inglese
Tedesco
Spagnolo
Francese
Giapponese
Portoghese
Arabo
Ceco
Italiano
Coreano
Olandese
Cinese

Questo ampio supporto linguistico rende i modelli Granite Embedding strumenti versatili per aziende che operano in contesti globali, consentendo loro di elaborare e recuperare informazioni in diverse lingue con elevata precisione.

Granite Guardian 3.1: rilevamento delle allucinazioni nei workflow agentici

Granite Guardian 3.1 8B e Granite Guardian 3.1 2B dispongono ora di una nuova funzione di rilevamento delle allucinazioni che consente un controllo e un'osservabilità rafforzati per gli agenti che effettuano chiamate di strumenti. Questa capacità è cruciale per garantire che gli agenti IA operino in modo affidabile e responsabile, soprattutto in ambienti aziendali dove l'accuratezza è fondamentale. Il rilevamento delle allucinazioni assicura che il richiamo di funzioni goda dello stesso livello di responsabilità e fiducia che IBM già garantisce per la RAG.

Numerosi passaggi e sottoprocessi si verificano tra la query iniziale inviata a un agente IA e la produzione che l'agente restituisce infine all'utente. Per garantire una supervisione permanente, i modelli Granite Guardian 3.1 controllano ogni richiamo di funzione per rilevare eventuali allucinazioni sintattiche e semantiche. Ad esempio, se un agente IA è destinato a interrogare una fonte di informazione esterna, Granite Guardian 3.1 monitora i flussi di informazione fabbricati. Se un workflow agentico implica calcoli intermedi utilizzando cifre estratte da un estratto conto bancario, Granite Guardian 3.1 verifica se l'agente ha lanciato il richiamo di funzione corretto e le cifre appropriate. Il rilascio odierno è un ulteriore passo avanti verso la responsabilità e la fiducia per ogni componente di un workflow di intelligenza artificiale.

L'impegno di IBM per l'open source e le risorse correlate

Tutti i modelli Granite 3.1, Granite Guardian 3.1 e Granite Embedding sono open source sotto licenza Apache 2.0. Questo riflette l'impegno storico di IBM nei confronti dell'open source, fornendo alla comunità e alle aziende strumenti potenti e trasparenti per lo sviluppo dell'IA.

Queste ultime aggiunte alla serie Granite fanno seguito al recente lancio da parte di IBM di Docling, un framework open source destinato alla preparazione di documenti per la RAG e altre applicazioni di IA generativa, e di Bee, un framework open source indipendente dal modello per l'IA agentica. L'utilizzo di questi strumenti e framework in tandem con i modelli Granite 3.1 offre agli sviluppatori capacità estese per la RAG, gli agenti IA e altri workflow basati su LLM, promuovendo un ecosistema di sviluppo AI più robusto e flessibile.

La serie di modelli di serie temporali compatti e molto performanti di IBM, Granite TTM (TinyTimeMixers), è ora disponibile su watsonx.ai grazie alla versione beta dell'API e dell'SDK watsonx.ai Timeseries Forecasting. Questo dimostra l'ampiezza dell'innovazione di IBM nel campo dell'IA, estendendosi oltre i modelli di linguaggio generativi per includere soluzioni specializzate per l'analisi dei dati temporali.

Disponibilità e adozione aziendale

I modelli Granite 3.1 sono ora disponibili su IBM watsonx.ai, la piattaforma di dati e AI di IBM che offre un ambiente completo per la creazione, la scalatura e la gestione dell'IA. Sono anche disponibili tramite i partner della piattaforma, inclusi (in ordine alfabetico):

Docker
Hugging Face
LM Studio
Ollama
Replicate

Questa ampia disponibilità garantisce che sviluppatori e aziende possano accedere facilmente e integrare i modelli Granite 3.1 nelle loro applicazioni e workflow esistenti.

Granite 3.1 sarà anche sfruttato internamente da partner aziendali di rilievo. Samsung, ad esempio, sta integrando alcuni modelli Granite nella sua piattaforma SDS, per migliorare le capacità di intelligenza artificiale all'interno dei suoi sistemi. Allo stesso modo, Lockheed Martin sta integrando i modelli Granite 3.1 nei suoi strumenti AI Factory, utilizzati da oltre 10.000 sviluppatori e ingegneri, a testimonianza della fiducia e del valore che queste innovazioni portano a settori ad alta intensità tecnologica.

Il lancio di IBM Granite 3.1 rappresenta un passo significativo nell'impegno di IBM a fornire soluzioni AI potenti, responsabili e open source per l'impresa. Con miglioramenti nelle prestazioni, capacità di contesto estese, nuovi modelli di embedding e funzionalità avanzate di rilevamento delle allucinazioni, Granite 3.1 è pronto a sbloccare nuove possibilità per le aziende che cercano di sfruttare l'intelligenza artificiale per l'innovazione e l'efficienza.