Autori:

  • Kate Soule, direttore, Technical Product Management, Granite, IBM
  • Dave Bergmann, senior staff writer, AI Models, IBM Think

Oggi IBM ha lanciato IBM Granite 3.1, l'ultimo aggiornamento della nostra serie Granite di modelli di linguaggio aperti, ad alte prestazioni e ottimizzati per le aziende. Questo insieme di miglioramenti, aggiunte e nuove capacità si concentra principalmente sull'aumento delle prestazioni, della precisione e della responsabilità in casi d'uso aziendali essenziali come l'utilizzo di strumenti, la generazione aumentata da recupero (RAG) e i flussi di lavoro scalabili di IA agentica.

Granite 3.1 si basa sull'impulso della raccolta Granite 3.0, lanciata di recente. IBM continuerà a rilasciare modelli e funzionalità aggiornati per la serie Granite 3 nei prossimi mesi, con nuove capacità multimodali previste per il primo trimestre del 2025.

Questi nuovi modelli Granite non sono gli unici contributi recenti e degni di nota di IBM all'ecosistema LLM open-source. Il lancio di oggi culmina una recente serie di rilasci open-source innovativi, da un framework flessibile per lo sviluppo di agenti IA a una suite di strumenti intuitivi per sbloccare informazioni essenziali nascoste in PDF, presentazioni e altri formati di file difficili da digerire per i modelli. L'uso di questi strumenti e framework, insieme ai modelli Granite 3.1, offre agli sviluppatori capacità evolute per RAG, agenti IA e altri flussi di lavoro basati su LLM.

Come sempre, l'impegno storico di IBM con l'open-source si riflette nella permissività e nella norma delle licenze open-source per ciascuna delle offerte discusse in questo articolo.

Granite 3.1 8B Instruct: elevando lo standard per i modelli aziendali leggeri

Gli sforzi di IBM nell'ottimizzazione continua della serie Granite sono più evidenti nella crescita del suo modello denso di punta da 8 miliardi di parametri. IBM Granite 3.1 8B Instruct supera ora la maggior parte dei modelli aperti della sua categoria di peso nei punteggi medi nelle valutazioni accademiche di benchmark, inclusa la Hugging Face OpenLLM Leaderboard.

L'evoluzione della serie di modelli Granite ha continuato a dare priorità all'eccellenza e all'efficienza nei casi d'uso aziendali, inclusa l'IA agentica. Questo progresso è più evidente nelle prestazioni significativamente migliorate del modello 8B più recente su IFEval, un set di dati che include attività che testano la capacità di un modello di seguire istruzioni dettagliate, e su Multi-step Soft Reasoning (MuSR), le cui attività misurano il ragionamento e la comprensione su e di testi lunghi.

Il miglioramento delle prestazioni dei modelli viene riassunto nella comparazione dei punteggi medi nei benchmark della Hugging Face OpenLLM Leaderboard.

La lunghezza di contesto estesa

Il rafforzamento delle prestazioni da Granite 3.0 a Granite 3.1 è supportato dall'ampliamento delle finestre di contesto di tutti i modelli. La lunghezza di contesto di 128.000 token di Granite 3.1 è alla pari con quella di altre serie di modelli aperti leader, tra cui Llama 3.1-3.3 e Qwen2.5.

La finestra di contesto (o lunghezza di contesto) di un modello di linguaggio esteso (LLM) è la quantità di testo, in token, che un LLM può considerare in un dato momento. Una finestra di contesto maggiore consente a un modello di elaborare input più grandi, di effettuare scambi continui più lunghi e di incorporare più informazioni in ogni output. La tokenizzazione non implica un "tasso di cambio" fisso di token per parole, ma una stima utile è 1,5 token per parola. Un contesto di 128.000 token equivale approssimativamente a un libro di 300 pagine.

Al di sopra di una soglia di 100.000 token, emergono nuove e impressionanti possibilità, inclusa la risposta a domande su più documenti, la comprensione del codice a livello di repository, l'autoriflessione e gli agenti autonomi basati su LLM.1

La lunghezza di contesto estesa di Granite 3.1 si presta così a una gamma molto più ampia di casi d'uso aziendali, dal processare basi di codice e lunghi documenti legali nella loro interezza al revisionare simultaneamente migliaia di transazioni finanziarie.

Granite Guardian 3.1: rilevamento delle allucinazioni nei flussi di lavoro agentici

Granite Guardian 3.1 8B e Granite Guardian 3.1 2B possono ora rilevare le allucinazioni che possono verificarsi in un flusso di lavoro di un agente, fornendo la stessa responsabilità e fiducia alla chiamata di funzione che già forniamo per RAG.

Nello spazio tra la richiesta iniziale inviata a un agente IA e il risultato che l'agente restituisce finalmente all'utente si verificano molti passaggi e sottoprocessi. Per fornire supervisione in ogni momento, i modelli Granite Guardian 3.1 monitorano ogni chiamata di funzione alla ricerca di allucinazioni sintattiche e semantiche.

Ad esempio, se un agente IA presumibilmente consulta una fonte di informazione esterna, Granite Guardian 3.1 monitora i flussi di informazione fabbricati. Se un flusso di lavoro di un agente implica calcoli intermedi utilizzando cifre recuperate da un registro bancario, Granite Guardian 3.1 verifica se l'agente ha effettuato la chiamata a funzione corretta insieme alle cifre appropriate.

Il lancio di oggi è un ulteriore passo verso la responsabilità e la fiducia per qualsiasi componente di un flusso di lavoro aziendale basato su LLM.

I nuovi modelli Granite Guardian 3.1 sono disponibili su Hugging Face.

Nuovi modelli di embedding Granite

Stiamo lanciando una famiglia di modelli di embedding completamente nuovi. I nuovi modelli Granite Embedding ottimizzati per il recupero sono offerti in quattro dimensioni, che vanno da 30 a 278 milioni di parametri. Similmente ai loro omologhi generativi, offrono supporto multilingue in 12 lingue diverse:

  • Inglese
  • Tedesco
  • Spagnolo
  • Francese
  • Giapponese
  • Portoghese
  • Arabo
  • Ceco
  • Italiano
  • Coreano
  • Olandese
  • Cinese

Impegno open-source e licenza Apache 2.0

Tutti i modelli Granite 3.1, Granite Guardian 3.1 e Granite Embedding sono open-source soggetti alla licenza Apache 2.0. Questo impegno riflette la storica dedizione di IBM a contribuire e sostenere l'ecosistema open-source.

Disponibilità e adozione aziendale

I modelli Granite 3.1 sono già disponibili su IBM watsonx.ai, oltre che tramite i partner della piattaforma, tra cui (in ordine alfabetico):

  • Docker
  • Hugging Face
  • LM Studio
  • Ollama
  • Replicate

Granite 3.1 sarà anche sfruttato internamente dai partner aziendali: Samsung sta integrando modelli Granite selezionati nella sua piattaforma SDS; Lockheed Martin sta integrando modelli Granite 3.1 nei suoi strumenti IA Factory, utilizzati da oltre 10.000 sviluppatori e ingegneri.

Altri contributi open-source di IBM

Queste ultime aggiunte alla serie Granite seguono il recente lancio da parte di IBM di Docling (un framework open-source per preparare documenti per RAG e altre applicazioni di IA generativa) e Bee (un framework agnostico open-source per IA generativa).

Inoltre, Granite TTM (TinyTimeMixers), la serie di modelli di serie temporali compatti ma ad alte prestazioni di IBM, sono già disponibili in watsonx.ai tramite la versione beta dell'API e dell'SDK di previsione delle serie temporali di watsonx.ai.

Il futuro di Granite

L'introduzione di Granite 3.1 segna un passo significativo nell'evoluzione dei modelli di linguaggio aperti di IBM, focalizzati sulle esigenze aziendali. Con l'ampliamento delle finestre di contesto, i miglioramenti delle prestazioni, le nuove capacità di embedding multilingue e il rilevamento delle allucinazioni, IBM continua a rafforzare la sua offerta per casi d'uso critici come la RAG e gli agenti IA. Il futuro vedrà ulteriori innovazioni, inclusa l'introduzione di capacità multimodali nel primo trimestre del 2025, che promettono di espandere ulteriormente le applicazioni e la versatilità della serie Granite.