IBM ha annunciato il lancio di Granite 4.0, la prossima generazione di modelli linguistici di grandi dimensioni (LLM) progettati per le esigenze specifiche dell'impresa. Questa nuova offerta rappresenta un passo significativo nell'evoluzione dei modelli di intelligenza artificiale, introducendo un'architettura ibrida innovativa che promette di ridefinire l'efficienza e l'accessibilità nel panorama degli LLM.

Gli autori di questo sviluppo sono Kate Soule, direttore del Technical Product Management per Granite presso IBM, e Dave Bergmann, Senior Staff Writer per AI Models presso IBM Think, i quali hanno evidenziato come Granite 4.0 sia stato concepito per affrontare le sfide pratiche di implementazione dell'IA su larga scala.

Architettura ibrida all'avanguardia per un'efficienza senza precedenti

La caratteristica distintiva di Granite 4.0 è la sua nuova architettura ibrida Mamba/Transformer. Questa combinazione ingegneristica è stata sviluppata per ridurre drasticamente il fabbisogno di memoria senza sacrificare le prestazioni. Tradizionalmente, gli LLM richiedono una quantità significativa di RAM e GPU costose per funzionare in modo efficiente. Granite 4.0 rovescia questo paradigma, consentendo l'esecuzione su GPU notevolmente meno costose e con costi operativi significativamente ridotti rispetto ai LLM convenzionali.

L'architettura ibrida Granite 4 combina una piccola quantità di strati di attenzione standard di tipo Transformer con una maggioranza di strati Mamba, e più precisamente, Mamba-2. Mamba elabora le sfumature del linguaggio in un modo completamente distinto e decisamente più efficiente rispetto ai modelli linguistici convenzionali, il che si traduce in un'inferenza più rapida e meno onerosa dal punto di vista delle risorse.

Certificazione ISO 42001 e impegno per la trasparenza

Un aspetto fondamentale di Granite 4.0 è il suo impegno verso la sicurezza, la governance e la trasparenza. Queste nuove offerte, rese open source con una licenza standard Apache 2.0, sono i primi modelli aperti al mondo a ricevere la certificazione ISO 42001. Questa certificazione, ottenuta a seguito di un audit esterno completo durato diversi mesi sul processo di sviluppo dell'IA di IBM, è la prima norma internazionale al mondo per la responsabilità, l'esplicabilità, la privacy dei dati e l'affidabilità dei sistemi di gestione dell'IA (AIMS). Inoltre, i modelli sono dotati di una firma crittografica, confermando la loro adesione a pratiche riconosciute a livello internazionale in materia di sicurezza, governance e trasparenza, permettendo agli sviluppatori di garantirne la provenienza e l'autenticità.

Disponibilità e accesso diversificato

I modelli Granite 4.0 sono ampiamente accessibili attraverso diverse piattaforme. Sono disponibili su IBM watsonx.ai, oltre che tramite partner di piattaforma, tra cui (in ordine alfabetico):

Dell Technologies su Dell Pro AI Studio e Dell Enterprise Hub
Docker Hub
Hugging Face
Kaggle
LM Studio
NVIDIA NIM
Ollama
OPAQUE
Replicate

L'accesso tramite Amazon SageMaker JumpStart e Microsoft Azure AI Foundry sarà disponibile a breve, ampliando ulteriormente la portata di questi modelli innovativi.

Una nuova era per i modelli linguistici efficienti

Il lancio di Granite 4.0 inaugura una nuova era per la famiglia di grandi modelli linguistici pronti all'uso di IBM. Sfruttando i progressi architettonici, IBM raddoppia l'investimento in modelli linguistici piccoli ed efficienti, offrendo prestazioni competitive a costi e latenza ridotti. I modelli Granite 4.0 sono stati sviluppati con un'enfasi sulle attività essenziali per i workflow agentici, sia in implementazioni autonome sia come blocchi costitutivi convenienti in sistemi complessi, affiancati da modelli di ragionamento più grandi.

La serie Granite 4.0: varietà per ogni esigenza

La serie Granite 4.0 comprende diverse dimensioni di modelli e stili di architettura per garantire una produzione ottimale su un'ampia gamma di vincoli hardware. Questi includono:

Granite-4.0-H-Small: un modello ibrido "Mixture of Experts" (MoE) con un totale di 32 miliardi di parametri (9 miliardi attivi).
Granite-4.0-H-Tiny: un MoE ibrido con un totale di 7 miliardi di parametri (1 miliardo attivo).
Granite-4.0-H-Micro: un modello ibrido denso con 3 miliardi di parametri.

Questa versione include anche Granite-4.0-Micro, un modello denso da 3 miliardi di parametri con un'architettura transformer convenzionale incentrata sull'attenzione, per adattarsi a piattaforme e comunità che non supportano ancora le architetture ibride.

Granite 4.0-H-Small è un modello di lavoro progettato per prestazioni robuste ed economicamente vantaggiose nei workflow aziendali, come gli agenti multi-strumento e l'automazione del supporto clienti. I modelli Tiny e Micro sono ideati per applicazioni a bassa latenza, edge e locali, e possono anche fungere da blocchi costitutivi all'interno di workflow per l'esecuzione rapida di attività chiave come la chiamata di funzioni.

Miglioramenti significativi nelle prestazioni

Le prestazioni di riferimento di Granite 4.0 mostrano miglioramenti considerevoli rispetto alle generazioni precedenti. Anche i modelli Granite 4.0 più piccoli superano significativamente i modelli Granite 3.3 8B, pur essendo meno della metà delle loro dimensioni. Tuttavia, la loro forza più notevole è un aumento straordinario dell'efficienza dell'inferenza. Rispetto ai LLM convenzionali, i modelli ibridi Granite 4.0 richiedono molta meno RAM per funzionare, specialmente per compiti che implicano contesti lunghi (come l'ingestione di una grande base di codice o di una documentazione completa) e più sessioni contemporaneamente (come un agente di servizio clienti che gestisce simultaneamente numerose richieste degli utenti).

Ancora più importante, questa drastica riduzione del fabbisogno di memoria di Granite 4.0 si traduce in una riduzione altrettanto significativa del costo dell'hardware necessario per eseguire carichi di lavoro pesanti a elevate velocità di inferenza. L'obiettivo di IBM è facilitare l'accesso offrendo alle aziende e agli sviluppatori open source un accesso economico a LLM altamente competitivi.

Sicurezza, protezione e trasparenza nell'ecosistema

La priorità di IBM per l'efficienza pratica dell'inferenza su qualsiasi hardware va di pari passo con l'enfasi sulla sicurezza, la protezione e la trasparenza del suo ecosistema di modelli. Oltre alla certificazione ISO 42001, questa affidabilità fondamentale è rafforzata dalla recente partnership con HackerOne nell'ambito di un programma di bug bounty per Granite. A ciò si aggiunge la nuova pratica di firma crittografica dei checkpoint dei modelli 4.0 disponibili su Hugging Face, che consente a sviluppatori e aziende di garantire la provenienza e l'autenticità dei modelli.

Feedback dai partner e piani futuri

Alcuni partner aziendali, tra cui EY e Lockheed Martin, hanno beneficiato di un accesso anticipato per testare le capacità di Granite 4.0 su vasta scala, in casi d'uso strategici. I feedback di questa versione preliminare da parte di tali partner, così come quelli della comunità open source, saranno utilizzati per migliorare e ottimizzare i modelli in vista di futuri aggiornamenti.

La versione attuale include le varianti Base e Instruct di Micro, Tiny e Small. Ulteriori dimensioni di modelli (più grandi e più piccole), così come varianti con supporto per il ragionamento esplicito, sono previste per essere rilasciate entro la fine del 2025.

Dettagli sull'efficienza di inferenza di Granite 4.0

Utilizzo della memoria

I modelli ibridi Granite 4.0 sono significativamente più veloci e più efficienti in termini di memoria rispetto ai modelli di dimensioni comparabili costruiti con architetture transformer standard. Le esigenze di memoria GPU degli LLM sono spesso espresse in termini di quantità di RAM necessaria solo per caricare i pesi del modello. Tuttavia, molti casi d'uso aziendali, in particolare quelli che coinvolgono implementazioni su larga scala, IA agentica in ambienti complessi o sistemi RAG, implicano un contesto prolungato, inferenza batch di più istanze di modelli simultanee, o entrambi. In linea con l'importanza che IBM attribuisce alle funzionalità pratiche aziendali, Granite 4 è stato valutato e ottimizzato tenendo conto del contesto prolungato e delle sessioni simultanee.

Rispetto ai modelli convenzionali basati su Transformer, Granite 4.0-H può offrire una riduzione di oltre il 70% della RAM necessaria per gestire input lunghi e più batch simultanei. I modelli ibridi Granite 4.0 sono inoltre compatibili con le GPU AMD Instinct MI-300X, il che consente di ridurre ulteriormente il loro ingombro di memoria.

Velocità di inferenza

I LLM convenzionali faticano a mantenere il throughput quando la lunghezza del contesto o la dimensione dei batch aumenta. I modelli ibridi Granite 4.0 continuano ad accelerare la loro produzione anche per carichi di lavoro in cui la maggior parte dei modelli rallenta o si satura in termini di capacità hardware. Maggiore sarà l'applicazione di buone pratiche, maggiori saranno i vantaggi visibili in termini di velocità e reattività.

In sintesi, IBM Granite 4.0 non è solo un avanzamento tecnologico, ma una soluzione pratica e accessibile, progettata per portare l'intelligenza artificiale generativa efficiente ed etica nel cuore delle operazioni aziendali, democratizzando l'accesso a capacità avanzate di elaborazione del linguaggio.