Autori
Kate Soule
Director, Technical Product Management, Granite
IBM

Dave Bergmann
Senior Staff Writer, AI Models
IBM Think

IBM® Granite 4.0: l'era dei modelli ibridi iperefficienti

Stiamo assistendo al lancio di Granite 4, la prossima generazione di modelli di linguaggio di IBM, che segna un'evoluzione significativa nel panorama dell'intelligenza artificiale per le imprese. Granite 4.0 introduce una nuova architettura ibrida Mamba/transformer che riduce notevolmente i requisiti di memoria senza sacrificare le prestazioni. Questa innovazione permette ai modelli di essere eseguiti su GPU significativamente più economiche e a un costo considerevolmente inferiore rispetto ai modelli di linguaggio di grandi dimensioni (LLM) convenzionali.

Queste nuove offerte di Granite 4.0 sono rilasciate con licenza Apache 2.0, uno standard nel mondo dell'open source. Si tratta dei primi modelli aperti al mondo a ricevere la certificazione ISO 42001 e sono inoltre firmati crittograficamente. Questo triplice approccio conferma la loro adesione a pratiche riconosciute a livello internazionale in materia di sicurezza, governance e trasparenza, fornendo alle aziende una base solida e affidabile per le loro implementazioni AI.

I modelli Granite 4.0 sono ampiamente accessibili, disponibili su IBM watsonx.ai e attraverso un ecosistema di partner di piattaforma che include (in ordine alfabetico): Dell Technologies in Dell Pro IA Studio e Dell Enterprise Hub, Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE e Replicate. L'accesso tramite Amazon SageMaker JumpStart e Microsoft Azure IA Foundry sarà disponibile a breve, ampliando ulteriormente la loro portata. Il lancio di Granite 4.0 inaugura una nuova era per la famiglia di modelli di linguaggio di grandi dimensioni pronti per l'impresa di IBM, che sfrutta i nuovi progressi architettonici per raddoppiare i modelli di linguaggio piccoli ed efficienti che forniscono prestazioni competitive a costi e latenza ridotti.

La collezione Granite 4.0: dimensioni e architetture per ogni esigenza

I modelli Granite 4.0 sono stati sviluppati prestando particolare attenzione alle attività essenziali per i flussi di lavoro agentici, sia in implementazioni autonome che come blocchi costitutivi a costi contenuti in sistemi complessi insieme a modelli di ragionamento più ampi. La collezione Granite 4.0 comprende diverse dimensioni di modelli e stili di architettura per fornire una produzione ottimale in una vasta gamma di vincoli hardware, tra cui:

  • Granite-4.0-H-Small, un modello ibrido di miscela di esperti (MoE) con 32 miliardi di parametri totali (9 miliardi attivi).
  • Granite-4.0-H-Tiny, un MoE ibrido con 7 miliardi di parametri totali (1 miliardo attivo).
  • Granite-4.0-H-Micro, un modello ibrido denso con 3 miliardi di parametri.

Questa versione include anche Granite-4.0-Micro, un modello denso da 3 miliardi con un'architettura del transformer convenzionale basata sull'attenzione, per adattarsi a piattaforme e comunità che non supportano ancora le architetture ibride.

Ogni modello è progettato per casi d'uso specifici. Granite 4.0-H Small è un modello estremamente resiliente che offre prestazioni robuste e convenienti in flussi di lavoro aziendali, come agenti multi-tasking e automazione del servizio clienti. I modelli Tiny e Micro sono stati pensati per applicazioni locali, edge e a bassa latenza, e possono anche servire come blocchi costitutivi all'interno di flussi di lavoro di agenzia più grandi per l'esecuzione rapida di compiti chiave come la chiamata di funzioni.

Efficienza di inferenza e riduzione dei costi

Il rendimento di riferimento di Granite 4.0 mostra miglioramenti sostanziali rispetto alle generazioni precedenti. Persino i modelli Granite 4.0 più piccoli superano significativamente Granite 3.3 8B, pur avendo meno della metà della sua dimensione. Tuttavia, il suo punto di forza più notevole è un aumento marcato dell'efficienza di inferenza. Rispetto agli LLM convenzionali, i nostri modelli ibridi Granite 4.0 richiedono significativamente meno RAM per funzionare, specialmente per compiti che implicano lunghe lunghezze di contesto (come l'elaborazione di una vasta base di codice o una documentazione estesa) e diverse sessioni contemporaneamente (come un agente di servizio clienti che gestisce molti dettagli di query degli utenti simultaneamente).

Ancor più importante, questa drastica riduzione dei requisiti di memoria di Granite 4.0 implica una riduzione altrettanto drastica del costo dell'hardware necessario per eseguire carichi di lavoro pesanti ad alte velocità di inferenza. L'obiettivo di IBM è ridurre le barriere all'ingresso, fornendo alle aziende e agli sviluppatori open source un accesso conveniente a LLM altamente competitivi.

Sicurezza, trasparenza e partnership strategiche

La priorità che IBM assegna all'efficienza pratica dell'inferenza su qualsiasi hardware è accompagnata dalla nostra enfasi sulla sicurezza e sulla trasparenza del nostro ecosistema di modelli. Dopo una lunga verifica esterna durata mesi del processo di sviluppo dell'IA di IBM, IBM® Granite è diventata recentemente l'unica famiglia di modelli di linguaggio aperti a ottenere la certificazione ISO 42001, rispettando il primo standard internazionale al mondo per la responsabilità, l'esplicabilità, la protezione dei dati e l'affidabilità nei sistemi di gestione dell'IA (AIMS). Quella affidabilità fondamentale è rafforzata dalla nostra recente partnership con HackerOne per un programma di ricompense per bug per Granite, oltre che dalla nostra nuova pratica di firma crittografica di tutti i punti di controllo del modello 4.0 disponibili su Hugging Face (il che consente a sviluppatori e aziende di garantire la provenienza e l'autenticità dei modelli).

Selezionati partner aziendali, inclusi EY e Lockheed Martin, hanno avuto accesso anticipato per testare le capacità di Granite 4.0 su scala in casi d'uso chiave. Il feedback di questi partner di lancio anticipato, insieme ai commenti della comunità open source, sarà utilizzato per migliorare e ottimizzare i modelli per futuri aggiornamenti.

La versione di oggi include le varianti Base e Instruct di Micro, Tiny e Small. È previsto che entro la fine del 2025 vengano lanciate dimensioni di modello aggiuntive (sia più grandi che più piccole), così come varianti con supporto per il ragionamento esplicito.

Efficienza di inferenza di Granite 4.0 nel dettaglio

I modelli ibridi Granite 4.0 sono significativamente più veloci e più efficienti in termini di memoria rispetto ai modelli di dimensioni comparabili costruiti con architetture del transformer standard. L'architettura ibrida di Granite 4 combina una piccola quantità di livelli di attenzione di stile transformer standard con la maggior parte dei livelli Mamba, più specificamente, Mamba-2. Mamba elabora le sfumature del linguaggio in un modo completamente distinto e significativamente più efficiente rispetto ai modelli di linguaggio convenzionali.

Uso della memoria

I requisiti di memoria GPU degli LLM sono spesso indicati in termini di quantità di RAM necessaria solo per caricare i pesi del modello. Ma molti casi d'uso aziendali, specialmente quelli che implicano l'implementazione su larga scala, l'IA agentica in ambienti complessi o i sistemi RAG, comportano un contesto prolungato, l'inferenza in batch di più istanze di modelli concorrenti contemporaneamente, o entrambe le cose. In linea con l'enfasi di IBM sulla praticità aziendale, abbiamo valutato e ottimizzato Granite 4 tenendo conto del contesto lungo e delle sessioni simultanee.

Rispetto ai modelli convenzionali basati su transformer, Granite 4.0-H può offrire una riduzione di oltre il 70% della RAM necessaria per gestire input lunghi e più batch simultanei. I modelli ibridi Granite 4.0 sono anche compatibili con le GPU AMD Instinct MI-300X, il che consente di ridurre ulteriormente la loro impronta di memoria.

Velocità di inferenza

Gli LLM convenzionali hanno difficoltà a mantenere le prestazioni all'aumentare della lunghezza del contesto o della dimensione del batch. I nostri modelli ibridi continuano ad accelerare la loro produzione anche con carichi di lavoro in cui la maggior parte dei modelli rallenta o supera la capacità dell'hardware. Più dati vengono elaborati, più evidenti diventano i loro vantaggi.

Confronto delle prestazioni del modello su vari carichi di lavoro. Le linee terminano quando i requisiti di memoria del modello superano la capacità di una H100.

IBM ha collaborato con Qualcomm Technologies, Inc. e