Autori:

Kate Soule, direttore, technical product management, Granite, IBM
Dave Bergmann, senior staff writer, AI models, IBM Think

IBM ha annunciato il lancio di Granite 4.0, la prossima generazione dei suoi modelli di linguaggio, progettati per offrire efficienza e prestazioni superiori alle aziende. Questi modelli innovativi introducono un'architettura ibrida Mamba/transformer che riduce significativamente i requisiti di memoria, consentendo l'esecuzione su GPU meno costose e a costi operativi notevolmente ridotti rispetto ai modelli di linguaggio di grandi dimensioni (LLM) convenzionali.

Le nuove offerte Granite 4.0 sono open-source, rilasciate sotto una licenza Apache 2.0 standard. Sono i primi modelli aperti al mondo a ricevere la certificazione ISO 42001 e sono firmati crittograficamente, confermando la loro adesione alle migliori pratiche riconosciute a livello internazionale in materia di sicurezza, governance e trasparenza.

Disponibilità e accessibilità

I modelli Granite 4.0 sono già disponibili su IBM watsonx.ai e attraverso un ecosistema di partner di piattaforma, che include (in ordine alfabetico):

Dell Technologies (in Dell Pro IA Studio e Dell Enterprise Hub)
Docker Hub
Hugging Face
Kaggle
LM Studio
NVIDIA NIM
Ollama
OPAQUE
Replicate

L'accesso tramite Amazon SageMaker JumpStart e Microsoft Azure IA Foundry sarà disponibile prossimamente.

Innovazioni architettoniche per flussi di lavoro agenziali

Il lancio di Granite 4.0 segna l'inizio di una nuova era per la famiglia di modelli di linguaggio di grandi dimensioni pronti per l'impresa di IBM. Questi modelli sfruttano nuovi progressi architettonici per raddoppiare l'efficienza dei modelli di linguaggio più piccoli ed efficienti, fornendo prestazioni competitive a costi e latenza ridotti. I modelli Granite 4.0 sono stati sviluppati con un'enfasi particolare sui compiti essenziali per i flussi di lavoro agenziali, sia in implementazioni standalone sia come blocchi costitutivi economici in sistemi complessi insieme a modelli di ragionamento più grandi.

La collezione Granite 4.0

La collezione Granite 4.0 comprende diverse dimensioni di modelli e stili di architettura per fornire un output ottimale in un'ampia gamma di vincoli hardware, tra cui:

Granite-4.0-H-Small: un modello ibrido a miscela di esperti (MoE) con 32 miliardi di parametri totali (9 miliardi attivi).
Granite-4.0-H-Tiny: un MoE ibrido con 7 miliardi di parametri totali (1 miliardo attivo).
Granite-4.0-H-Micro: un modello ibrido denso con 3 miliardi di parametri.

Questa versione include anche:

Granite-4.0-Micro: un modello denso da 3 miliardi con un'architettura transformer convenzionale basata sull'attenzione, per adattarsi a piattaforme e comunità che non supportano ancora architetture ibride.

Granite 4.0-H Small è un modello di punta per prestazioni robuste ed economiche nei flussi di lavoro aziendali, come agenti multi-strumento e automazione del servizio clienti. I modelli Tiny e Micro sono progettati per applicazioni locali, edge e a bassa latenza, e possono anche servire come componente fondamentale all'interno di flussi di lavoro agenziali più grandi per l'esecuzione rapida di compiti chiave, come la chiamata di funzioni.

Prestazioni ed efficienza rivoluzionarie

Le prestazioni benchmark di Granite 4.0 mostrano miglioramenti sostanziali rispetto alle generazioni precedenti (anche i modelli Granite 4.0 più piccoli superano significativamente Granite 3.3 8B, nonostante siano meno della metà delle sue dimensioni). Tuttavia, la sua forza più notevole è un notevole aumento dell'efficienza dell'inferenza.

Rispetto agli LLM convenzionali, i modelli ibridi Granite 4.0 richiedono significativamente meno RAM per essere eseguiti, specialmente per compiti che implicano contesti di lunga durata (come l'assimilazione di un'ampia base di codice o documentazione estesa) e diverse sessioni contemporaneamente (come un agente di servizio clienti che gestisce molte query utente simultaneamente).

Ancora più importante, questa drastica riduzione dei requisiti di memoria di Granite 4.0 implica una riduzione altrettanto drastica del costo dell'hardware necessario per eseguire carichi di lavoro pesanti ad alte velocità di inferenza. L'obiettivo di IBM è ridurre le barriere all'ingresso fornendo alle aziende e agli sviluppatori open-source un accesso economico a LLM altamente competitivi.

Sicurezza, trasparenza e fiducia nell'ecosistema IBM

La priorità data da IBM all'efficienza pratica dell'inferenza su qualsiasi hardware è in linea con la sua enfasi sulla sicurezza e sulla trasparenza del suo ecosistema di modelli. A seguito di un'ampia e duratura audit esterna del processo di sviluppo dell'IA di IBM, IBM Granite è recentemente diventata l'unica famiglia di modelli di linguaggio aperti a ottenere la certificazione ISO 42001, conformandosi al primo standard internazionale al mondo per la responsabilità, l'esplicabilità, la privacy dei dati e l'affidabilità nei sistemi di gestione dell'IA (AIMS).

Questa affidabilità fondamentale è rafforzata dalla recente partnership di IBM con HackerOne in un programma di bug bounty per Granite, nonché dalla nuova pratica di firma crittografica di tutti i checkpoint del modello 4.0 disponibili su Hugging Face (che consente a sviluppatori e aziende di garantire la provenienza e l'autenticità dei modelli).

Adozione precoce e piani futuri

Partner aziendali selezionati, inclusi EY e Lockheed Martin, hanno avuto accesso anticipato per testare le capacità di Granite 4.0 su scala in casi d'uso chiave. Il feedback di questi partner di lancio anticipato, insieme al feedback della comunità open-source, verrà utilizzato per migliorare e ottimizzare i modelli per futuri aggiornamenti.

Il lancio odierno include le varianti Base e Instruct di Micro, Tiny e Small. Il rilascio di modelli di dimensioni aggiuntive (sia più grandi che più piccole), così come varianti con supporto di ragionamento esplicito, è previsto per la fine del 2025.

Efficienza dell'inferenza di Granite 4.0 in dettaglio

I modelli ibridi Granite 4.0 sono significativamente più veloci e più efficienti in termini di memoria rispetto ai modelli di dimensioni comparabili costruiti con architetture transformer standard. L'architettura ibrida di Granite 4 combina una piccola quantità di livelli di attenzione in stile transformer standard con la maggior parte dei livelli di Mamba, più specificamente, Mamba-2. Mamba elabora le sfumature del linguaggio in un modo completamente distinto e significativamente più efficiente rispetto ai modelli di linguaggio convenzionali.

Utilizzo della memoria

I requisiti di memoria GPU degli LLM sono spesso riportati in termini di quanta RAM è necessaria solo per caricare i pesi del modello. Ma molti casi d'uso aziendali, specialmente quelli che coinvolgono implementazioni su larga scala, IA agenziale in ambienti complessi o sistemi RAG, implicano un contesto prolungato, inferenza batch di diverse istanze di modelli concorrenti contemporaneamente, o entrambe le cose. In linea con l'enfasi di IBM sulla praticità aziendale, IBM ha valutato e ottimizzato Granite 4 tenendo conto del contesto lungo e delle sessioni simultanee.

Rispetto ai modelli convenzionali basati su transformer, Granite 4.0-H può offrire una riduzione di oltre il 70% della RAM necessaria per gestire input lunghi e più batch simultanei.

I modelli ibridi Granite 4.0 sono compatibili con le GPU AMD Instinct™ MI-300X, consentendo di ridurre ulteriormente la loro impronta di memoria.

Velocità dell'inferenza

Gli LLM convenzionali faticano a mantenere le prestazioni all'aumentare della lunghezza del contesto o della dimensione del batch. I modelli ibridi di IBM continuano ad accelerare la loro produzione anche in carichi di lavoro in cui la maggior parte dei modelli rallenta o supera completamente la capacità dell'hardware. Più dati vengono elaborati, più evidenti diventano i loro vantaggi.

I grafici comparativi delle prestazioni del modello su vari carichi di lavoro mostrano chiaramente che mentre i requisiti di memoria dei modelli convenzionali spesso superano la capacità di una GPU H100 in situazioni di carico elevato, i modelli ibridi Granite 4.0 mantengono un'efficienza superiore.

IBM ha anche lavorato con Qualcomm Technologies, Inc. e Nexa AI per garantire la compatibilità dei modelli Granite con le loro tecnologie, espandendo ulteriormente le opzioni di implementazione per le aziende.