I Granite 4.1 LLMs rappresentano una famiglia di modelli linguistici ad alta densità con dimensioni di 3B, 8B e 30B token, addestrati con circa 15T token utilizzando un pipeline di pre-addestramento multiplo, che include l'estensione contestuale fino a 512.000 token. I modelli vengono successivamente raffinati con un addestramento supervisionato su circa 4,1 milioni di campioni di alta qualità e utilizzano un apprendimento rinforzato via politiche on-policy GRPO con loss DAPO (Yu et al., 2025). Notabilmente, il modello 8B supera o è paragonabile al precedente Granite 4.0-H-Small (32B-A9B MoE) nonostante l'uso di una struttura densa più semplice e meno parametri. Tutti i modelli Granite 4.1 sono disponibili con la licenza Apache 2.0.

Progettazione e Architettura

I modelli Granite 4.1 utilizzano una architettura Transformer completamente decodificante densa. Le decisioni di progetto principali includono:

    • Attenzione Query Gruppi (GQA)
    • Embedding di Posizione Rotatoria (RoPE)
    • Attivazione SwiGLU
    • RMSNorm
    • Condivisione di embedding input/output

Tutte e tre le dimensioni utilizzano lo stesso pipeline e strategia di dati durante l'addestramento.

Pipeline di Pre-addestramento

I modelli sono costruiti da zero utilizzando circa 15T token con una strategia di addestramento in cinque fasi.

Fasi 1–2: Pre-addestramento Fondamentale

Le fasi 1–2 stabiliscono una comprensione linguistica ampia con una miscela di dati generali, utilizzando un programma di tasso di apprendimento al potere e riscaldamento iniziale.

Fase 3: Addestramento Medio con Dati di Alta Qualità

La fase 3 introduce una miscela più bilanciata di dati di alta qualità e inizia ad utilizzare dati sintetici e ragionamento catena.

Fase 4: Focalizzazione sui Dati di Maggior Qualità

Questa fase continua con il programma di tasso di apprendimento lineare decrescente concentrandosi sui dati più selezionati.

Fase 5: Estensione Contestuale

La quinta fase, parte dell'addestramento medio, estende la finestra contestuale da 4K a 512K token attraverso un processo di estensione contestuale stagionale.

Addestramento Supervisionato

L'addestramento supervisionato (SFT) rielabora i modelli di base in agenti affidabili per seguire le istruzioni, rendendo la qualità dei dati critica.

Pipeline di Qualità dei Dati SFT

Utilizziamo un framework LLM-Come-Giudice insieme a una filtri regolamentari automatizzati per selezionare campioni di alta qualità.

Evaluation Multi-Dimensionale

Ogni risposta è valutata su sei dimensioni: seguimento delle istruzioni, correttezza, completezza, concisione, naturalezza e calibrazione.

Schermata Finale

Un processo di deduplicazione globale garantisce unicità e integrità strutturale nei dati.

Apprendimento Rinforzato

Dopo l'SFT, applichiamo un pipeline di apprendimento rinforzato multi-stage per migliorare ulteriormente le capacità del modello.

Strategia di Apprendimento Rinforzato

I modelli vengono addestrati in quattro sequenze consecutive:

    • Addestramento su multi-domini
    • Addestramento con feedback umano
    • Calibrazione identità e conoscenza
    • Addestramento matematico

Questo approccio mirato ottimizza diverse capacità, riduce l'oblio catatonico e massimizza le prestazioni complessive.