I Granite 4.1 LLMs rappresentano una famiglia di modelli linguistici ad alta densità con dimensioni di 3B, 8B e 30B token, addestrati con circa 15T token utilizzando un pipeline di pre-addestramento multiplo, che include l'estensione contestuale fino a 512.000 token. I modelli vengono successivamente raffinati con un addestramento supervisionato su circa 4,1 milioni di campioni di alta qualità e utilizzano un apprendimento rinforzato via politiche on-policy GRPO con loss DAPO (Yu et al., 2025). Notabilmente, il modello 8B supera o è paragonabile al precedente Granite 4.0-H-Small (32B-A9B MoE) nonostante l'uso di una struttura densa più semplice e meno parametri. Tutti i modelli Granite 4.1 sono disponibili con la licenza Apache 2.0.
Progettazione e Architettura
I modelli Granite 4.1 utilizzano una architettura Transformer completamente decodificante densa. Le decisioni di progetto principali includono:
- Attenzione Query Gruppi (GQA)
- Embedding di Posizione Rotatoria (RoPE)
- Attivazione SwiGLU
- RMSNorm
- Condivisione di embedding input/output
Tutte e tre le dimensioni utilizzano lo stesso pipeline e strategia di dati durante l'addestramento.
Pipeline di Pre-addestramento
I modelli sono costruiti da zero utilizzando circa 15T token con una strategia di addestramento in cinque fasi.
Fasi 1–2: Pre-addestramento Fondamentale
Le fasi 1–2 stabiliscono una comprensione linguistica ampia con una miscela di dati generali, utilizzando un programma di tasso di apprendimento al potere e riscaldamento iniziale.
Fase 3: Addestramento Medio con Dati di Alta Qualità
La fase 3 introduce una miscela più bilanciata di dati di alta qualità e inizia ad utilizzare dati sintetici e ragionamento catena.
Fase 4: Focalizzazione sui Dati di Maggior Qualità
Questa fase continua con il programma di tasso di apprendimento lineare decrescente concentrandosi sui dati più selezionati.
Fase 5: Estensione Contestuale
La quinta fase, parte dell'addestramento medio, estende la finestra contestuale da 4K a 512K token attraverso un processo di estensione contestuale stagionale.
Addestramento Supervisionato
L'addestramento supervisionato (SFT) rielabora i modelli di base in agenti affidabili per seguire le istruzioni, rendendo la qualità dei dati critica.
Pipeline di Qualità dei Dati SFT
Utilizziamo un framework LLM-Come-Giudice insieme a una filtri regolamentari automatizzati per selezionare campioni di alta qualità.
Evaluation Multi-Dimensionale
Ogni risposta è valutata su sei dimensioni: seguimento delle istruzioni, correttezza, completezza, concisione, naturalezza e calibrazione.
Schermata Finale
Un processo di deduplicazione globale garantisce unicità e integrità strutturale nei dati.
Apprendimento Rinforzato
Dopo l'SFT, applichiamo un pipeline di apprendimento rinforzato multi-stage per migliorare ulteriormente le capacità del modello.
Strategia di Apprendimento Rinforzato
I modelli vengono addestrati in quattro sequenze consecutive:
- Addestramento su multi-domini
- Addestramento con feedback umano
- Calibrazione identità e conoscenza
- Addestramento matematico
Questo approccio mirato ottimizza diverse capacità, riduce l'oblio catatonico e massimizza le prestazioni complessive.