VibeThinker-3B rappresenta un passo significativo nel campo dell’intelligenza artificiale, grazie all’approccio innovativo e all’efficienza dei 3 miliardi di parametri. Costruito sul modello Qwen2.5-Coder-3B esistente, VibeThinker-3B non è stato precedentemente addestrato ex novo, ma post-addestrato utilizzando tecnologie avanzate per migliorare le sue capacità di ragionamento. Il modello è stato sviluppato da un team di ricercatori di Sina Weibo Inc. (Cina) e rilasciato con una licenza MIT open-source.

Che cosa è VibeThinker-3B

VibeThinker-3B è un modello compatto a densità costruito sul Qwen2.5-Coder-3B di base. Il modello non è stato addestrato da zero, bensì post-addestrato. I ricercatori hanno applicato finemente l'addestramento supervisore, l'apprendimento per rinforzo e la distillazione autodidatta.

Il framework di formazione seguito il principio Spectrum-to-Signal (SSP) precedentemente utilizzato in VibeThinker-1.5B. L’adattamento Supervisore (SFT) costruisce uno spazio ampio di percorsi logici validi, chiamato “Spectrum”. Successivamente, l’apprendimento per rinforzo (RL) amplifica i percorsi corretti, il “Signal”. Questo modello ha un obiettivo specifico: eccellere in compiti di ragionamento dove un verificatore può confermare la correttezza della risposta. Gli sviluppatori lo promuovono come un modello specialista, raccomandando modelli più grandi per compiti di conoscenza generale.

Il modello funziona con stack comuni. I dati del modello richiedono transformers>=4.54.0. Per ottenere una velocità di calcolo più elevata, è consigliata l’installazione di vLLM==0.10.1 o SGLang>=0.4.9.post6. I pesi BF16 sono di circa 6 GB, abbastanza piccoli da poterli gestire anche su una singola GPU.

Risultati e Benchmark

Nei test, VibeThinker-3B ottiene punteggi notevoli. Su AIME26, punteggio 94.3. Secondo la documentazione tecnica, questo è paragonabile a modelli molto più grandi come DeepSeek V3.2 (671B) e Kimi K2.5 (1T). In LiveCodeBench v6, il modello raggiunge 80.2 Pass@1. Su OJBench, un altro benchmark per la programmazione, ottiene 38.6, inferiore ai modelli più grandi. Su HMMT25 segna 89.3 e su BruMO25 raggiunge 93.8. Su IMO-AnswerBench, un set di 400 problemi a livello internazionale di matematica, ottenendo 76.4.

Una tabella confronta VibeThinker-3B con modelli molto più grandi. La riga che include “+CLR” utilizza l’espansione di scala al momento del test. Si tratta della Claim-Level Reliability Assessment.

GPT-OSS (high) con 120B di parametri segna 93.2 su AIME26, 90.0 su HMMT25 e 75.6 su IMO-Ans.

DeepSeek V3.2 con 671B di parametri segna 94.2 su AIME26, 90.2 su HMMT25 e 78.3 su IMO-Ans.

GLM-5 con 744B di parametri segna 95.8 su AIME26, 97.9 su HMMT25 e 82.5 su IMO-Ans.

Kimi K2.5 con 1T di parametri segna 93.3 su AIME26, 95.4 su HMMT25 e 81.8 su IMO-Ans.

Il modello presenta una performance coerente sui test di matematica e programmazione. Rimane evidente una sorta di divario sul benchmark GPQA-Diamond, che richiede una conoscenza di base molto estesa.

I ricercatori hanno effettuato anche un test per il coding fuori distribuzione. Hanno utilizzato competenze recenti di LeetCode settimanali e bi-settimanali, dal 25 aprile al 31 maggio 2026. Il modello ha superato 123 di 128 tentativi di invio iniziali in Python, una percentuale di accettazione del 96.1% su problemi non visti in precedenza.

Pipeline Spectrum-to-Signal

La pipeline di addestramento post-training opera in quattro fasi, ognuna volta ad affrontare un diverso aspetto delle debolezze in piccoli modelli di ragionamento.

La prima fase richiama l’apprendimento di tipo curriculum a due Stadi. Lo Stage 1 tratta questioni di matematica, programmazione, STEM, conversazione e seguenti istruzioni larghe. Lo Stage 2 passa a problemi più duri e progetti con orizzonti lunghi filtrati per la lunghezza del ragionamento e la complessità. La distillazione per Esplorare una maggiore varietà preserva percorsi di soluzione validi attraverso entrambi gli stadi.

La seconda fase richiama l’apprendimento per rinforzo (RL) multidevato. I ricercatori riutilizzano l’Ottimizzazione del Policy Guidata da Mass Entropy (MGPO). MGPO pesa gli input vicini al limite delle capacità del modello attualmente dove esistono sia i risultati errati che quelli corretti. L’addestramento avviene in sequenza su Matematica, Coding e STEM.

Più in dettaglio: VibeThinker-3B non utilizza espansione contestuale progressiva. I ricercatori hanno trovato che un’espansione contestuale progressiva danneggiava il ragionamento a lungo raggio a questa scala. Quindi, RL utilizza una finestra di contesto lunghi 64K in tutta la durata.

L’apprendimento per rinforzo in campo matematico aggiunge la funzione Long2Short. Redistribuisce la retribuzione delle traiettorie corrette per lunghezza, con premi per le risposte corrette più brevi e penalità per quelle più lunghe, mantenendo la media del gruppo costante. Lo scopo è diminuire i token ridondanti senza perdere accuratezza.

Terza fase: distillazione autonoma (Offline Self-Distillation) fonde i punti di controllo RL in un unico studente modello. Quarta fase: RL di insegnamento migliora la conformità alle istruzioni. Questa fase spiega i punteggi di IFEval e IFBench rispettivamente di 93.4 e 74.5. Entrambi mostrano che la sintonizzazione del modello non ha compromesso la controllabilità.

CLR: Scala nel test, non sul numero di parametri

L’Assessamento della Affidabilità per Livelli di Affermazione (CLR) è il metodo di espansione per il test del rapporto. Questo non richiede nuovi parametri.

Leggi l'articolo originale →

← Torna alle notizie