Zyphra ha annunciato il lancio della famiglia Zamba2-VL, una serie di modelli di visione-linguaggio aperti e disponibili in tre dimensioni: 1.2B, 2.7B e 7B parametri. Ogni modello si basa sull'architettura ibrida Zamba2, che unisce Mamba2, un modello con stato spaziale, a blocchi Transformer condivisi. Questa innovazione mira a combinare alta precisione con bassa latenza, soprattutto utile in applicazioni in cui la velocità e la capacità di gestire immagini sono fondamentali.
Che cosa è Zamba2-VL
I modelli Zamba2-VL seguono lo schema classico di LLaVA, un tipo diffuso tra i modelli visione-linguaggio. Un codificatore pre-allenato trasforma le immagini in caratteristiche utili, mentre un adapter (piccolo MLP) le proietta nello spazio del modello linguistico. Questo spazio è condiviso da una sequenza mista di token immagini e testo.
I modelli sono in grado di comprendere e interpretare contesti come singole immagini, documenti, grafici e anche testi con immagini multiple. Zyphra ha scelto di integrare con un Vision Transformer avanzato, derivato da Qwen2.5-VL, per la sua capacità di gestire risoluzioni dinamiche e di utilizzare embeddining rotanti 2D. Un adapter due-layer MLP si occupa dell'interfaccia tra il codificatore visione e l'architettura principale.
L’architettura di fondo
Sul piano progettuale, Zamba2-VL si distingue per l'uso ibrido di strati di stato spaziale Mamba2 e blocchi Transformer condivisi. Gli strati Mamba2 sono noti per calcolare in tempo lineare, riducendo il carico computazionale. I blocchi Transformer condivisi, invece, mantengono un certo livello di espressivezza. La combinazione di questi due elementi bilancia la velocità e la flessibilità.
Ogni strato Mamba2 svolge la maggior parte del lavoro a basso costo, mentre i blocchi Transformer condivisi assicurano una memoria contestuale sufficiente, una funzionalità spesso persa nei modelli a stato spazio puro. L’idea è di ottenere un trade-off: un modello efficiente che però non rinuncia del tutto a una architettura attenzionale completa.
Qualità e benchmark
La squadra di Zyphra ha testato il modello su 14 differenti benchmark, toccando settori chiave come comprensione grafica, elaborazione di testo e immagini, conteggio visivo, e ragionamento complessivo. Per confronto, il modello è stato rivalutato rispetto alle famiglie dei VLMs Molmo2, Qwen3-VL, e InternVL3.5.
- DocVQA (test): Zamba2-VL-2.7B mostra il risultato 90.9, seguito da InternVL3.5-2B (89.4) e Qwen3-VL-2B (93.3).
- ChartQA (test): Zamba2-VL-2.7B raggiunge il 79.6 contro Qwen3-VL-4B’s 81.8.
- OCRBench: 73.6 contro 83.4 di InternVL3.5-2B.
- CountBenchQA: 87.5, migliore di molti altri modelli.
- PixMoCount (test): 82.5 per Zamba2-VL-2.7B.
- MMMU (val): 37.7 in confronto agli oltre 40 di Qwen3-VL-4B.
- MathVista (mini): Punteggi che indicano difficoltà in confronto con Qwen3-VL-4B (63.6).
I livelli 2.7B e 1.2B mostrano eccellenti capacità nel conteggio e comprensione documentale, ma tengono il passo in aree di ragionamento complesso.
I benefici principali
Il punto forte di Zamba2-VL sta nell'inferenza: il modello evita l'espansione quadratica delle cache KV tipica delle attenzioni Transformer, rendendolo estremamente efficiente su grandi input.
- Tempi di prima risposta ridotti di un'ordine di grandezza rispetto ai modelli Transformer di riferimento.
- I primi due modelli, 1.2B e 2.7B, sono particolarmente adatti per l'uso su dispositivi mobili o di bordo.
- Supporto a immagini di alta risoluzione e file PDF lunghi grazie al prefill lineare di tempo.
Esempio di utilizzo pratico
Usi concreti
I modelli Zamba2-VL si applicano in diversi contesti di lavoro:
- Documenti fiscali e fatture: beneficiando dei punteggi in alta qualità per DocVQA.
- Conteggio merci: grazie alla forza dimostrata su PixMoCount e CountBenchQA.
- App assistenti in tempo reale: l’elevata velocità li rende ideali per dispositivi mobili.
- Supporto per immagini di prodotto: grazie alla capacità di collegare testo e oggetti visivi.
Inizio veloce
I modelli possono essere recuperati tramite Hugging Face. I modelli richiedono una GPU CUDA per sfruttare al massimo la velocità. Seguendo le istruzioni di installazione, Zyphra fornisce una serie di comandi per configurare l'ambiente:
Utilizzando le librerie di ZeRO, Flash Attention e Mamba-SSM, gli utenti possono caricare un modello ed eseguire una richiesta immagine-testo:
Ciò include l’utilizzo delle librerie transforms di Zyphra e di qwenvlutils per gestire e manipolare i pixel in base alle richieste.
Forti e Debolezze
Le prestazioni di Zamba2-VL vantano:
- Architettura ibrida aperta, tra i primi modelli aperti su questo piano.
- Velocità di prima risposta circa 10 volte più veloci rispetto a analoghi basati su Transformer.
- Forte performance nell'elaborazione di immagini e documenti.
- Più dimensioni per adattarsi a diversi ambienti, da dispositivi mobili a GPU potenti.
- Disponibilità gratuita con licenza Apache 2.0 e inferenza immediata.
Le debolezze sono:
- I modelli di grandi dimensioni mostrano un ritardo in ragionamenti complessi, come MMMU e MathVista.
- La gestione OCRBench mostra un limite rispetto a Qwen3-VL e InternVL3.5.
- Più lenti senza GPU CUDA.
- Implementazione richiede auto-installazione da codice rilasciato.
Approccio Generale
Zamba2-VL si posiziona come uno strumento fondamentale per la visione-ambiente