Zyphra ha annunciato il lancio della famiglia Zamba2-VL, una serie di modelli di visione-linguaggio aperti e disponibili in tre dimensioni: 1.2B, 2.7B e 7B parametri. Ogni modello si basa sull'architettura ibrida Zamba2, che unisce Mamba2, un modello con stato spaziale, a blocchi Transformer condivisi. Questa innovazione mira a combinare alta precisione con bassa latenza, soprattutto utile in applicazioni in cui la velocità e la capacità di gestire immagini sono fondamentali.

Che cosa è Zamba2-VL

I modelli Zamba2-VL seguono lo schema classico di LLaVA, un tipo diffuso tra i modelli visione-linguaggio. Un codificatore pre-allenato trasforma le immagini in caratteristiche utili, mentre un adapter (piccolo MLP) le proietta nello spazio del modello linguistico. Questo spazio è condiviso da una sequenza mista di token immagini e testo.

I modelli sono in grado di comprendere e interpretare contesti come singole immagini, documenti, grafici e anche testi con immagini multiple. Zyphra ha scelto di integrare con un Vision Transformer avanzato, derivato da Qwen2.5-VL, per la sua capacità di gestire risoluzioni dinamiche e di utilizzare embeddining rotanti 2D. Un adapter due-layer MLP si occupa dell'interfaccia tra il codificatore visione e l'architettura principale.

L’architettura di fondo

Sul piano progettuale, Zamba2-VL si distingue per l'uso ibrido di strati di stato spaziale Mamba2 e blocchi Transformer condivisi. Gli strati Mamba2 sono noti per calcolare in tempo lineare, riducendo il carico computazionale. I blocchi Transformer condivisi, invece, mantengono un certo livello di espressivezza. La combinazione di questi due elementi bilancia la velocità e la flessibilità.

Ogni strato Mamba2 svolge la maggior parte del lavoro a basso costo, mentre i blocchi Transformer condivisi assicurano una memoria contestuale sufficiente, una funzionalità spesso persa nei modelli a stato spazio puro. L’idea è di ottenere un trade-off: un modello efficiente che però non rinuncia del tutto a una architettura attenzionale completa.

Qualità e benchmark

La squadra di Zyphra ha testato il modello su 14 differenti benchmark, toccando settori chiave come comprensione grafica, elaborazione di testo e immagini, conteggio visivo, e ragionamento complessivo. Per confronto, il modello è stato rivalutato rispetto alle famiglie dei VLMs Molmo2, Qwen3-VL, e InternVL3.5.

DocVQA (test): Zamba2-VL-2.7B mostra il risultato 90.9, seguito da InternVL3.5-2B (89.4) e Qwen3-VL-2B (93.3).

ChartQA (test): Zamba2-VL-2.7B raggiunge il 79.6 contro Qwen3-VL-4B’s 81.8.

OCRBench: 73.6 contro 83.4 di InternVL3.5-2B.

CountBenchQA: 87.5, migliore di molti altri modelli.

PixMoCount (test): 82.5 per Zamba2-VL-2.7B.

MMMU (val): 37.7 in confronto agli oltre 40 di Qwen3-VL-4B.

MathVista (mini): Punteggi che indicano difficoltà in confronto con Qwen3-VL-4B (63.6).

I livelli 2.7B e 1.2B mostrano eccellenti capacità nel conteggio e comprensione documentale, ma tengono il passo in aree di ragionamento complesso.

I benefici principali

Il punto forte di Zamba2-VL sta nell'inferenza: il modello evita l'espansione quadratica delle cache KV tipica delle attenzioni Transformer, rendendolo estremamente efficiente su grandi input.

Tempi di prima risposta ridotti di un'ordine di grandezza rispetto ai modelli Transformer di riferimento.

I primi due modelli, 1.2B e 2.7B, sono particolarmente adatti per l'uso su dispositivi mobili o di bordo.

Supporto a immagini di alta risoluzione e file PDF lunghi grazie al prefill lineare di tempo.

Esempio di utilizzo pratico

Usi concreti

I modelli Zamba2-VL si applicano in diversi contesti di lavoro:

Documenti fiscali e fatture: beneficiando dei punteggi in alta qualità per DocVQA.

Conteggio merci: grazie alla forza dimostrata su PixMoCount e CountBenchQA.

App assistenti in tempo reale: l’elevata velocità li rende ideali per dispositivi mobili.

Supporto per immagini di prodotto: grazie alla capacità di collegare testo e oggetti visivi.

Inizio veloce

I modelli possono essere recuperati tramite Hugging Face. I modelli richiedono una GPU CUDA per sfruttare al massimo la velocità. Seguendo le istruzioni di installazione, Zyphra fornisce una serie di comandi per configurare l'ambiente:

Utilizzando le librerie di ZeRO, Flash Attention e Mamba-SSM, gli utenti possono caricare un modello ed eseguire una richiesta immagine-testo:

Ciò include l’utilizzo delle librerie transforms di Zyphra e di qwenvlutils per gestire e manipolare i pixel in base alle richieste.

Forti e Debolezze

Le prestazioni di Zamba2-VL vantano:

Architettura ibrida aperta, tra i primi modelli aperti su questo piano.

Velocità di prima risposta circa 10 volte più veloci rispetto a analoghi basati su Transformer.

Forte performance nell'elaborazione di immagini e documenti.

Più dimensioni per adattarsi a diversi ambienti, da dispositivi mobili a GPU potenti.

Disponibilità gratuita con licenza Apache 2.0 e inferenza immediata.

Le debolezze sono:

I modelli di grandi dimensioni mostrano un ritardo in ragionamenti complessi, come MMMU e MathVista.

La gestione OCRBench mostra un limite rispetto a Qwen3-VL e InternVL3.5.

Più lenti senza GPU CUDA.

Implementazione richiede auto-installazione da codice rilasciato.

Approccio Generale

Zamba2-VL si posiziona come uno strumento fondamentale per la visione-ambiente