Zyphra ha annunciato il lancio della famiglia Zamba2-VL, una serie di modelli di visione-linguaggio aperti e disponibili in tre dimensioni: 1.2B, 2.7B e 7B parametri. Ogni modello si basa sull'architettura ibrida Zamba2, che unisce Mamba2, un modello con stato spaziale, a blocchi Transformer condivisi. Questa innovazione mira a combinare alta precisione con bassa latenza, soprattutto utile in applicazioni in cui la velocità e la capacità di gestire immagini sono fondamentali.

Che cosa è Zamba2-VL

I modelli Zamba2-VL seguono lo schema classico di LLaVA, un tipo diffuso tra i modelli visione-linguaggio. Un codificatore pre-allenato trasforma le immagini in caratteristiche utili, mentre un adapter (piccolo MLP) le proietta nello spazio del modello linguistico. Questo spazio è condiviso da una sequenza mista di token immagini e testo.

I modelli sono in grado di comprendere e interpretare contesti come singole immagini, documenti, grafici e anche testi con immagini multiple. Zyphra ha scelto di integrare con un Vision Transformer avanzato, derivato da Qwen2.5-VL, per la sua capacità di gestire risoluzioni dinamiche e di utilizzare embeddining rotanti 2D. Un adapter due-layer MLP si occupa dell'interfaccia tra il codificatore visione e l'architettura principale.

L’architettura di fondo

Sul piano progettuale, Zamba2-VL si distingue per l'uso ibrido di strati di stato spaziale Mamba2 e blocchi Transformer condivisi. Gli strati Mamba2 sono noti per calcolare in tempo lineare, riducendo il carico computazionale. I blocchi Transformer condivisi, invece, mantengono un certo livello di espressivezza. La combinazione di questi due elementi bilancia la velocità e la flessibilità.

Ogni strato Mamba2 svolge la maggior parte del lavoro a basso costo, mentre i blocchi Transformer condivisi assicurano una memoria contestuale sufficiente, una funzionalità spesso persa nei modelli a stato spazio puro. L’idea è di ottenere un trade-off: un modello efficiente che però non rinuncia del tutto a una architettura attenzionale completa.

Qualità e benchmark

La squadra di Zyphra ha testato il modello su 14 differenti benchmark, toccando settori chiave come comprensione grafica, elaborazione di testo e immagini, conteggio visivo, e ragionamento complessivo. Per confronto, il modello è stato rivalutato rispetto alle famiglie dei VLMs Molmo2, Qwen3-VL, e InternVL3.5.

    • DocVQA (test): Zamba2-VL-2.7B mostra il risultato 90.9, seguito da InternVL3.5-2B (89.4) e Qwen3-VL-2B (93.3).
    • ChartQA (test): Zamba2-VL-2.7B raggiunge il 79.6 contro Qwen3-VL-4B’s 81.8.
    • OCRBench: 73.6 contro 83.4 di InternVL3.5-2B.
    • CountBenchQA: 87.5, migliore di molti altri modelli.
    • PixMoCount (test): 82.5 per Zamba2-VL-2.7B.
    • MMMU (val): 37.7 in confronto agli oltre 40 di Qwen3-VL-4B.
    • MathVista (mini): Punteggi che indicano difficoltà in confronto con Qwen3-VL-4B (63.6).

I livelli 2.7B e 1.2B mostrano eccellenti capacità nel conteggio e comprensione documentale, ma tengono il passo in aree di ragionamento complesso.

I benefici principali

Il punto forte di Zamba2-VL sta nell'inferenza: il modello evita l'espansione quadratica delle cache KV tipica delle attenzioni Transformer, rendendolo estremamente efficiente su grandi input.

    • Tempi di prima risposta ridotti di un'ordine di grandezza rispetto ai modelli Transformer di riferimento.
    • I primi due modelli, 1.2B e 2.7B, sono particolarmente adatti per l'uso su dispositivi mobili o di bordo.
    • Supporto a immagini di alta risoluzione e file PDF lunghi grazie al prefill lineare di tempo.

Esempio di utilizzo pratico

Usi concreti

I modelli Zamba2-VL si applicano in diversi contesti di lavoro:

    • Documenti fiscali e fatture: beneficiando dei punteggi in alta qualità per DocVQA.
    • Conteggio merci: grazie alla forza dimostrata su PixMoCount e CountBenchQA.
    • App assistenti in tempo reale: l’elevata velocità li rende ideali per dispositivi mobili.
    • Supporto per immagini di prodotto: grazie alla capacità di collegare testo e oggetti visivi.

Inizio veloce

I modelli possono essere recuperati tramite Hugging Face. I modelli richiedono una GPU CUDA per sfruttare al massimo la velocità. Seguendo le istruzioni di installazione, Zyphra fornisce una serie di comandi per configurare l'ambiente:

Utilizzando le librerie di ZeRO, Flash Attention e Mamba-SSM, gli utenti possono caricare un modello ed eseguire una richiesta immagine-testo:

Ciò include l’utilizzo delle librerie transforms di Zyphra e di qwenvlutils per gestire e manipolare i pixel in base alle richieste.

Forti e Debolezze

Le prestazioni di Zamba2-VL vantano:

    • Architettura ibrida aperta, tra i primi modelli aperti su questo piano.
    • Velocità di prima risposta circa 10 volte più veloci rispetto a analoghi basati su Transformer.
    • Forte performance nell'elaborazione di immagini e documenti.
    • Più dimensioni per adattarsi a diversi ambienti, da dispositivi mobili a GPU potenti.
    • Disponibilità gratuita con licenza Apache 2.0 e inferenza immediata.

Le debolezze sono:

    • I modelli di grandi dimensioni mostrano un ritardo in ragionamenti complessi, come MMMU e MathVista.
    • La gestione OCRBench mostra un limite rispetto a Qwen3-VL e InternVL3.5.
    • Più lenti senza GPU CUDA.
    • Implementazione richiede auto-installazione da codice rilasciato.

Approccio Generale

Zamba2-VL si posiziona come uno strumento fondamentale per la visione-ambiente