La memoria necessaria per memorizzare le chiavi e valori (KV) nei modelli linguistici di grandi dimensioni (LLM) diventa un bottoneggiante man mano che la lunghezza del contesto cresce. Il problema non è direttamente legato al modello, bensì alla cache che i transformer necessitano durante il processo di decodifica.

Un modello come Llama-3.1-70B in BF16 richiede circa 0.31 MB per token. Con 128.000 token si arriva a ~40 GB, e con un milione di token supera i 300 GB, ben oltre i 140 GB della struttura del modello. La memorizzazione eccessiva in memoria ad alta banda (HBM) rende il processo di decodifica lento, aumentando i costi e la latenza.

Le cinque principali strategie

Le strategie attualmente disponibili per affrontare la memorizzazione KV includono:

    • Eviction token (H2O, SnapKV)
    • Quantizzazione (KIVI, GEAR)
    • Proiezione su basso rango (Palu)
    • Unione (KVMerger)
    • Condivisione architetturale (MLA)

Alcuni sviluppi recenti nel corso del 2026 si sono concentrati sulla sperimentazione con un ulteriore livello di quantizzazione, come mostrato da Google e NYU con TurboQuant, da Together.ai con OSCAR, e da Apple con EpiCache.

TurboQuant: una quantizzazione teoricamente ottimale

TurboQuant si distingue per una quantizzazione ad alte prestazioni senza dover calibrare i dati. Si sviluppa in due fasi:

Prima fase: i vettori delle coordinate sono ruotati in modo casuale per renderli quasi indipendenti e approssimativamente gaussiani. Il quantizzatore precomputato può essere applicato a ogni coordinata.

Seconda fase: una trasformazione di Johnson-Lindenstrauss (QJL) a 1-bit viene applicata al residuo, ottenendo un'attinenza attendibile e senza sovrappeso di normalizzazione.

La caratteristica unica di TurboQuant è la sua distorsione teoricamente prossima al limite inferiore teorico (≈ 2,7x). Con una compressione di 3,5 e 2,5 bit, gli effetti sono quasi trascurabili. TurboQuant funziona su qualsiasi modello senza modifiche, e può essere utilizzato sia per la quantizzazione che per l’archiviazione delle informazioni vettoriali.

Un fattore da considerare è che il risultato "8x veloce in H100" riferito da un blog di Google non è un benchmark completo. I dati reali di TurboQuant rivelano una bassa distorsione a 3-4 bit.

OSCAR: una soluzione pronta per l’implementazione

OSCAR utilizza un approccio diverso che si concentra sulla relazione di attenzione. Sua forza sta nell'implementazione diretta di una rotazione di dati basata sull'attenzione:

    • Chiavi vengono ruotate nella struttura degli autovalori della query.
    • Valori vengono ruotati nella struttura dei punteggi pesati dei valori.
    • Una trasformazione Hadamard più una permutazione di bit riequilibrano le importanze.

OSCAR include una cache mista a precisione diversa:

    • i token recenti rimangono in BF16, quelli storici vengono compressi in INT2.

Sono disponibili nuclei accelerati per la CPU e compatibili con SGLang e Cache-Compatibili.OSCARR presenta un'implementazione pronta all'uso e mostra buone prestazioni con una compressione effettiva di 2.28 bit.

OSCAR si confronta con TurboQuant, con i secondi che subiscono una diminuzione di oltre 40 punti all’interno del framework di OSCAR. Un confronto diretto non è facile da effettuare, ma si osserva una complementarietà: l’unione di un calibratore di ruotazione con un quantizzatore scalare potrebbe offrire benefici significativi.

KV di EpiCache

Un terzo metodo, EpiCache, si focalizza sulla gestione della cache per lunghe conversazioni multi-turn. Ecco le sue caratteristiche:

    • Memorizzazione a blocchi per limitare la memorizzazione massima.
    • Cluster "Episodi" per segmentare la conversazione in parti semantiche.
    • Ritrovare ciascun query solo con l'episodio più rilevante.
    • Assegnare budget a livello di strati in base alla sensibilità.

EpiCache mostra risultati fino al 40% in termini di precisione rispetto alle baselines di evict, con una compressione di 4-6 bit. Compatibilità con TurboQuant o OSCAR aumenta i vantaggi e riduce memoria e latenza.

Conclusione

Le tre soluzioni TurboQuant, OSCAR ed EpiCache offrono vantaggi distinti in termini di efficienza:

    • TurboQuant si distingue per la sua alta compressione a 3-4 bit.
    • OSCAR eccelle con una compressione a 2 bit a costi ridotti.
    • EpiCache risolve un gap specifico per conversazioni lunghissime.

Ridurre i costi di memoria e migliorare la velocità di decodifica si ottiene combinando le soluzioni che meglio soddisfano le esigenze. Le strategie non sono necessariamente concorrenti, ma complementari.

Fonti delle informazioni:

    • TurboQuant – arXiv 2504.19874
    • TurboQuant – Blog Google
    • OSCAR – arXiv 2605.17757
    • OSCAR Code – FutureMLS-Lab
    • EpiCache – arXiv 2509.17396
    • EpiCache Code – Apple/ml-epicache
    • KIVI – arXiv 2402.02750