Microsoft Research ha presentato Mirage, un nuovo modello per video che mantiene coerenti le strutture spaziali anche durante lunghi movimenti della telecamera. I ricercatori di Microsoft e di diversi istituti universitari hanno sviluppato Mirage in collaborazione.

Il sistema bypassa l’approccio convenzionale che utilizza nubi 3D di punti pixel, conservando invece direttamente le feature immagine in uno spazio latente interno. Questo si traduce in una generazione di video 10,5 volte più veloce rispetto a modelli comparabili e un utilizzo della memoria fino al 55 volte inferiore. Tuttavia, gli oggetti mobili non vengono memorizzati.

Mirage ignora il tradizionale percorso costoso delle nubi di punti pixel, rendendo più rapida la generazione e mantenendo stabile la struttura spaziale durante movimenti estesi. Modelli di questo tipo trasformano un frame iniziale e un percorso della telecamera in immagini credibili, utili sia per simulazioni che come simulatori di ambienti.

Senza un certo tipo di memoria, persino i generatori potenti perdono il riferimento al contesto nel tempo. Un angolo di stanza visto precedentemente sembra diverso quando la telecamera ripunta indietro. Mobili e texture cambiano. Sistemi come Voyager, WonderWorld e Spatia tentano di correggere questo problema utilizzando dati visivi in tempo reale. Ciascun passo richiede di renderizzare una nube 3D e poi tradurre i risultati in spazio featuropspazio interno. Il nuovo studio di Microsoft individua un doppio collo di bottiglia: alta richiesta di elaborazione e perdita di informazioni a ogni passaggio attraverso lo spazio pixel.

Memoria spaziale basata sullo spazio latente

Mirage invece memorizza direttamente le features dell'immagine prodotte dal modello diffusion che già utilizza. Ogni feature ha un proprio posto nello spazio 3D, diventando un elemento del sistema di memoria spaziale. Per generare nuovi punti di vista, il modello inietta questa struttura direttamente verso la posizione della telecamera, saltando l’intero passaggio di rendering.

Gli autori osservano che questo riduce drasticamente l’uso della memoria, con i dati archiviati in risoluzione interna, non in dimensione piena dell’immagine. Mirage sviluppa il video in porzioni, inizializzando la memoria spaziale dall’immagine iniziale e aggiornandola progressivamente man mano.

Lavoro incrementale della memoria

Gli aggiornamenti avvengono su una base frammentata; il sistema legge dal blocco di memoria esistente, genera frame aggiuntivi, quindi aggiorna nuovamente il cache. Un filtro esclude oggetti in movimento e il cielo prima di scrivere, in modo che solo la geometria statica venga memorizzata a lungo termine. L’utilità si basa sull'open-source Wan2.2 di Alibaba, con l'aggiunta di un modulo piccolo che insegna al modello a usare memoria spaziale, seguito da un addestramento fine con adapters LoRA.

Elevata efficienza computazionale

Nelle prove con WorldScore, Mirage supera i modelli di punta come Spatia, che memorizza dati colorati ma non spaziale, e modelli generali come Wan2.1 e CogVideoX. Mirage evidenzia la sua coerenza spaziale e le superfici uniformi attraverso molteplici frame.

La performance è ottimale in test chiusi su RealEstate10Kdataset, un test molto impegnativo che richiede al sistema di tornare al punto di origine, accumulando errori nel percorso. Mirage mantiene costante risorse e memoria in tutto il percorso, mentre i concorrenti richiedono sempre più risorse.

I limiti e le sfide successive

L’esigenza computazionale per ogni frame rimane stabile dopo il primo blocco e Mirage ha beneficiari di un aumento fino a 10,57 volte più rapido in generazione video e fino a 55 volte meno di utilizzo di memoria. Gli autori riconoscono un aspetto limite: oggetti in movimento cadono dopo il limite del blocco, dato che le geometrie mobili non sono fidate e vengono esplicitamente scartate. Le scene animate traggono minor vantaggio da questa memoria spaziale rispetto agli ambienti tranquilli.

Risorse e sviluppo

I dettagli tecnici di Mirage sono disponibili nella pagina del progetto. Microsoft gestisce anche un repository GitHub per Latent Spatial Memory dedicato. Modelli come Veo producono singoli video coerenti, ma i modelli di tipo "world" si concentrano sulla navegabilità e la coerenza nel tempo.

Ricercatori di Google Deepmind dimostrano quest’idea con Genie 3, capace di produrre ambienti interattivi in tempo reale per diversi minuti. Alla conferenza I/O, Google ha introdotto Gemini Omni come modello world successore potenziale di Veo.

I modelli generativi video costituiscono una delle aree di ricerca più incandescenti all'interno dell'AI. La newsletter THE DECODER mette in risalto gli sviluppi tecnologici del settore con una prospettiva umanamente curata, senza enfatizzare. Per aggiornamenti regolari e approfondimenti esclusivi, è possibile sottoscriversi al servizio.

Gli spunti dell’articolo derivano da Arxiv e Microsoft, due tra le fonti principali di ricerca e sviluppo nel settore AI.