Microsoft Research sta dimostrando che le descrizioni testuali ricche e dettagliate influenzano considerevolmente l’efficienza nell’addestramento di modelli text-to-image, a dispetto delle dimensioni native del modello e della quantità di calcolo utilizzato. Un esempio lampante è Lens, un innovativo modello lanciato da Microsoft Research, che non solo utilizza il 20% dell’ammontare di calcolo necessario per addestrare modelli simili, ma anche consegna risultati superiori rispetto a modelli con molte volte più parametri.

Efficienza con meno risorse

Lens mostra che è possibile costruire modelli ad alto rapporto costo-beneficio grazie all’uso di architetture più compatte, dati di addestramento strutturati in modo intelligente e una strategia di convergenza ottimizzata. Il modello ha solo 3,8 miliardi di parametri, rispetto agli 80 miliardi di Hunyuan-Image-3.0, eppure, secondo il report tecnico, supera modelli molto più grandi in parecchi benchmark.

Dataset con descrizioni ricche

La base del successo di Lens risiede nel dataset utilizzato per l’addestramento, denominato Lens-800M, che consiste in 800 milioni di coppie immagini-testo. Le descrizioni, generate da GPT-4.1, mediamente contengono circa 100 parole per immagine, rispetto alle testuali generiche e spesso superficiali raccolte da fonti online. Una serie di test, inoltre, conferma che l’utilizzo di queste descrizioni estese migliora nettamente la qualità delle immagini generate.

Flessibilità di risoluzione e formattazione

Una caratteristica distintiva di Lens è la capacità di generalizzare l’output a risoluzioni e formati di immagini diversi da quelli utilizzati nell’addestramento. Il modello riesce a gestire risoluzioni fino a 2 megapixel e rapporti di aspetto variabili (dal ritratto al paesaggio), riducendo costi computazionali per addestramenti specifici a alta definizione.

Architettura avanzata

Per l’architettura, il team ha testato diverse versioni di variational autoencoder (VAE), con particolare attenzione a come i VAE semantici riescono a tradurre efficacemente testo in immagini. Il VAE scelto, FLUX.2, ha mostrato risultati migliori in termini di addestramento veloce e conversione precisa.

GPT-OSS come modello semantico

Per la codifica semantica, Microsoft ha integrato GPT-OSS, modello linguistico aperto di OpenAI. Il report spiega che l’utilizzo di encoder testuali più forti offre due vantaggi principali: una più rapida apprendibilità del modello e la capacità di comprendere e generare immagini da input in lingue diverse rispetto a quelle usate nell’addestramento.

Raffinamento con Reinforcement Learning

Dopo l’addestramento iniziale, Lens passa attraverso un processo di addestramento con reinforcement learning (RL), utilizzando un set personalizzato chiamato Lens-RL-8K. Questo set copre dieci categorie, tra cui persone, animali, scene, cibo, ambienti fantascientifici e design UI. GPT-4.1 genera criteri di valutazione per ogni prompt e funge anche da modello di ricompensa.

Correzione delle richieste poco precise

Per migliorare l’accuratezza delle query utente, Microsoft ha integrato un “reasoner” in grado di riscrivere input poco precisi in istruzioni più dettagliate. Per questa funzione, il team utilizza principalmente GPT-5.5, ma ha anche dimostrato che GPT-OSS funziona bene senza aggiungere ulteriore memoria necessaria.

Lens-Turbo: velocità e semplicità

Microsoft offre anche Lens-Turbo, una versione distillata del modello principale. Questa variante genera immagini in appena 4 passaggi, rispetto ai circa 3 secondi del modello standard quando utilizza un’immagine monocamera (H100 GPU) da 1 megapixel. Lens-Turbo produce un’immagine in meno di un secondo, un vantaggio decisivo per applicazioni con tempo limitato.

Prestazioni e benchmark

Lens raggiunge performance migliori rispetto a FLUX.2-Klein, Z-Image, e in alcuni casi anche rispetto a Qwen-Image, nonostante l’ultimo abbia cinque volte più parametri. L’unica carenza riscontrata è nella generazione testuale di linguaggi come il giapponese o il francese, che Microsoft attribuisce alla mancanza di dati copiosi a disposizione durante l’addestramento.

Disponibilità e utilizzo

I pesi del modello e il codice sono disponibili su Hugging Face, sotto una licenza MIT. Il codice per l’inferenza si trova nel repository GitHub. Microsoft precisa che Lens è destinato solo a scopi di ricerca e non è adatto per utilizzo in produzione. Poiché parzialmente addestrato sui dati web, potrebbe generare contenuti fuorvianti o problematici, richiedendo quindi misure di sicurezza aggiuntive da parte dell’utente.

Confronto con i modelli di MAI

Parallelamente, il team MAI di Microsoft, guidato da Mustafa Suleyman, ha rilasciato MAI-Image-2 e MAI-Image-2.5, che hanno raggiunto la terza posizione su Arena.ai leaderboard. Nonostante siano avanzati, si classificano su livello simile a “Nano Banana 2” di Google, ma con risultati inferiori rispetto a “ChatGPT Images 2.0” di OpenAI.

Strategia di evoluzione

Microsoft ha anche fornito un modo iterativo per migliorare la prompt system del reasoner, senza necessitare di ulteriore addestramento. Questa strategia si è dimostrata efficace anche con modelli molto più grandi come Qwen-Image, amplificandone le capacità di output.

Punti deboli e futuro

Nonostante i vantaggi rispetto a molti modelli concorrenti, Microsoft riconosce alcune lacune di Lens, come la rappresentazione testuale precisa in alcune lingue e le difficoltà di replicare fedelmente alcuni dettagli complessi. Il team ritiene, però, che con ulteriore raffinamento del dataset e dell’architettura, Lens possa diventare un punto di riferimento per lo sviluppo futuro di modelli text-to-image leggeri ad alte prestazioni.