Il 22 marzo 2026, Xiaomi, il gigante tecnologico cinese, ha compiuto un passo significativo nel campo dell'intelligenza artificiale presentando una suite di tre modelli di IA denominata MiMo-V2. L'obiettivo ambizioso dell'azienda è quello di costruire agenti AI capaci di interagire autonomamente con il mondo digitale e fisico: controllare software, effettuare acquisti online e, in prospettiva, anche gestire robot. Questi modelli sono stati sviluppati dal team MiMo interno di Xiaomi e sono progettati per lavorare in sinergia, fornendo agli agenti la capacità di vedere, agire e parlare.

La presentazione simultanea di questi tre modelli indica la chiara intenzione di Xiaomi di offrire una piattaforma completa per lo sviluppo di agenti basati sull'IA. Ogni modello è specializzato in un'area chiave, ma la loro combinazione mira a creare un'intelligenza artificiale più olistica e funzionale, in grado di affrontare compiti complessi nel mondo reale.

MiMo-V2-Pro: il modello linguistico di punta

Il modello di punta di questa nuova suite è MiMo-V2-Pro. Basato su un'architettura Mixture-of-Experts, Xiaomi dichiara che il modello vanta oltre un trilione di parametri complessivi, con 42 miliardi di parametri attivi per ogni richiesta. Questa dimensione lo rende circa tre volte più grande del suo predecessore, MiMo-V2-Flash, introdotto nel dicembre 2025. Nonostante le sue dimensioni imponenti, MiMo-V2-Pro è stato progettato per operare con efficienza grazie a un meccanismo di attenzione ibrido, capace di elaborare contesti fino a un milione di token. Un'innovazione chiave è la sua capacità di prevedere più token contemporaneamente anziché uno alla volta, garantendo una velocità di elaborazione notevolmente superiore.

Performance eccezionali e costi contenuti

MiMo-V2-Pro ha dimostrato prestazioni notevoli nei benchmark globali. Si è classificato al terzo posto a livello mondiale sia in PinchBench che in ClawEval, posizionandosi di poco dietro a Claude Opus 4.6. Nell'Artificial Analysis Intelligence Index, MiMo-V2-Pro occupa la settima posizione globale, emergendo come il modello linguistico cinese più potente dopo GLM-5 e MiniMax-M2.7. Nel benchmark di coding SWE-bench Verified, ha raggiunto il 78%, superando di poco Claude Sonnet 4.6 (79,6%) e avvicinandosi a Claude Opus 4.6 (80,8%). Nel benchmark per agenti ClawEval, ha ottenuto 81 punti, quasi eguagliando Claude Opus 4.6 (81,5) e superando GPT-5.2 (77).

Uno degli aspetti più sorprendenti di MiMo-V2-Pro è la sua aggressiva strategia di prezzo. Xiaomi ha annunciato che il modello costa un dollaro per milione di token di input e tre dollari per milione di token di output, con lunghezze di contesto fino a 256.000 token. Questi prezzi sono significativamente inferiori rispetto ai concorrenti: Claude Sonnet 4.6 costa tre e 15 dollari rispettivamente, mentre Claude Opus 4.6 costa cinque e 25 dollari. Attualmente, Xiaomi non applica costi di scrittura per la cache. MiMo-V2-Pro è accessibile tramite un'API pubblica e Xiaomi ha stretto collaborazioni iniziali con cinque framework per agenti: OpenClaw, OpenCode, KiloCode, Blackbox e Cline. Gli sviluppatori di tutto il mondo avranno accesso gratuito all'API per una settimana.

MiMo-V2-Omni: vedere, sentire e agire in un unico modello

MiMo-V2-Omni è il modello multimodale della suite, che fonde encoder di immagini, video e audio in un unico backbone comune. La sua capacità non si limita alla percezione, ma si estende direttamente all'azione basata su ciò che percepisce. Il modello supporta nativamente chiamate a strumenti strutturate, può eseguire funzioni e orientarsi nelle interfacce utente.

Capacità multimodali e applicazioni pratiche

Secondo Xiaomi, MiMo-V2-Omni supera Gemini 3 Pro nell'elaborazione audio, comprendendo registrazioni continue di oltre dieci ore. Nelle immagini, con un punteggio di 76,8 su MMMU-Pro, batte Claude Opus 4.6 (73,9). I risultati nei benchmark per agenti sono più vari: nel ClawEval, il modello Omni raggiunge 54,8, un valore inferiore a Claude Opus 4.6 (66,3) e GPT-5.2 (59,6). Tuttavia, in MM-BrowserComp per la navigazione web, supera sia Gemini 3 Pro che GPT-5.2.

Xiaomi ha presentato diversi esempi di applicazione di MiMo-V2-Omni. Uno di questi ha mostrato il modello analizzare filmati di dashcam, identificando in tempo reale pedoni, veicoli in ingresso e colli di bottiglia come potenziali pericoli. In un altro scenario, MiMo-V2-Omni ha navigato autonomamente in un browser, ricercato recensioni di prodotti sulla piattaforma cinese Xiaohongshu, confrontato prezzi su JD.com, negoziato sconti con il servizio clienti tramite chat e completato l'acquisto. In un'ulteriore dimostrazione, il modello ha creato autonomamente contenuti multimediali, ha eseguito il debug del codice associato e ha pubblicato il risultato su TikTok tramite il browser, senza alcun intervento umano. In tutti questi casi, MiMo-V2-Omni prende le decisioni, mentre il framework open-source OpenClaw esegue le azioni effettive nel browser e nel file system.

MiMo-V2-TTS: parlare con emozione, non da un menù a tendina

Il modello di sintesi vocale MiMo-V2-TTS è stato addestrato, secondo Xiaomi, con oltre 100 milioni di ore di dati vocali. Questo modello decompone internamente il linguaggio in diversi strati paralleli di unità discrete, consentendogli di controllare in modo più preciso il suono, il ritmo e l'emozione rispetto ai sistemi tradizionali.

La differenza cruciale rispetto ai sistemi TTS convenzionali è che gli utenti non selezionano un'emozione da un elenco, ma descrivono liberamente lo stile vocale desiderato in linguaggio naturale. "Assonnato, appena sveglio, leggermente rauco" dovrebbe suonare diversamente da "arrabbiato, ma che cerca di mantenere la calma". Il modello genera anche elementi paralinguistici come tosse, esitazioni, sospiri e risate come parti integrate, non come clip audio inserite in seguito. Secondo Xiaomi, MiMo-V2-TTS è l'unica API TTS disponibile commercialmente che gestisce nativamente sia il parlato che il canto nello stesso modello. Le indicazioni tipografiche, come le maiuscole o le ripetizioni di caratteri, vengono interpretate dal modello come istruzioni per enfasi e ritmo: "QUESTO È IMPORTANTE" non suona semplicemente più forte, ma viene pronunciato con enfasi. Anche senza un'esplicita istruzione di stile, il modello deduce il tono appropriato direttamente dal contenuto del testo.

Strategia complessiva e prospettive future

Con tre modelli specializzati presentati contemporaneamente, Xiaomi segnala chiaramente l'intenzione di fornire una piattaforma completa per agenti basati sull'IA. I benchmark mostrano che i modelli di Xiaomi raggiungono il livello di Anthropic e OpenAI in alcune discipline, ma sono ancora in ritardo in altre. In particolare, per i compiti generali degli agenti, MiMo-V2-Pro è ancora a pochi punti di distanza da Claude Opus 4.6.

Il team MiMo ha delineato i prossimi passi nello sviluppo, che includono la pianificazione a lungo termine su ore e giorni, lo streaming in tempo reale, i sistemi multi-agente coordinati e la robotica. "Crediamo che il percorso verso l'intelligenza generale passi attraverso il mondo reale", scrive il team. "Un modello che legge solo testo vive in una biblioteca. Un modello che vede, sente, pensa e agisce, vive nel mondo."

"Hunter Alpha" non era Deepseek

Prima della sua rivelazione ufficiale da parte di Xiaomi, MiMo-V2-Pro era stato elencato in forma anonima sulla piattaforma API OpenRouter con il nome in codice "Hunter Alpha". Secondo Xiaomi, il volume di utilizzo del modello è cresciuto costantemente lì: ha guidato la classifica giornaliera per diversi giorni ed è stato utilizzato per oltre un trilione di token in totale. Le applicazioni più utilizzate erano invariabilmente strumenti di coding.

Molti utenti avevano ipotizzato che "Hunter Alpha" potesse essere Deepseek V4. Tuttavia, Deepseek si sta ancora facendo attendere: secondo un rapporto, il prossimo grande modello di Deepseek è in ritardo a causa delle crescenti dimensioni del modello. Al contrario, altri fornitori cinesi stanno avanzando: Zhipu AI ha recentemente rilasciato GLM-5, un modello open-source con 744 miliardi di parametri, che si dice possa competere con Claude Opus 4.5 e GPT-5.2 nelle attività di coding e agenti. Anche Moonshot AI è un attore emergente in questo panorama dinamico dell'intelligenza artificiale.