La equipe Qwen ha recentemente lanciato Qwen-Robot-Suite, una suite che include tre modelli di Intelligenza Artificiale (AI) autonomi dedicati ai problemi della robotica: Qwen-RobotManip, Qwen-RobotWorld e Qwen-RobotNav.

Qwen-RobotManip: Un modello VLA per la manipolazione.

Come modello Vision-Language-Action (VLA), Qwen-RobotManip si costruisce su Qwen3.5-4B (Qwen-VL) e predice azioni continue da parte del robot. Il problema che si presenta nella manipolazione è l'eterogeneità nei dati. I vari robot registrano informazioni e azioni in differenti formati e spesso si verificano discrepanze. Per risolvere questo problema, Qwen-RobotManip offre un framework unificato per allineamento.

I Meccanismi del Framework Unificato di Allineamento

Il framework si basa su tre meccanismi complementari. Prima di tutto, un rappresentazione canonica di stato-azione rappresenta le informazioni di giunti e posizione del braccio robotico. In secondo luogo, la parametrizzazione delta pose del telaio della telecamera permette similiarità visive e movimenti vicini. Infine, un meccanismo di adattamento politico in base al contesto consente di modificare il comportamento del modello in tempo reale.

Engin di Dati

Qwen-RobotManip utilizza circa 38.100 ore di dati di manipolazione. I dati utilizzati sono di origine aperta e derivanti da video umani e non vengono utilizzati dati esclusivi. Il processo di sintesi da uomo a robot converte le dimostrazioni mani-alte al braccio robotico su 15 piattaforme diverse.

Risultati dei Benchmark

Per confronto, i test sull'estensione out-of-distribution (OOD) mostrano miglioramenti significativi rispetto a soluzioni precedenti. RobotManip ottiene risultati superiori nei confronti degli altri modelli negli ambienti di test specificati.

LIBERO-Plus: 91.4% vs 84.4% (precedente SOTA)

RoboTwin-C2R Hard: 69.4% vs 47.9%

EBench: 45.6% vs 27.1%

RoboCasa365: 35.9% vs 16.9%

RoboTwin-IF: 72.2% vs 49.6%

Qwen-RobotWorld: Modelli di mondo video condizionati al linguaggio

Qwen-RobotWorld rappresenta un modello video mondiale condizionato al linguaggio, il cui scopo è prevedere le tracce video futuri dallo stato attuale. L'utilizzo del linguaggio naturale offre un'interfaccia comune.

Architettura Doppio-Flusso MMDiT

Qwen-RobotWorld è costruito su un Multimodal Diffusion Transformer a doppio flusso con 60 strati. Il flusso di comprensione gestisce le funzioni dell'encoder Qwen2.5-VL, mentre il flusso di produzione processa dati latenti del VAE. Due flussi interagiscono insieme ad ogni strato.

Set di Dati del Conoscimento Mondiale Incarnato

Nel corso dell'addestramento, Qwen-RobotWorld utilizza il set di dati Embodied World Knowledge (EWK), che contiene circa 8.6 milioni di video-frasi. Il corpus copre quattro domini incarnati e video generali. L'approccio di mapping azione-linguaggio uniforma include la conversione di diversi tipi di incarnazioni (oltre 20) e azioni (oltre 500) a linguaggio.

Risultati Benchmark

Qwen-RobotWorld risulta primo in due benchmark principali: il EWMBench e il DreamGen Bench, con punteggi 4.60 e 4.952 rispettivamente. Sul WorldModelBench si classifica primo fra le risorse open-source al terzo posto complessivo. Il PBench invece mostra che il modello si colloca primo anche nell'ambiente open-source.

Qwen-RobotNav: Un'interfaccia controllabile per la navigazione

Costruito su Qwen3-VL, Qwen-RobotNav è un modello di navigazione scalabile che riformula la navigazione multipiattaforme come modello contestuale d’osservazione.

La suite Qwen-Robot-Suite presenta una soluzione innovativa per la robotica contemporanea, dove ogni modello risolve specifici problemi con una struttura e una metodologia unica. Questi modelli, grazie al loro design avanzato e la capacità di adattamento, offrono nuove opportunità per la manipolazione, il modeling del mondo e la navigazione robotica. Sono disponibili in varie dimensioni e configurazioni, consentendo l'uso in un vasto spettro di applicazioni robotiche e con una capacità di trasferimento che supera le attuali tecnologie esistenti.