La equipe Qwen ha recentemente lanciato Qwen-Robot-Suite, una suite che include tre modelli di Intelligenza Artificiale (AI) autonomi dedicati ai problemi della robotica: Qwen-RobotManip, Qwen-RobotWorld e Qwen-RobotNav.
Qwen-RobotManip: Un modello VLA per la manipolazione.
Come modello Vision-Language-Action (VLA), Qwen-RobotManip si costruisce su Qwen3.5-4B (Qwen-VL) e predice azioni continue da parte del robot. Il problema che si presenta nella manipolazione è l'eterogeneità nei dati. I vari robot registrano informazioni e azioni in differenti formati e spesso si verificano discrepanze. Per risolvere questo problema, Qwen-RobotManip offre un framework unificato per allineamento.
I Meccanismi del Framework Unificato di Allineamento
Il framework si basa su tre meccanismi complementari. Prima di tutto, un rappresentazione canonica di stato-azione rappresenta le informazioni di giunti e posizione del braccio robotico. In secondo luogo, la parametrizzazione delta pose del telaio della telecamera permette similiarità visive e movimenti vicini. Infine, un meccanismo di adattamento politico in base al contesto consente di modificare il comportamento del modello in tempo reale.
Engin di Dati
Qwen-RobotManip utilizza circa 38.100 ore di dati di manipolazione. I dati utilizzati sono di origine aperta e derivanti da video umani e non vengono utilizzati dati esclusivi. Il processo di sintesi da uomo a robot converte le dimostrazioni mani-alte al braccio robotico su 15 piattaforme diverse.
Risultati dei Benchmark
Per confronto, i test sull'estensione out-of-distribution (OOD) mostrano miglioramenti significativi rispetto a soluzioni precedenti. RobotManip ottiene risultati superiori nei confronti degli altri modelli negli ambienti di test specificati.
- LIBERO-Plus: 91.4% vs 84.4% (precedente SOTA)
- RoboTwin-C2R Hard: 69.4% vs 47.9%
- EBench: 45.6% vs 27.1%
- RoboCasa365: 35.9% vs 16.9%
- RoboTwin-IF: 72.2% vs 49.6%
Qwen-RobotWorld: Modelli di mondo video condizionati al linguaggio
Qwen-RobotWorld rappresenta un modello video mondiale condizionato al linguaggio, il cui scopo è prevedere le tracce video futuri dallo stato attuale. L'utilizzo del linguaggio naturale offre un'interfaccia comune.
Architettura Doppio-Flusso MMDiT
Qwen-RobotWorld è costruito su un Multimodal Diffusion Transformer a doppio flusso con 60 strati. Il flusso di comprensione gestisce le funzioni dell'encoder Qwen2.5-VL, mentre il flusso di produzione processa dati latenti del VAE. Due flussi interagiscono insieme ad ogni strato.
Set di Dati del Conoscimento Mondiale Incarnato
Nel corso dell'addestramento, Qwen-RobotWorld utilizza il set di dati Embodied World Knowledge (EWK), che contiene circa 8.6 milioni di video-frasi. Il corpus copre quattro domini incarnati e video generali. L'approccio di mapping azione-linguaggio uniforma include la conversione di diversi tipi di incarnazioni (oltre 20) e azioni (oltre 500) a linguaggio.
Risultati Benchmark
Qwen-RobotWorld risulta primo in due benchmark principali: il EWMBench e il DreamGen Bench, con punteggi 4.60 e 4.952 rispettivamente. Sul WorldModelBench si classifica primo fra le risorse open-source al terzo posto complessivo. Il PBench invece mostra che il modello si colloca primo anche nell'ambiente open-source.
Qwen-RobotNav: Un'interfaccia controllabile per la navigazione
Costruito su Qwen3-VL, Qwen-RobotNav è un modello di navigazione scalabile che riformula la navigazione multipiattaforme come modello contestuale d’osservazione.
La suite Qwen-Robot-Suite presenta una soluzione innovativa per la robotica contemporanea, dove ogni modello risolve specifici problemi con una struttura e una metodologia unica. Questi modelli, grazie al loro design avanzato e la capacità di adattamento, offrono nuove opportunità per la manipolazione, il modeling del mondo e la navigazione robotica. Sono disponibili in varie dimensioni e configurazioni, consentendo l'uso in un vasto spettro di applicazioni robotiche e con una capacità di trasferimento che supera le attuali tecnologie esistenti.