Alibaba ha rilasciato Qwen3.7-Plus, un modello AI multimodale che integra l’analisi visiva e le capacità di agente, permettendogli di operare autonomamente su interfacce grafiche e applicazioni.

Funzionalità e capacità di Qwen3.7-Plus

Descritto come un "agente ibrido interattivo multimodale," Qwen3.7-Plus è in grado di analizzare e comprendere contesti reali, leggere il contenuto visivo, operare su interfacce grafiche, generare codice da modelli visivi e navigare app mobili in modo completo. Il modello esegue click sull’interfaccia e istruzioni tramite linee di comando all'interno dello stesso loop agente.

Inoltre, Qwen3.7-Plus è costruito sopra il modello testuale Qwen3.7 e supporta capacità come la comprensione visiva, il codifica e l’utilizzo di strumenti, che lo rendono unico nel panorama attuale dell’intelligenza artificiale.

Demo del nuovo modello

Uno dei test effettuati ha visto Qwen3.7-Plus impegnarsi in oltre undici ore per creare una applicazione di studio del vocabolario inglese. Durante il periodo, l'agente ha generato oltre diecimila righe di codice in più di mille chiamate agenti. L’intero processo ha incluso la documentazione dei requisiti, la generazione automatizzata di codice, l'installazione, la creazione di casi di test, test basati su GUI, scenari test funzionali e la gestione autonoma delle versioni del software.

Un altro test ha coinvolto la ricostruzione dell’app per i mercati finanziari macOS nativo attraverso la creazione di codice SwiftUI da interfacce esistenti. L’agente ha collegato una API esterna per ottenere dati in tempo reale, compilato l’applicazione e completato dieci test funzionali, incluso la ricerca dei prezzi e filtri di ricerca.

Capacità cloud e autonomia

La terza applicazione coinvolge un’estensione del browser denominata “Qwen for Chrome.” Con il consenso dell’utente, il modello entra in modalità agente e svolge compiti in una console cloud, ad esempio acquistando la più economica istanza di server virtuale disponibile, configurando immagini, storage e gruppi di sicurezza. In una seconda iterazione, il modello si occupa anche di scalabilità e manutenzione.

Preferenze sui benchmark

I benchmark pubblicati da Alibaba mostrano che il modello eccelle notevolmente in compiti visivi e operazioni di interfacce grafiche. L’agente batte modelli come Gemini 3.1 Pro, GPT-5.4 e Opus 4.6 Max in test come AndroidWorld e ScreenSpot Pro. Tuttavia, nei benchmark che richiedono logica pura — come MedXpertQA-MM — Qwen3.7-Plus si rivela meno performante rispetto a modelli come Claude Opus 4.6.

Per quanto riguarda le capacità di comprensione visive e la generazione di codice, la performance di Qwen3.7-Plus è paragonabile a quelle dei massimi modelli esistenti, ma non le supera in modo consistente.

Come differisce da modelli simili

Qwen3.7-Plus supporta protocolli API diversi, tra cui Anthropic API, e funziona con framework come Claude Code, OpenClaw e Qwen Code. Un’altra caratteristica distintiva è l'API preserve_thinking, che permette di conservare il contenuto di ragionamenti di conversazioni precedenti. I progettisti di Qwen consigliano esplicitamente questa modalità per compiti complessi.

Oltre al processamento di immagini, Qwen3.7-Plus include comprensione video e analisi di scene per guidare, posizionandosi come base per sistemi embeddabili e veicoli autonomi.

Prestazioni e prezzo competitivo

Il modello è disponibile tramite Alibaba Cloud Model Studio, come una proprietà esclusiva di Alibaba. Il modello non offre pesi aperti, quindi non è adatto per un rilascio open source.

Confrontato con il fratello maggiore Qwen3.7-Max, il modello Qwen3.7-Plus presenta un costo ben più basso. Il prezzo è di $0.40 su milione di token in ingresso e $2.40 per milione di token in uscita, contro i $2.50 e $7.50 di Qwen3.7-Max. Questo rende Qwen3.7-Plus circa sei volte più economico sull’input e tre volte inferiore su output rispetto al Max.