Un modello multimodale per l’automatica gestione di schermi ed app

Il modello KI di Alibaba, Qwen3.7-Plus, ha un'ampia versatilità grazie all'unione di abilità visive e capaci di programmazione. Come agente interattivo ibrido, Qwen3.7-Plus interpreta scene reali, decodifica il contenuto degli schermi, interagisce con le interfacce grafiche, genera codice da modelli visivi e gestisce l’intera navigazione di app mobili.

Il modello permette di operare all’interno di una singola loop di agente, alternando click su interfacce grafiche o comandi su riga di comando. La sua capacità di interpretazione visiva insieme alle sue capacità come agente apre nuove opportunità per il trattamento automatizzato di schermi e il generare codice in contesti visivi.

11 ore per sviluppare una app per la memorizzazione linguistica

Basato su Qwen3.7-Plus, un sistema ibrido-agente ha elaborato una app per imparare vocaboli in inglese. Il team di Qwen ha comunicato che l’agente ha funzionato per 11 ore in continuo, producendo oltre 10.000 righe di codice e inviando più di 1.000 chiamate all’agente.

Tutti i processi necessari per creare la app sono stati autonomamente condotti: documentazione delle richieste, generazione automatica di codice, installazione, creazione di test, test grafico, esecuzione parallela di scenari test e avanzamento autonomo delle versioni.

Replicazione di una app desktop macOS e generazione di codice SwiftUI

Un secondo esempio dimostrativo ha visto il modello simulare autonomamente l’app Stocks nativa macOS. L'agente ha letto e compreso la struttura dell’interfaccia utente e ha generato codice SwiftUI per replicarla.

Il modello ha successivamente integrato una piattaforma esterna per dati di borsa in tempo reale e ha completato la compilazione e il test funzionale dell'app, incluse funzionalità come la ricerca dei prezzi e i filtri di ricerca.

L'implementazione di un agente browser con "Qwen for Chrome"

Uno scenario ulteriore ha mostrato l’utilizzo come agente browser via estensione "Qwen for Chrome" nella sidebar. Concesso l’autorizzazione, il modello entra in modalità agente e effettua attività come l'acquisto di un server virtuale a basso costo con configurazione di image, storage e gruppi di sicurezza.

In seguito, l'agente si preoccupa della scalabilità e della manutenzione in continuazione, mostrando un’ampiezza di gestione che unifica task desktop e cloud.

Le forti capacità dell’interfaccia utente e le limitazioni nella rigida logica

Negli ultimi benchmark pubblicati da Qwen, l’agente evidenzia forti risultati nella gestione delle interfacce grafiche. Su test come AndroidWorld e ScreenSpot Pro, Qwen3.7-Plus supera chiaramente GPT-5.4, Opus 4.6 Max e Gemini 3.1 Pro.

Nel settore delle attività di terminali e pianificazione di lungo termine, il modello mantiene una posizione dominante rispetto ai modelli concorrenti.

Limitazioni su test logici e di coding

Quando si tratta di test rigidi di logica, il modello sembra riscontrare difficoltà. Nonostante mostri una buona performance su alcuni test di comprensività visiva, modelli come Claude Opus 4.6 dimostrano una migliore capacità di coding e test agenti.

Secondo i team di Alibaba, Qwen3.7-Plus mostra una buona competenza nel settore testi, equivalente ai modelli di fascia Max, senza però superarli in maniera costante.

Compatibilità tra framework come elemento differenziatore

Qwen3.7-plus adotta un protocollo API di compatibilità con l’API di Anthropic, rendendo possibile l’utilizzo diretto con Claude Code, OpenClaw e Qwen Code di Alibaba.

Inoltre, per il tramite dell’API, è implementabile l’opzione "preserve_thinking", una funzione che conserva i contenuti di ragionamento dagli scambi precedenti. La funzionalità è particolarmente consigliata per compiti autonomi.

Copertura avanzata di video e analisi di scene automobilistiche

La sua capacità non si limita alla semplice elaborazione d’immagini. Qwen3.7-Plus include una completa comprensione dei video e l’analisi di scene durante la guida, posizionandosi come base ideale per sistemi embedded e per l’automazione delle funzioni di guida.

Disponibilità su Alibaba Cloud con politica di basso costo

Qwen3.7-Plus è disponibile tramite "Model Studio" su Alibaba Cloud, in modo chiuso, con licenze non aperte, simile al fratello linguistico Qwen3.7-Max.

Per la disponibilità della versione Plus, il prezzo per token di Alibaba è nettamente inferiore: per ogni milione di token d'ingresso, il costo è 0,40 dollari e per un milione di token di uscita, 2,40 dollari. Questo lo rende circa sei volte più economico in entrata e quasi tre volte in uscita rispetto a Max e molto inferiore rispetto al prezzo medio di modelli avanzati occidentali.

Abbonamenti con approfondimenti KI

Gli interessati a rimanere aggiornati sulla tecnologia e sull’evoluzione dell’IA possono sottoscrivere "The Decoder", offerto da Alibaba, per leggere contenuti KI senza pubblicità e partecipare a una community interattiva.

Gli abbonati accedono al nostro "Newsletter KI" settimanale, al "Frontier Newsletter" sull’IA ogni sei mesi, sconti fino al 25% sugli eventi KI e un accesso completo all’archivio degli ultimi dieci anni.