Il modello AI "Audio-Interaction" elabora stream audio continuo e unifica compiti come il dialogo, la traduzione, la trascrizione e il riconoscimento dei rumori in un unico sistema. Il modello è addestrato su un dataset artificiale di 302.000 ore di audio.

Esso scompone lo stream audio in porzioni di 0,4 secondi e decide dopo ogni segmento attraverso un token speciale se rimanere in silenzio o produrre una risposta. La sua capacità di gestire l’ascolto e la risposta in parallelo riduce significativamente i tempi di attesa e permette al sistema di migliorare prestazioni di modelli proattivi nella rilevazione dei suoni rispetto ad altri sistemi come Gemini 3 Flash.

Modello di intelligenza artificiale unico nel suo genere

Le moderne tecnologie di intelligenza artificiale audio, come GPT-4o e Qwen3.5-Omni, funzionano come registratori da ufficio: rispondono solo quando l’ingresso audio si interrompe. Al contrario, i sistemi in streaming come Moshi e Paraformer ascoltano, ma generalmente sono limitati ad una funzione ed interpretano suoni comuni come tossire come rumori di fondo.

Ricercatori della Cina, Hong Kong e Singapura stanno introducendo una soluzione ibrida denominate "Audio-Interaction". Il modello ascolta in tempo reale, scompone lo stream audio in "chunk" di 0,4 secondi, e decide, dopo ogni blocco, se parlare o restare in silenzio. Dialogare, tradurre e riconoscere suoni comuni diventano compiti centrali di un modello con 3 miliardi di parametri.

Token decisionale ogni 0,4 secondi

Dopo ogni segmento audio, il modello emette entrambi o . Se il modello emette , continua ad ascoltare. Se invece emette , inizia a parlare. Tradurre, trascrivere o conversare sono esempi di compiti che possono emergere all’interno dello stesso flusso continuo.

Raffronto con benchmark

Sul benchmark audio MMAU, il modello Audio-Interaction, come indicato nel documento, raggiunge 58,15 punti, superando di poco il modello base Qwen2.5-Omni-3B e avvicinandosi ai modelli più grandi da 7B parametri. Nella traduzione tra inglese e cinese mostra notevole miglioramento rispetto al modello base.

L’unica soluzione che unisce in un unico modello la capacità di rilevare suoni, tradurre, conversare e reagire proattivamente a rumori ambientali è "Audio-Interaction", che incorpora in sé le funzioni classiche e specifiche tipiche degli strumenti audio in streaming.

Creato un dataset artificiale

Una delle sfide principali del team è stata creare dati di addestramento idonei, considerando che i dataset audio esistenti contengono in media clip brevi e isolati non adatti a sequenze audio più estese con segnali di risposta occasionali.

I ricercatori hanno quindi sviluppato le scene in tre fasi. Inizialmente, un modello linguistico ha prodotto ambienti plausibili, ad esempio una cucina la mattina con 3 a 15 eventi. Successivamente, il sistema ha cercato clip corrispondenti in un database oppure ha generato suoni inesistenti, come vetri infranti, utilizzando strumenti generativi per l’audio come AudioX o ElevenLabs. Infine, un processo di pre-elaborazione ha ridotto le imperfezioni per rendere più fluido e naturale il suono.

Il dataset risultante, StreamAudio-2M, include 2,6 milioni di unità per circa 302.000 ore di audio, distribuite su sette aree di competenze e 28 sottotipi di compiti.

Due errori comuni durante l’addestramento

Nel corso dell’addestramento, il team ha riscontrato due debolezze principali. Prima di tutto, in sequenze rumorose lunghe, il modello tende a dimenticare i contenuti iniziali, causando lacune nella comprensione. Per migliorare questa capacità, si utilizzano risoluzioni che fanno riferimento a elementi precedenti, rafforzando la capacità di ricordare.

Secondariamente, il modello reagiva spesso a rumori non rilevanti. Per ridurre questa tendenza, è stato applicato un gran quantitativo di registrazioni verificate di silenzi e background audio, chiaramente senza attivare un riscontro. Testando con il nuovo benchmark denominato ProactiveSound-Bench, composto da 644 eventi curati da esperti, il nuovo modello ha superato in prestazioni modelli come Gemini 3 Flash, Kimi-Audio-Instruct e Step-Audio 2.

Architettura parallela per il funzionamento in tempo reale

Per operare in tempo reale, i ricercatori hanno differenziato l’elaborazione audio dall’output verbale, gestendoli contemporaneamente con una logica di coda. Il segmento audio continua a registrare nuovi "chunks" mentre il modulo di risposta interviene solo quando necessario. Senza questa separazione, il tempo medio di attesa aumenterebbe da 392 a 831 millisecondi e in 5,2 % dei casi il sistema si bloccherebbe.

Ottimizzazione della lunghezza del segmento audio

La scelta di utilizzare blocchi di 0,4 secondi è una decisione compromesso: con segmenti più brevi, ad esempio 0,2 secondi, il contesto semantico si perde e il modello non riesce a svolgere discussioni coerenti. Al contrario, aumentando a 0,8 secondi, il tempo di attesa si allungha sino a 786 millisecondi. Questo equilibrio permette un funzionamento in tempo reale ma flessibile.

Architettura di funzionamento

Con il modello SoundFlow, la piattaforma organizza audio, rappresentazione intermedia e token di controllo in una sequenza temporale, addestrando il modello quando parlare e quando non parlare.

I file sorgenti e un tutorial per il download dei pesi modello sono disponibili su GitHub. Il dataset completo degli addestramenti verrà reso pubblico in futuro.

Notizie KI senza allarmismi

Iscrivendosi al THE-DECODER-Abo, si può leggere l’informazione sull’intelligenza artificiale senza fastidiosa pubblicità e diventare parte della comunità. Avrai accesso ai commenti, al nostro newsletter settimanale e al mensile KI Radar. In futuro, riceverai inoltre il 25% di sconto sugli eventi KI pro e accesso gratuito all'archivio delle ultime dieci anni del magazine.

Fonte: Arxiv