Un numero crescente di persone nel mondo utilizza più di una lingua quotidianamente. Per molti parlanti bilingue, l'alternanza linguistica—passare fluidamente da una lingua all'altra, anche all’interno della stessa frase—è una forma naturale di comunicazione. Che si tratti di conversazioni informali, di centri di contatto o di help desk IT, molti parlanti adattano linguisticamente in base a ciò che sembra più naturale in quel momento.

La Necessità di Valutare i Modelli ASR

Nonostante la diffusione della bilinguismo nel mondo, c'è stato poco lavoro sull’efficacia di agenti vocali nel gestire discorsi codificati in ambienti aziendali. Quando un cliente ci ha chiesto come i nostri agenti vocali funzionerebbero con una base di clienti prevalentemente bilingue, abbiamo deciso di creare un benchmark originale e un dataset per valutare i modelli. Ci siamo concentrati sull’automatico riconoscimento della parola parlata (ASR)—il primo passo in qualsiasi pipeline vocale—perché gli errori nella trascrizione si propagano a tutti i componenti successivi.

Nei contesti aziendali, in cui un ticket mal instradato o una domanda di policy mal interpretata ha implicazioni operative reali, ottenere la trascrizione corretta è un passo fondamentale nella pipeline degli agenti vocali.

La Struttura e gli Obiettivi del Benchmark

Il nostro benchmark copre quattro coppie di lingue rilevanti per la base clienti: spagnolo-inglese, francese-inglese, francese canadese-inglese, e tedesco-inglese. Usa la lingua non inglese come contesto principale, con l’inglese integrato in varie lunghezze. Il dataset racchiude una larga gamma di scenario per la gestione dell'amministrazione umana (HR) e per la gestione del servizio IT (ITSM), tra cui domande degli impiegati riguardo ai benefit o alle buste paga, e richieste di supporto come ripristini di password, accesso alla rete VPN, o risoluzione dispositivo.

Le Metriche di Valutazione

Pur di valutare le prestazioni dei modelli, abbiamo adottato tre metriche: Word Error Rate (WER), Semantic Word Error Rate (SWER), e Answer Error Rate (AER). Abbiamo scelto queste metriche per catturare sia l’accuratezza esatta del modello nella trascrizione, sia la capacità di preservare il significato del discorso per applicazioni downstream.

Sistema di Benchmark e Modelli Testati

Pubblichiamo il nostro benchmark e i dati attraverso il nostro strumento AU-Harness per valutare modelli vocali. Offriamo i risultati di sette sistemi ASR, tra cui alcuni grandi modelli Audio Language (LALMs), sistemi ASR d'avanguardia e sistemi ASR open-source. Il nostro risultato principale mostra che il costo di alternanza linguistica varia a seconda della coppia di lingue e del modello testato. I modelli superiori sono ElevenLabs Scribe V2, Gemini 3 Flash, e Assembly AI Universal 3-Pro.

Come è strutturato il Dataset

Abbiamo iniziato con un database interno di interazioni IT e HR. Per creare ciascuna espressione in alternanza linguistica, iniziamo da affermazioni parallele in inglese e in una delle nostre quattro lingue non inglesi, filtriamo i candidati per buoni discorsi in alternanza. Manteniamo le espressioni da 12 a 40 parole—abbastanza corte per essere naturali, abbastanza lunghe per contenere opportunità reali di alternanza. Escludiamo le espressioni in cui ci siano troppe entità—emails, numeri di telefono, ID, o URL che renderebbero il testo quasi in inglese per necessità piuttosto che per scelta bilingue. Infine, richiediamo almeno tre parole di contenuto intercambiabili—sostantivi, verbi, o aggettivi non entità o nomi prodotto—per dare al modello di generazione abbastanza materiale da produrre una versione in alternanza significativa.

Tecniche per la Sintesi Verbale e Test

Dopo aver testato diverse strategie per combinare lingue in modo realistico, abbiamo scelto un semplice prompt persona inviato a un LLM (OpenAI/GPT-5) per produrre il discorso in alternanza. Usiamo quindi una passata di verbalizzazione LLM per convertire il testo in forma parlata e utilizziamo ElevenLabs Multilingual V2 per sintetizzare l’audio. Ogni espressione è sottoposta a revisione da un linguista di AI/NLP madrelingua della lingua principale; le espressioni segnalate vengono escluse o rigenerate e revalutate.

Analisi e Confronto dei Risultati

Il dataset finale contiene 259 record spagnolo-inglese, 298 record francese-inglese, 188 record francese canadese-inglese, e 173 record tedesco-inglese. Segnaliamo tre metriche ogni modello per ogni coppia di lingue, scelte per catturare precisione trascrizionale, conservazione del significato e prestazione delle attività a valle.

Differenze tra Modelli

Le differenze tra le metriche si fanno più evidenti quando i modelli divergono fra loro.

I modelli semantici raccontano una storia piuttosto simile rispetto al WER, con alcune invertite.

I risultati semantici rivelano un'elevata consistenza tra SWER e AER.

Anomalia nei Casi di Deepgram Nova-3

Un chiaro outlier è il modello Deepgram Nova-3, che si posiziona a metà nella scala SWER ma è l'ultimo o il penultimo in AER attraverso tutte le coppie di lingue. L’intervallo è più pronunciato in spagnolo-inglese: il livello complessivo degli errori semantici di Nova-3 è inferiore rispetto al tasso d'errore su particolari rilevanti.

Singoli Problemi nel Cambio di Lingua

Sebbene i risultati forniscano chiaramente un quadro dei modelli rispetto alla performance su discorsi codificati, non rivelano da dove derivino gli errori—dal grado di difficoltà della trascrizione stessa o dal problema aggiuntivo introdotto dal cambio di lingua.

Isolamento dell’Effetto Codificazione

Per isolare il costo di codificazione, abbiamo fatto passare ogni espressione attraverso la nostra pipeline di valutazione in tre formati sonori: discorsi codificati, audio monolingui di lingua matrice con lo stesso contenuto, e audio monolingui inglesi. Per ciascuna espressione, abbiamo misurato la differenza del WER tra le condizioni codificate e monolingue, aggregando le differenze su tutto il benchmark.

Analisi di Fattorii

Conoscendo che la codifica può causare errori nei modelli, ci siamo concentrati su quelle condizioni associate a errori specifici. Per rispondere a questa domanda, abbiamo adattato un modello a due parti:

Approccio a Due Passi

Questo approccio ci permette di distinguere tra fattori che aumentano la probabilità di errore e quelli che influenzano la gravità una volta che l’errore si verifica. Entrambi i passaggi includono gli stessi predictor: (1) il numero di cambi linguistici dentro un’espressione, e (2