Microsoft ha annunciato recentemente MAI-Transcribe-1.5, una nuova versione del suo modello di trascrizione audio in-house sviluppato internamente. Il modello mira a garantire alta precisione su 43 lingue, diversi accenti e condizioni acustiche reali, rendendolo adatto a un uso professionale in diversi scenari aziendali come Teams, GitHub, Dynamics 365 e Contact Center.

Cos’è MAI-Transcribe-1.5

MAI-Transcribe-1.5 è un modello di riconoscimento vocale automatizzato (ASR, Automatic Speech Recognition) che riceve un input audio e restituisce una trascrizione testuale. Microsoft lo ha sviluppato internamente, senza basarlo su modelli di terzi. Il sistema è in grado di gestire 43 lingue con un unico modello, adatto a accenti, dialetti e condizioni acustiche complesse.

Microsoft integra MAI-Transcribe-1.5 in soluzioni come Copilot, Teams, GitHub, e Dynamics 365 Contact Centre. Inoltre, il modello è disponibile su Foundry, l’infrastruttura model-based di Microsoft.

La Prestazione in Termini di Precisione

La precisione del modello viene misurata utilizzando la metrica Word-Error-Rate (WER), dove un valore più basso indica meno errori per parola. Microsoft annuncia una WER best-in-class su 43 lingue su FLEURS, che è un benchmark multilingua riconosciuto a livello globale.

Sul leader board di Artificial Analysis, il modello presenta una WER del 2,4%, sistemandosi al terzo posto su ben prestanti concorrenti open-source. Nonostante questo, Microsoft conferma il primo posto su FLEURS.

Espansione Linguistica

Il modello ha espanso le sue coperture linguistiche da 25 a 43 lingue, aggiungendo 18 nuove lingue senza compromettere la precisione. Tra le nuove lingue aggiunte, 10 sono linguisticamente tipiche dell'Asia meridionale come il bengalese, il tamil e il telugu. Le altre 8 si trovano in Europa, tra cui l'ucraino, il greco e il catalano.

Velocità e Prestazioni

MAI-Transcribe-1.5 eccelle anche per la combinazione di velocità e precisione. Il modello risulta fino a 5 volte più veloce dei competitor con livelli simili di precisione, soprattutto quando si tratta di file audio di lunga durata.

Secondo Microsoft, un’ora di audio può essere trascritta in meno di 15 secondi, superando di gran lunga modelli come Gemini 3.1, Scribe v2 e GPT-4o-Transcribe. Sul benchmark precedente, MAI-Transcribe-1.5 è 5,7 volte più veloce rispetto alla versione 1.

La Caratteristica di Sintonizzazione sui Nomi

Un elemento rilevante di MAI-Transcribe-1.5 è la sintonizzazione sui nomi, una funzione progettata per migliorare la trascrizione di parole e nomi specifici in un certo dominio, come nomi propri, prodotti, termini medici o acronimi interni.

Microsoft introduce una funzione chiamata sintonizzazione su entità o nomi-chiave. L'utente fornisce al modello una lista di termini specifici. Il modello, invece di forzare una corrispondenza, utilizza il contesto condiviso per stabilire quando applicare questa sintonizzazione. Questo permette un miglioramento fino al 30% su FLEURS.

Un esempio mostra la differenza: senza sintonizzazione, i nomi possono apparire come “Sean”, “Oif”, o “Societal”; con la lista fornita, il modello correttamente li trascrive come “Shaun”, “Aoife” e “Xochitl”. Questa funzionalità è essenziale per settori come salute, centri di contatto e riunioni aziendali.

Uso Principale

Secondo il model card, il modello è progettato per una serie di scenari produttivi, tra cui:

Captioning video per piattaforme multimediali

Strumenti di accessibilità dipendenti da sottotitoli

Trascrizioni di riunioni per strumenti collaborativi tipo Teams

Analisi telefonica per centri di contatto o analytics

Creazione di contenuti richiedente trascrizioni rapide

Agenti vocali che richiedono conversione vocale in testo

La capacità di riconoscimento automatico della lingua permette di identificare la lingua dell'input senza intervento manuale.

Confronto con MAI-Transcribe-1

Ecco un confronto diretto fra le due versioni in base alle specifiche:

Attributo	MAI-Transcribe-1	MAI-Transcribe-1.5
Lingue supportate	25	43
Sintonizzazione su nomi e entità	Non disponibile	Fino a 200 parole chiave
Velocità lunga-form	Standard	Fin a 5,7x più veloce
WER su Artificial Analysis	Non specificato	2,4% (#3)
Posizione FLEURS	Prima versione	Più precisa su 43 lingue
Identificazione automatica linguistica	Non specificato	Sì
Ciclo di vita	Prior release	Disponibile in produzione
Input/Output	Audio/Testo	Audio/Testo

Vantaggi e Limiti

Vantaggi:

Copertura di 43 lingue in un unico modello

Miglioramento del 30% nella WER su FLEURS grazie alla sintonizzazione

Trascrizione audio in meno di 15 secondi per un'ora di contenuto

Disponibile immediatamente su Azure AI Foundry

Risposta affidabile per audio rumorosi

Limiti:

Nessuna funzione di diarizzazione per le etichette vocali

No API streaming interno, limitando la capacità in tempo reale

Alcune affermazioni su precisione, velocità e costi sono interne a Microsoft

Terzo posto su Artificial Analysis, con due concorrenti al di sopra

Fonti

Di seguito le principali fonti ufficiali per approfondire:

Introducing MAI-Transcribe-1.5 — Microsoft AI

MAI-Transcribe