Microsoft ha annunciato recentemente MAI-Transcribe-1.5, una nuova versione del suo modello di trascrizione audio in-house sviluppato internamente. Il modello mira a garantire alta precisione su 43 lingue, diversi accenti e condizioni acustiche reali, rendendolo adatto a un uso professionale in diversi scenari aziendali come Teams, GitHub, Dynamics 365 e Contact Center.

Cos’è MAI-Transcribe-1.5

MAI-Transcribe-1.5 è un modello di riconoscimento vocale automatizzato (ASR, Automatic Speech Recognition) che riceve un input audio e restituisce una trascrizione testuale. Microsoft lo ha sviluppato internamente, senza basarlo su modelli di terzi. Il sistema è in grado di gestire 43 lingue con un unico modello, adatto a accenti, dialetti e condizioni acustiche complesse.

Microsoft integra MAI-Transcribe-1.5 in soluzioni come Copilot, Teams, GitHub, e Dynamics 365 Contact Centre. Inoltre, il modello è disponibile su Foundry, l’infrastruttura model-based di Microsoft.

La Prestazione in Termini di Precisione

La precisione del modello viene misurata utilizzando la metrica Word-Error-Rate (WER), dove un valore più basso indica meno errori per parola. Microsoft annuncia una WER best-in-class su 43 lingue su FLEURS, che è un benchmark multilingua riconosciuto a livello globale.

Sul leader board di Artificial Analysis, il modello presenta una WER del 2,4%, sistemandosi al terzo posto su ben prestanti concorrenti open-source. Nonostante questo, Microsoft conferma il primo posto su FLEURS.

Espansione Linguistica

Il modello ha espanso le sue coperture linguistiche da 25 a 43 lingue, aggiungendo 18 nuove lingue senza compromettere la precisione. Tra le nuove lingue aggiunte, 10 sono linguisticamente tipiche dell'Asia meridionale come il bengalese, il tamil e il telugu. Le altre 8 si trovano in Europa, tra cui l'ucraino, il greco e il catalano.

Velocità e Prestazioni

MAI-Transcribe-1.5 eccelle anche per la combinazione di velocità e precisione. Il modello risulta fino a 5 volte più veloce dei competitor con livelli simili di precisione, soprattutto quando si tratta di file audio di lunga durata.

Secondo Microsoft, un’ora di audio può essere trascritta in meno di 15 secondi, superando di gran lunga modelli come Gemini 3.1, Scribe v2 e GPT-4o-Transcribe. Sul benchmark precedente, MAI-Transcribe-1.5 è 5,7 volte più veloce rispetto alla versione 1.

La Caratteristica di Sintonizzazione sui Nomi

Un elemento rilevante di MAI-Transcribe-1.5 è la sintonizzazione sui nomi, una funzione progettata per migliorare la trascrizione di parole e nomi specifici in un certo dominio, come nomi propri, prodotti, termini medici o acronimi interni.

Microsoft introduce una funzione chiamata sintonizzazione su entità o nomi-chiave. L'utente fornisce al modello una lista di termini specifici. Il modello, invece di forzare una corrispondenza, utilizza il contesto condiviso per stabilire quando applicare questa sintonizzazione. Questo permette un miglioramento fino al 30% su FLEURS.

Un esempio mostra la differenza: senza sintonizzazione, i nomi possono apparire come “Sean”, “Oif”, o “Societal”; con la lista fornita, il modello correttamente li trascrive come “Shaun”, “Aoife” e “Xochitl”. Questa funzionalità è essenziale per settori come salute, centri di contatto e riunioni aziendali.

Uso Principale

Secondo il model card, il modello è progettato per una serie di scenari produttivi, tra cui:

    • Captioning video per piattaforme multimediali
    • Strumenti di accessibilità dipendenti da sottotitoli
    • Trascrizioni di riunioni per strumenti collaborativi tipo Teams
    • Analisi telefonica per centri di contatto o analytics
    • Creazione di contenuti richiedente trascrizioni rapide
    • Agenti vocali che richiedono conversione vocale in testo

La capacità di riconoscimento automatico della lingua permette di identificare la lingua dell'input senza intervento manuale.

Confronto con MAI-Transcribe-1

Ecco un confronto diretto fra le due versioni in base alle specifiche:

AttributoMAI-Transcribe-1MAI-Transcribe-1.5
Lingue supportate2543
Sintonizzazione su nomi e entitàNon disponibileFino a 200 parole chiave
Velocità lunga-formStandardFin a 5,7x più veloce
WER su Artificial AnalysisNon specificato2,4% (#3)
Posizione FLEURSPrima versionePiù precisa su 43 lingue
Identificazione automatica linguisticaNon specificato
Ciclo di vitaPrior releaseDisponibile in produzione
Input/OutputAudio/TestoAudio/Testo

Vantaggi e Limiti

Vantaggi:

    • Copertura di 43 lingue in un unico modello
    • Miglioramento del 30% nella WER su FLEURS grazie alla sintonizzazione
    • Trascrizione audio in meno di 15 secondi per un'ora di contenuto
    • Disponibile immediatamente su Azure AI Foundry
    • Risposta affidabile per audio rumorosi

Limiti:

    • Nessuna funzione di diarizzazione per le etichette vocali
    • No API streaming interno, limitando la capacità in tempo reale
    • Alcune affermazioni su precisione, velocità e costi sono interne a Microsoft
    • Terzo posto su Artificial Analysis, con due concorrenti al di sopra

Fonti

Di seguito le principali fonti ufficiali per approfondire: