Google ha recentemente presentato Gemini 3.5 Live Translate, il proprio modello innovativo per traduzioni vocali in tempo reale in più di 70 lingue. Questa tecnologia si basa su un modello audio che prende in input l'audio parlato e restituisce l'output in un'altra lingua, mantenendo il tono, il ritmo e l’intonazione del parlante.
Gemini 3.5 Live Translate
Il modello non è un chatbot, ma una singola rete neurale progettata specificatamente per tradurre continuamente audio streaming. Funziona senza bisogno che l’utente finisca la frase, e mantiene una gestione robusta del rumore, utile in ambienti rumorosi e imprevedibili.
La traduzione avviene in tempo reale, bilanciando la necessità di attendere un po’ di contesto per migliorare la qualità con la velocità dell’output per rimanere sincronizzato con il parlante, pur rimanendo leggermente indietro di alcuni secondi.
Confronto con soluzioni precedenti
Conversational agents di tipo tradizionale richiedono interazioni basate su turni, mentre Gemini 3.5 Live Translate utilizza un processore a flusso continuo. Questo significa che non aspetta una pausa o un segnale per procedere con la traduzione.
Nel modo traduzione, il modello riceve solo input audio e non gestisce testo o strumenti, mantenendo il flusso focalizzato esclusivamente sull'interprete reale.
Utilizzo dello Streaming API Live
I developer possono configurare e utilizzare il modello attraverso la Live API, specificando nel blocco translationConfig la lingua di destinazione tramite il formato BCP-47. L’esempio più comune include codici come "es" per lo spagnolo o "pl" per il polacco.
Altri parametri utili includono echoTargetLanguage, che controlla se il modello riproduca l’audio di destinazione, e inputAudioTranscription, per ottenere trascrizioni testuali. Le forme audio sono fissate: in input si utilizza 16-bit PCM a 16kHz, mentre in uscita 24kHz. I flussi audio vengono trasmessi in pacchetti da 100ms.
Dimensioni e Configurazioni
- I dati mostrano chiaramente la differenza tra Live Agent e Live Translation.
- Nel Live Translation, il modello si comporta come un interprete in tempo reale.
- Nel Live Agent, la struttura è più avanzata, con strumenti di elaborazione.
- No tools: Il Live Translation non utilizza strumenti esterni e non è un modello generale.
- Inputs: Accetta solo audio e non testo.
- Configuration: La configurazione avviene tramite parametri specifici.
- Use Case: Ideale per interpretariato multilingue, lezioni o broadcast.
Casini di Utilizzo e Adozione
Google ha sottolineato l'applicabilità di Gemini 3.5 Live Translate in diversi contesti, tra cui meeting multilingue, insegnamento digitale, app di streaming e broadcasting. Piattaforme come Agora, Fishjam, LiveKit, Pipecat, e Vision Agents già utilizzano l’API Live senza necessità di grandi interventi.
Una funzionalità chiave è l’app dimostrativa di Google, che mostra come il modello possa essere utilizzato per doppiare audio o svolgere interpretariato simultaneo in varie lingue. Ad esempio, Grab sta testando il modello per migliorare la comunicazione tra conducenti e passeggeri durante il primo momento del pickup. I dati mostrano che Grab gestisce oltre 10 milioni di chiamate vocali al mese, il che rende il modello un asset importante.
Impatto su Google Meet e Translate
Sta per essere introdotta una funzionalità aggiornata in Google Meet, con un miglioramento drastico nel numero di lingue supportate dal 5 al 70+. Il numero di combinazioni multilingue passa da poche a oltre 2000.
La funzione di traduzione live in Google Meet entra in private preview per aziende con Workspace selezionate, mentre il rilascio completo è in programma per il resto dell'anno. Per gli utenti finali, l'app Google Translate supporta la funzione Live Translate con cuffie connessa e un nuovo "ascolto" in Android, dove si appoggia il telefono all’orecchio e si ascolta la traduzione in tempo reale.
Conclusione: Key Takeaways
Gemini 3.5 Live Translate
- Supporta oltre 70 lingue.
- Incorpora una funzionalità audio in streaming senza interruzioni.
- Processa l’audio continuamente, rimanendo leggermente indietro rispetto al parlante.
API Developers
- Supporta configurazione tramite
targetLanguageCodeeechoTargetLanguage. - Lettura e scrittura di audio in formati fissi.
- Demo disponibili online con casi di utilizzo reali.
Rollout e Supporto
- Disponibile via Live API, Google Meet e Google Translate.
- L'audio contiene un "watermark" SynthID non percepibile ma rilevabile.
- Accesso al Model Card e ai dettagli tecnici.
- Google offre anche risorse aggiuntive come canali RSS, Twitter, SubReddit e newsletter.