Venti anni dopo l’uscita di Google Traduzione, Google ha annunciato una nuova funzione straordinaria: la traduzione in tempo reale capace di riprodurre la voce dell’utente in 70 diverse lingue. Fino a oggi, i sistemi di traduzione vocale richiedevano di attendere la fine di una frase prima di iniziare con la traduzione. Ora, con Gemini 3.5 Live Translate, il processo è completamente diverso: il modello inizia a tradurre durante lo svolgimento della frase, con un ritardo di pochi secondi. La voce generata in uscita non è una voce robotica generica, bensì una versione precisa del tono e del ritmo vocale dell’utente.
La tecnologia riesce inoltre ad identificare automaticamente una tra le 70 lingue supportate. Ciò rende il nuovo modello molto più naturale e immediato, soprattutto nel contesto di interazioni comunicative in tempo reale.
Un modo telefonico all’orecchio già su Android
Su Google Traduzione, sia per iOS che per Android, questa funzione è già disponibile tramite il modulo "Conversazione". Google consiglia l’uso di cuffie per un’esperienza ottimale, ma su Android il sistema introduce un innovativo "Modalità Ascolto" che permette di bypassare l’utilizzo di accessori aggiuntivi.
- Il telefono va semplicemente posto vicino all’orecchio, come si fa durante una chiamata tradizionale.
- La risposta tradotta viene ascoltata attraverso l’auricolare interno del dispositivo.
- Google afferma che il sistema funziona bene anche in ambienti rumorosi.
- Purtroppo, la modalità telefonica all’orecchio non è ancora attiva sugli iPhone.
Gli utenti hanno già potuto sperimentare l’uso di questa nuova tecnologia in contesti pratici: l’azienda asiatica Grab l’ha adottata per migliorare la comunicazione tra conducenti e passeggeri, con un milione di chiamate mensili gestite attraverso il nuovo strumento di Google.
Da Cinque a Oltre Settanta Lingue su Google Meet
Gemini 3.5 Live Translate è ora operativo in Google Meet in preversione per gli utenti Google Workspace. Questa funzione apre le porte a un’esperienza molto più ricca in termini di accesso linguistico: dal limitato supporto a 5 lingue, si passa a oggi a un’offerta di traduzioni in più di 70 lingue. Durante una singola videoconferenza, sono disponibili fino a 2.000 combinazioni di traduzione.
Il rilascio completo di questa funzione è atteso nel corso dell’anno. Per i ricercatori e gli sviluppatori, invece, l’accesso ad oggi è già disponibile attraverso l’API Gemini Live nonché il Google AI Studio.
Un’etichetta sonora invisibile per evitare truffe
Nonostante le potenzialità della tecnologia sia straordinarie, il rischio di abusi non è trascurabile. Per prevenire usi malintenzionati, Google ha implementato un sistema di sicurezza: gli audio generati da Gemini vengono contrassegnati con un’etichettatura invisibile chiamata SynthID. Questo filigrana, non udibile all’orecchio umano, è comunque rilevabile da strumenti di analisi avanzata e permette di distinguere una voce sintetizzata da una reale.
Apple ha anch’essa sviluppato un sistema di traduzione vivavoce con la sua Apple Intelligence. Tuttavia, richiede l’utilizzo di cuffie di alta gamma e di un recente modello iPhone, con supporto limitato a solo una decina di lingue.