Gemini 3.5 Live Translate de Google permet une traduction réaliste à la vitesse des conversations naturelles

Le dernier outil d'intelligence artificielle de Google LLC promet d'apporter une traduction en temps réel à chaque utilisateur de smartphone, permettant des conversations plus naturelles et plus fluides entre des locuteurs de langues différentes.

C'est ce que révèle aujourd'hui un nouveau billet de blog annonçant l'arrivée de Gemini 3.5 Live Translate, qui explique qu'il s'agit du modèle audio le plus avancé de la société pour la traduction parole-parole publié à ce jour. Alors que les outils de traduction traditionnels ont toujours été encombrants en raison de la manière dont la parole est traitée puis traduite tour à tour, Gemini 3.5 Live Translate est beaucoup plus rapide. Selon Google, il peut écouter en permanence pendant que quelqu'un parle, traduire ce qu'il dit et ensuite parler à l'autre personne dans sa propre langue.

Cela signifie que les personnes non multilingues pourront engager des conversations presque naturelles, avec seulement quelques secondes de retard – comme, peut-être, les appels téléphoniques longue distance à l'époque des téléphones à cadran.

Anuda Weerasinghe, chef de produit Google, et Tony Lu, ingénieur logiciel principal, ont déclaré dans le billet de blog co-écrit que Gemini 3.5 Live Translate peut détecter automatiquement la langue qu'une personne parle, il n'est donc pas nécessaire de configurer quoi que ce soit au préalable. Au lancement, il prend en charge plus de 70 langues, ce qui signifie qu’il peut prendre en charge des « milliers » de combinaisons de langues différentes.

La société le met à la disposition des développeurs et des entreprises, de sorte que cette fonctionnalité sera probablement intégrée à des plates-formes de communication tierces dans un avenir proche. Bien entendu, il est également déployé auprès de tous directement dans l'application Google Translate.

Ce n'est pas la première tentative de traduction en temps réel de Google, mais les efforts antérieurs ont toujours nécessité du matériel spécifique tel que les smartphones et les écouteurs de l'entreprise. Gemini 3.5 Live Translate est différent en ce sens qu'il peut fonctionner sur n'importe quel smartphone. Il repose également sur une nouvelle architecture qui modifie le fonctionnement du processus de traduction.

Il s'appuie sur une « traduction en flux continu », ce qui signifie qu'il n'est pas nécessaire d'attendre qu'une personne ait fini de parler avant de commencer à générer une réponse. Il en résulte des conversations traduites beaucoup plus fluides, comme le montre la vidéo ci-dessous :



Weerasinghe et Lu ont déclaré que Gemini 3.5 Live Translate est conçu pour les réalités du monde réel, ce qui signifie qu'il peut bien fonctionner dans des environnements bruyants et gérer les voix qui se chevauchent et les discours informels. Cela signifie qu'il est adapté à des cas d'utilisation plus pratiques, notamment les appels d'assistance client, les salles de classe, les visites guidées, les services de covoiturage, les diffusions en direct, etc., ont-ils déclaré.

Ils ont également souligné la qualité des voix du mannequin. Plutôt que les voix robotiques et synthétiques trouvées sur l'application Google Translate standard, elle tente de préserver l'authenticité de l'orateur en faisant correspondre son rythme, son intonation et son ton émotionnel. Ainsi, le discours traduit semble beaucoup plus naturel, améliorant ainsi le flux de la conversation.

Google est depuis longtemps à l'avant-garde de la traduction automatique, ayant lancé l'application originale Google Translate il y a plus de 20 ans, a déclaré Holger Mueller de Constellation Research. « La sortie de Gemini 3.5 Live Translate montre qu'il n'a pas encore abandonné cette avance, tant en termes de qualité de traduction que de langues prises en charge », a-t-il déclaré. « Maintenant, il repousse encore les limites avec la traduction simultanée dans une application grand public pour la première fois, et sa qualité pourrait même être meilleure que celle de certains traducteurs humains. Ce sera certainement beaucoup moins cher. »

L'objectif à long terme de Google avec Gemini 3.5 Live Translate est de changer le monde en permettant aux gens de converser naturellement avec n'importe qui dans le monde, quelle que soit la langue qu'ils parlent. À première vue, il a beaucoup de potentiel pour faciliter la vie des voyageurs et de tous ceux qui tentent de faire des affaires avec des entités étrangères.

Newsletter

Rejoignez notre newsletter pour des astuces chaque semaine