Google publie Flash TTS 3.1, Robotics-ER 1.6 et Gemini natif pour macOS

Google Corporation a lancé Gemini 3.1 Flash TTS, une version améliorée de son système de synthèse vocale basé sur la génération Gemini 3. Elle offre une meilleure qualité sonore, une plus grande expressivité et un contrôle plus précis, et prend en charge plus de 70 langues.

Le réseau d'IA permet aux développeurs, aux entreprises et aux utilisateurs ordinaires de créer des applications dotées d'une interface vocale d'IA.

Gemini 3.1 Flash TTS est désormais disponible :

pour les développeurs — en mode d'accès anticipé via l'API Gemini et Google AI Studio ;
pour les entreprises — chez Vertex AI ;
pour les utilisateurs de Workspace – via le service Google Vids.

Amélioration de la qualité et du contrôle de la parole

Le modèle a obtenu un score de 1211 points au test de synthèse vocale par analyse artificielle. Cet indicateur a été établi à partir des préférences de milliers de participants ayant pris part à un test audio à l'aveugle.

Source : Google.

Artificial Analysis a classé ce modèle parmi les solutions les plus intéressantes grâce à sa combinaison d'une synthèse vocale de haute qualité et d'un faible coût.

Le LLM se distingue par sa capacité à générer des dialogues naturels impliquant plusieurs locuteurs.

Nouvelles balises audio

La version 3.1 de Flash TTS a introduit les balises audio, un outil permettant de contrôler le style, le rythme et la manière de parler.

« Les premiers développeurs et testeurs en entreprise constatent déjà les résultats de Flash TTS 3.1, soulignant son impressionnante maîtrise et son expressivité. Ils nous ont expliqué comment les balises audio offrent un nouveau niveau de précision créative, transformant un simple texte en une performance vocale de haute qualité », indique le blog de l'entreprise.

Modèle d'IA pour la robotique

Parallèlement à Gemini 3.1 Flash TTS, la société a également présenté Gemini Robotics-ER 1.6. Ce modèle d'IA est conçu pour permettre aux robots d'effectuer des tâches complexes dans des environnements réels grâce à des fonctions cognitives améliorées et à une pensée incarnée.

Ce réseau est spécialisé dans la perception spatiale, la planification des actions et l'évaluation de leur réussite. Il présente des améliorations significatives par rapport à son prédécesseur et à Gemini 3.0 Flash lors de l'exécution de tâches liées à la pensée spatiale et physique.

Le robot Gemini Robotics-ER 1.6 peut interpréter les données provenant d'instruments de mesure complexes et lire les relevés grâce à des fenêtres d'affichage. Cette fonctionnalité a été développée par Google DeepMind en collaboration avec Boston Dynamics pour répondre aux besoins du secteur industriel.

« De telles capacités nous permettent de voir, de comprendre et de répondre de manière autonome aux défis du monde réel », a commenté Marco da Silva, vice-président du projet Spot chez Boston Dynamics.

Lors des tests de détection des menaces de sécurité, le nouveau produit a surpassé Gemini 3.0 Flash de 6 % dans les scripts de texte et de 10 % dans l'analyse vidéo.

L'intégration de LLM dans les flux de travail du monde réel a déjà commencé : Boston Dynamics a intégré Gemini et Gemini Robotics-ER 1.6 dans sa propre plateforme d'apprentissage Orbit AIVI.

Gemini sur macOS

Par ailleurs, Google a lancé une application Gemini native pour macOS. Elle est accessible en appuyant sur Option + Espace. Parmi ses fonctionnalités, on trouve la possibilité de partager une fenêtre pour un partage de contexte instantané.

L'application prend en charge la génération d'images avec Nano Banana, la création de vidéos avec Veo et d'autres outils familiers.

Pour rappel, en avril, Google a présenté Gemma 4, une nouvelle famille de modèles d'IA ouverts pour le raisonnement avancé et les flux de travail basés sur des agents.

Amélioration de la qualité et du contrôle de la parole

Nouvelles balises audio

Modèle d'IA pour la robotique

Gemini sur macOS

Laisser un commentaireAnnuler la réponse