Microsoft lance de nouveaux modèles de voix et d'images à haut débit

Microsoft Corp. aujourd'hui introduit un trio de modèles d’intelligence artificielle optimisés pour traiter les images et l’audio.

Les algorithmes sont disponibles via Microsoft Foundry, un service Azure que les développeurs peuvent utiliser pour créer des applications d'IA. Le géant de la technologie a également commencé à déployer ces modèles sur un certain nombre d’autres produits.

Le premier nouvel algorithme, MAI-Image-2, peut générer des images avec une résolution allant jusqu'à 1 024 x 1 024 pixels en fonction des instructions de l'utilisateur. Chaque invite peut contenir jusqu'à 32 000 jetons de texte. Sous le capot, MAI-Image-2 transforme les instructions en images en utilisant 10 à 50 milliards de paramètres non intégrés. Les paramètres non intégrés sont des composants de modèle qui se concentrent sur la génération de contenu plutôt que sur les tâches préliminaires de préparation des données.

Microsoft affirme que MAI-Image-2 est au moins deux fois plus rapide que son générateur d'images de génération précédente. Le deuxième nouveau modèle lancé aujourd'hui, MAI-Transcribe-1, apporte également des améliorations significatives en termes de vitesse. Il peut transcrire la parole 2,5 fois plus rapidement que les modèles précédents de Microsoft.

L'autre argument de vente de MAI-Transcribe-1 est sa précision. Microsoft a testé le taux d'erreur de mots moyens du modèle, une mesure de la qualité de la transcription, dans 25 langues. MAI-Transcribe-1 a enregistré un taux d'erreur de 3,9 %, ce qui le place devant Gemini 3.1 Flash et GPT-Transcribe d'OpenAI Group PBC. L'un des facteurs qui contribuent à la précision du modèle est qu'il inclut des fonctionnalités de filtrage du bruit ambiant.

Au lancement, MAI-Transcribe-1 prend en charge la transcription par lots. Cela signifie que le modèle ne peut traiter que des fichiers pré-préparés tels que des livres audio. Selon Microsoft, une future mise à jour ajoutera la possibilité de retranscrire les flux audio en temps réel. La société travaille également sur une fonction dite de diarisation qui peut diviser le texte d'une transcription en segments spécifiques au locuteur.

Le troisième modèle présenté aujourd'hui par Microsoft s'appelle MAI-Voice-1. Comme son nom l'indique, il est optimisé pour générer de la parole synthétique basée sur des scripts fournis par l'utilisateur. Les clients peuvent choisir parmi l’une des voix IA intégrées ou utiliser leur propre voix.

Microsoft affirme que les trois modèles offrent des prix compétitifs par rapport à leurs concurrents. MAI-Image-2 est au prix de 5 $ pour 1 million de jetons d'entrée et de 33 $ pour 1 million de jetons de sortie. MAI-Transcribe-1 coûte 0,36 $ par heure de parole transcrite, tandis que MAI-Voice-1 commence à 22 $ pour 1 million de caractères.

Les modèles sont disponibles non seulement via Microsoft Foundry, mais également via plusieurs autres services. Microsoft est actuellement en train de déployer MAI-Image-2 sur Bing et PowerPoint, tandis que MAI-Voice-1 est accessible dans un outil de création audio appelé Copilot Audio Expressions.

Le géant de la technologie a développé une gamme de puces d'IA personnalisées appelée MAIA pour alimenter ses charges de travail d'IA. Le dernier-né de la famille des séries, le Maia 200 optimisé pour l'inférence, a fait ses débuts fin janvier. Microsoft affirme que la puce de trois nanomètres surpasse les puces d'IA personnalisées des fournisseurs de cloud concurrents sur plusieurs points de référence.

Microsoft lance de nouveaux modèles de voix et d'images à haut débit

Photo : Microsoft