Nvidia présente Nemotron 3 Nano Omni avec vision et parole pour une utilisation puissante de l'IA agentique

Nvidia Corp. a lancé aujourd'hui un puissant modèle d'intelligence artificielle de raisonnement qui unifie le texte, la vision et la parole, capable d'agir comme le « cerveau » d'applications d'IA agentique plus rapides et plus intelligentes.

Baptisé Nemotron 3 Nano Omni et pesant environ 30 milliards de paramètres, le nouveau modèle de pointe utilise une architecture mixte d'experts pour offrir une latence extrêmement faible et offrir une flexibilité et un contrôle élevés.

Nvidia a combiné les encodeurs vidéo et audio avec son architecture MoE hybride 30B-AD3B pour éliminer le besoin de modules de perception séparés, permettant ainsi à son modèle d'IA de tout unifier en un seul. La société a déclaré que cela permettait au modèle d'améliorer l'efficacité à grande échelle et de fournir un débit jusqu'à neuf fois plus rapide que les autres modèles omni ouverts sur le marché.

« Pour créer des agents utiles, vous ne pouvez pas attendre quelques secondes qu'un modèle interprète un écran », a déclaré Gautier Cloix, directeur général de H Company. « En s'appuyant sur Nemotron 3 Nano Omni, nos agents peuvent interpréter rapidement les enregistrements sur écran Full HD, ce qui n'était pas pratique auparavant. »

Le résultat est un coût inférieur et une évolutivité plus élevée. Grâce à sa taille réduite, il peut également être suffisamment compressé pour fonctionner sur du matériel grand public haut de gamme et s'exécuter efficacement sur les déploiements cloud d'entreprise.

La société a déclaré qu'elle est conçue pour fonctionner aux côtés d'autres modèles cloud propriétaires ou d'autres modèles ouverts Nvidia Nemotron, tels que Nemotron 3 Super pour une exécution haute fréquence ou Super pour une planification complexe.

Le nouveau modèle permet une compréhension rapide des documents, des écrans d'ordinateur, de l'activité vocale, des vidéos et bien plus encore. Cela en fait l’interface idéale pour travailler avec des personnes et accéder à des états de machine plus complexes. Il peut prendre les réponses conversationnelles d'un utilisateur et les transformer rapidement en raisonnement.

Nvidia a déclaré que la famille Nemotron – comprenant Ultra, Super et Nano – a enregistré plus de 50 millions de téléchargements au cours de l'année écoulée. La variante Omni étend les capacités de la famille aux domaines multimodal et agentique.

Le nouveau modèle est désormais disponible sur Hugging Face, OpenRouter et build.nvidia.com comme un Microservice Nvidia NIM. En tant que modèle ouvert et léger, il est également conçu pour permettre aux développeurs de s'appuyer sur du matériel local et de le déployer, y compris le Nvidia DGX Spark et autre matériel.