Nvidia accélère la production de Vera Rubin, la base de la prochaine génération d'usines d'IA

Nvidia Corp. a annoncé lundi, lors de la conférence Computex à Taipei, qu'elle préparait la production de sa prochaine plate-forme Vera Rubin, qui devrait devenir la base d'une nouvelle génération d'usines d'intelligence artificielle qui dominera l'histoire des infrastructures d'entreprise pour les années à venir.

La société a dévoilé Vera Rubin pour la première fois en mars lors de sa conférence annuelle des développeurs GTC, et l'annonce d'aujourd'hui selon laquelle les systèmes entrent en production en volume signifie que cela se rapproche.

Vera Rubin doit son nom à l'astronome pionnier qui a découvert pour la première fois des preuves de la matière noire, et c'est bien plus qu'un simple rafraîchissement des unités de traitement graphique de la génération précédente de Nvidia. La société a déclaré qu'il s'agissait d'une refonte complète de l'architecture visant à alimenter la transition de l'entreprise vers « l'IA agentique » – un monde dans lequel des agents d'IA autonomes peuvent raisonner, utiliser des outils logiciels tiers et exécuter des charges de travail complexes au nom des humains.

La plate-forme Vera Rubin est ancrée par la nouvelle unité de traitement graphique Rubin de Nvidia, qui succède au GPU Grace Blackwell, mais ce n'est pas tout. La plate-forme comprend également les nouvelles unités centrales de traitement Vera de Nvidia, le commutateur NVLink 6, le ConnectX-9 SuperNIC, l'unité de traitement de données BlueField-4 et le commutateur Ethernet Spectrum-6, ainsi que la nouvelle unité de traitement de langage Nvidia Groq 3 conçue pour prendre en charge les exigences déterministes et de faible latence de l'inférence de modèle à mille milliards de paramètres. Il combine ces composants dans un système entièrement intégré qui offre un débit « d’IA agentique » à grande échelle 10 fois supérieur à celui de la plateforme Grace Blackwell de génération précédente.

Le fondateur et directeur général de Nvidia, Jensen Huang, a expliqué lors d'un discours au Computex que l'IA agentique est un tout nouveau type de charge de travail et qu'elle nécessite donc une nouvelle base. « Une seule invite peut lancer un voyage en mille étapes de raisonnement, de récupération, d'utilisation d'outils et de génération de réponses », a-t-il déclaré. « Vera Rubin a été conçue pour ce moment : un moteur d'usine d'IA qui fournit de l'intelligence à grande échelle, avec les performances, l'efficacité et la sécurité nécessaires pour alimenter la prochaine révolution industrielle. »

La production s'accélère

Vera Rubin est la troisième génération de systèmes rackables MGX de Nvidia, et elle devrait être produite en masse à une échelle sans précédent, avec plus de 350 partenaires de la chaîne d'approvisionnement répartis dans 30 pays, tous impliqués dans le processus. Certains de ses principaux partenaires incluent Dell Technologies Inc., Hewlett Packard Enterprise Co., SuperMicro Computer Inc. et Lenovo Group Ltd., qui fabriquent tous des serveurs Vera Rubin qui seront expédiés aux clients cloud et entreprises de Nvidia plus tard cette année.

Le nouveau système de balance à rack Vera Rubin NVL72 se trouve au cœur de la plateforme Vera Rubin. Il s'agit d'un système rackable refroidi par liquide, composé de 72 GPU Rubin et de 36 processeurs Vera connectés via ses interconnexions NVLink 6 haute vitesse pour atteindre une « efficacité révolutionnaire ».

Par exemple, Nvidia a déclaré que la plate-forme Vera Rubin NVL72 peut être utilisée pour former de grands modèles mixtes d'experts en utilisant seulement un quart du nombre de GPU par rapport à ce qui serait requis avec ses puces Blackwell de génération précédente. En termes d'inférence, la société a déclaré que Vera Rubin offrirait un débit 10 fois supérieur pour seulement un dixième du coût par jeton.

Pour prendre en charge le type de déploiements massifs d'usines d'IA qu'il envisage, Nvidia présente les premiers commutateurs réseau au monde basés sur l'optique co-packagés sous la forme de Nvidia Spectrum-X Ethernet Photonics. Il s'agit d'une nouvelle génération de technologie de commutation censée offrir une efficacité énergétique cinq fois supérieure, une disponibilité de l'IA cinq fois plus longue et des vitesses de déploiement 1,3 fois plus rapides que les réseaux traditionnels basés sur des émetteurs-récepteurs.

Il intègre également les nouvelles unités de traitement de données BlueField 4 de Nvidia, qui offrent des vitesses de mise en réseau définies par logiciel allant jusqu'à 800 gigaoctets par seconde et une isolation multi-tenant intégrée pour simplifier les opérations réseau et améliorer l'efficacité des GPU Vera Rubin sous-jacents. Le rack de stockage BlueField-4 STX est censé agir comme un niveau de « mémoire contextuelle » dédié, que les agents d’IA peuvent utiliser pour maintenir la cohérence lors d’interactions massives à plusieurs tours, a déclaré Nvidia. En transférant les données du cache vers les puces BlueField-4, les entreprises peuvent multiplier par cinq leur débit d'inférence.

Sécuriser les usines d’IA à l’échelle du rack

BlueField-4 STX joue également un rôle essentiel en aidant à sécuriser les usines d'IA de Nvidia, qui sont de plus en plus chargées de traiter des données sensibles et hautement réglementées qui ne peuvent pas être exposées à des systèmes d'IA tiers. De telles charges de travail nécessitent des mesures de sécurité renforcées, c'est pourquoi Vera Rubin a été conçue pour une informatique confidentielle full-stack à l'échelle du rack, avec des données cryptées lors de leur déplacement entre les GPU et les CPU via des interconnexions à haut débit.

La sécurité fondamentale est assurée par une nouvelle couche logicielle programmable conçue pour appliquer, orchestrer et adapter les politiques de sécurité sur l'ensemble du système. Ceci est alimenté par les nouvelles innovations de sécurité Nvidia DOCA dans BlueField-4 STX, qui applique les politiques de sécurité au niveau de la couche de silicium. DOCA permettrait l'isolation du réseau mutualisé, l'application de politiques de confiance zéro, la détection des menaces d'exécution et le cryptage à des vitesses allant jusqu'à 800 Go par seconde.

« L'IA agentique transforme les données d'entreprise en un système vivant en temps réel – et ce système doit être protégé là où les données se déplacent, là où le contexte est stocké et là où les agents agissent », a déclaré Huang. « Avec Vera BlueField-4 STX, Nvidia et son écosystème construisent une infrastructure de stockage sécurisée dès la conception qui renforce la confiance dans le silicium à la vitesse de l'IA. »

Le bourreau de travail agent

Un autre élément clé de la plate-forme Vera Rubin est le processeur Vera, qui est une nouvelle classe de processeur spécialement conçue pour exécuter des charges de travail agentiques à grande échelle avec une vitesse et une efficacité énergétique supérieures par rapport aux puces x86 standard.

Le processeur Vera est le successeur du processeur Grace de Nvidia, et les premiers tests de référence suggèrent qu'il peut offrir des performances exceptionnelles sur les charges de travail agents clés, notamment la compilation de code et le traitement de bases de données. Ces types de charges de travail constitueront le pain quotidien de la plupart des usines d’IA, ouvrant la voie à un débit beaucoup plus élevé et à des agents d’IA individuels plus productifs.

« Les agents IA seront les plus grands utilisateurs de l’informatique », a expliqué Huang. « Vera est le premier processeur conçu pour cet avenir : conçu pour exécuter une IA agentique à grande échelle avec des performances, une efficacité et une programmabilité extraordinaires. »

Le processeur Vera contribuera également à accélérer le passage de l’économie des usines d’IA des cœurs par dollar aux jetons par dollar, estime Nvidia. Il est basé sur un nouveau cœur de processeur personnalisé appelé Olympus, conçu pour des tâches telles que les environnements d'exécution Python et l'exécution de code en bac à sable vers la logique d'orchestration et les pipelines d'analyse.

Olympus permet à Vera de traiter davantage d'instructions, d'anticiper le comportement des applications et de déplacer les données entre un grand nombre d'environnements simultanés en temps réel, a déclaré Nvidia. Chaque processeur est doté de 88 cœurs Olympus, d'un multithreading spatial et d'un sous-système de mémoire LPDDR5X qui prend en charge une bande passante de 1,2 téraoctets par seconde, garantissant que les agents passent beaucoup moins de temps à attendre les étapes liées au processeur, améliorant ainsi l'efficacité globale des usines d'IA.

De plus, les processeurs Vera sont étroitement intégrés au processeur BlueField-4 STX pour bénéficier de ses capacités de sécurité embarquées sur silicium.

Un dernier composant de la plate-forme Vera Rubin est Nvidia DSX, qui est un plan architectural qui fournit la conception complète et la base opérationnelle des usines d'IA modernes. Il unifie les conceptions de référence, les simulations, les logiciels d'infrastructure et les technologies d'écosystème pour aider les fabricants de serveurs à développer des systèmes d'IA économes en énergie, optimisés à la fois pour les performances et pour réduire les coûts des jetons.

En adoptant DSX, les partenaires de Nvidia, notamment Dell, HPE, Lenovo, Supermicro et d'autres, accélèrent tous la production de leurs premiers systèmes Vera Rubin, et Nvidia s'attend à ce que les premiers systèmes complets soient livrés aux clients à l'automne.