Alimenter les agents IA : la validation par CoreWeave de Nvidia Vera Rubin ouvre un nouveau chapitre pour l'informatique à l'échelle du rack

L’IA agentique pousse les principaux fournisseurs de technologies à repenser l’architecture informatique nécessaire au fonctionnement de systèmes autonomes en expansion rapide.

En réponse à ce défi, deux grandes entreprises technologiques ont récemment dévoilé une étape clé impliquant la validation au niveau système pour une architecture entière à l'échelle du rack. En juin, CoreWeave Inc. et Nvidia Corp. ont annoncé la première mise en place et validation de Nvidia Vera Rubin NVL72 sur CoreWeave Cloud.

L'annonce impliquait une approche fondamentalement différente de l'infrastructure, conçue pour fournir un environnement dans lequel les charges de travail raisonnent en permanence, évoluent de manière imprévisible et fonctionnent en production 24 heures sur 24. Il s'agit de tester les limites de la bande passante des données, comme le décrit Chen Goldberg (photo), vice-président exécutif des produits et de l'ingénierie chez CoreWeave.

John Furrier de TheCUBE et Chen Goldberg de CoreWeave ont parlé des dernières annonces lors de l'événement.

« Vera Rubin n'est pas une mise à niveau incrémentielle – 72 GPU Rubin, 36 processeurs Vera, 260 téraoctets par seconde de bande passante NVLink 6 dans un seul rack, ce qui représente plus de bande passante de données que celle utilisée par l'ensemble de l'Internet mondial », a déclaré Goldberg. « Le monde ne pose plus de questions sur l'IA à une IA qui fait des choses en continu à grande échelle sans s'arrêter pour fermer votre ordinateur portable, sans que les agents écrivent du code, n'exécutent des expériences et n'exécutent des boucles de raisonnement en plusieurs étapes. C'est exactement pour cela que Vera Rubin a été conçue. »

Goldberg a pris la parole lors de « Scaling the Agentic Era With Nvidia Vera Rubin NVL72 on CoreWeave Cloud », un événement virtuel organisé par theCUBE, le studio de diffusion en direct de SiliconANGLE Media. Les dirigeants de CoreWeave, Nvidia et Dell Technologies Inc. ont discuté avec theCUBE des exigences techniques et opérationnelles nécessaires pour prendre en charge les charges de travail d'inférence et d'IA agentique à l'échelle de la production, ainsi que de ce qu'il faudrait pour construire une infrastructure informatique accélérée pour cette prochaine phase de l'IA. (* Divulgation ci-dessous.)

Architecture informatique contrôlée par rack

L'annonce de CoreWeave et l'événement theCUBE ont souligné le rôle important de Vera Rubin NVL72 dans la prise en charge de l'inférence à grande échelle, des sessions de raisonnement persistantes et des charges de travail d'IA de production qui nécessitent plus que la densité brute du GPU. La capacité de Nvidia à fournir une architecture de puce avancée a permis à CoreWeave de proposer plusieurs solutions système, notamment le refroidissement liquide, le contrôle des racks, la mise en réseau et les opérations multi-tenant sécurisées.

Ces innovations incluent la solution de refroidissement liquide de CoreWeave – Valvey – qui surveille la détection du débit, de la température, de la pression et des fuites en temps réel.

« Il gère le système de refroidissement liquide d'une manière définie par logiciel », a déclaré Goldberg. « Nous pouvons contrôler une seule vanne en moins d'une seconde. Ainsi, si nous détectons une fuite, par exemple, nous agissons immédiatement. »

Peter Salanki de CoreWeave a parlé avec theCUBE des dernières tendances en matière d'architecture informatique lors de l'événement.

Peter Salanki de CoreWeave s'est entretenu avec theCUBE sur les tendances émergentes en matière d'architecture informatique.

La dernière version comprenait également Racky, un nouvel appareil de contrôle de rack unifié spécialement conçu pour regrouper les capteurs d'alimentation, de refroidissement et environnementaux dans une surface de gestion standardisée. Cela permet à chaque rack Vera Rubin d'être géré comme une ressource cloud plutôt que comme une version unique personnalisée, ce qui offre aux administrateurs système une vue d'ensemble, selon Peter Salanki, directeur de la technologie chez CoreWeave.

« Cela prend en compte la télémétrie des GPU eux-mêmes, la télémétrie des systèmes électriques, la télémétrie de différents capteurs de fuite et du système de gestion du bâtiment et nous permet de relier toutes ces choses ensemble », a déclaré Salanki au CUBE. « Tout est déployé localement dans le pod. Il interagira avec Valvey, il interagira avec d'autres systèmes en amont et en aval pour prendre des décisions. »

Tirer parti de Spectrum-X pour les GPU

Avec plusieurs CPU et GPU dans un seul rack, la communication devient particulièrement importante. L'annonce de CoreWeave inclut une mise en réseau multi-rails et multi-plans, avec prise en charge à la fois de Nvidia Quantum-X800 InfiniBand et de Nvidia Spectrum-X Ethernet avec RDMA sur Converged Ethernet RoCE.

« Le génie de ce système à l'échelle du rack est qu'il vous permet de faire évoluer la mémoire, de faire évoluer le calcul, de faire évoluer toutes les structures afin qu'elles puissent communiquer entre elles à pleine vitesse afin que le GPU numéro 1 puisse communiquer avec le GPU numéro 72 exactement à la même vitesse », a déclaré Dion Harris, chef de produit chez Nvidia. « C'est ce qui vous offre un moyen très cohérent et fiable d'adapter votre charge de travail sur l'ensemble du rack. Lorsque vous effectuez une mise à l'échelle… c'est là que vous commencez à tirer parti de notre réseau optique co-packagé Spectrum-X. Cela vous permet d'évoluer efficacement sur l'ensemble des racks afin que, à mesure que les charges de travail évoluent sur les NVL72, vous puissiez également les exécuter efficacement. »

Harshdeep Banwait (au centre) de CoreWeave et Dion Harris (à droite) de Nvidia ont parlé avec theCUBE de l'intégration de la technologie des processeurs dans les dernières offres.

CoreWeave exploite également les DPU ou unités de traitement de données Nvidia BlueField-4 pour permettre des opérations cloud d'IA sécurisées et multi-locataires. L’objectif est un accès plus rapide aux données et une latence plus faible. BlueField-4 permet aux locataires d'exécuter des charges de travail sur la plate-forme informatique complète Vera Rubin tout en préservant le contrôle et la sécurité.

« De notre point de vue, la chose la plus difficile à faire était de savoir, une fois tout cela réuni, à quoi cela ressemble-t-il dans la pratique ? a déclaré Harshdeep Banwait, directeur de produit chez CoreWeave. « Nous avons tout rassemblé, suivi le flux de validation pour nous assurer que les processeurs Vera fonctionnent avec les puces Rubin, avec les cartes réseau ConnectX, avec les DPU BlueField-4. Il s'agissait simplement de nous assurer que tous ces composants communiquent entre eux et agissent comme un système pour débloquer essentiellement ce niveau de performances. «

Intégration avec Dell PowerEdge

Pour mettre en œuvre une plate-forme à l'échelle rack telle que la Vera Rubin NVL72, CoreWeave s'est appuyé sur son écosystème de partenaires. Dell a fourni l'épine dorsale architecturale de la plate-forme via ses serveurs PowerEdge XE9812 hautes performances.

L'implication de Dell repose sur la conviction qu'à mesure que les modèles d'IA se développent à une échelle de plusieurs milliards de paramètres et que les fenêtres contextuelles englobent des millions de jetons, la densité de calcul va gagner en importance, selon Ihab Tarazi, vice-président senior et directeur de la technologie de Dell.

Ihab Tarazi de Dell et Jacob Yundt de CoreWeave ont discuté avec theCUBE des performances d'inférence et de la densité de calcul.

« La mesure de la densité va devenir très importante. Dans quelle mesure pouvez-vous tirer parti de la densité et des performances ? » » dit Tarazi. « Tout d'abord, tous les nouveaux modèles qui comptent vraiment pour les gens sont des modèles à mille milliards de paramètres. Ils ne conviennent donc plus pour la plupart. Si vous voulez des performances complètes et certains cas d'utilisation, ils ne tiendront pas sur un serveur GPU standard à 8 voies. Ils ont vraiment besoin de ces systèmes GPU NVL72. «

La validation par CoreWeave du Vera Rubin NVL72 souligne également la nécessité de performances d'inférence capables de prendre en charge l'IA agentique en production. Selon theCUBE Research, le cheminement vers un retour sur investissement significatif grâce à l’IA entre dans une nouvelle phase. Elle est passée de l’innovation de modèles à l’opérationnalisation de l’inférence à grande échelle dans les processus métier clés.

« Comme nous l'avons vu, le marché de l'inférence a connu une croissance exponentielle au cours des deux dernières années », a déclaré Corey Sanders, vice-président senior des produits chez CoreWeave. « C'est l'opportunité pour Vera Rubin de jouer désormais ce rôle vraiment intéressant, à la fois en soutenant cette accumulation massive de formation, tout en soutenant également une énorme opportunité d'inférence massive à un coût et des performances qui, je pense, auraient été impossibles auparavant. De toutes nouvelles charges de travail prennent vie dans le cadre de cela. »

Ces nouvelles charges de travail sont motivées par l'adoption croissante de l'IA agentique, et CoreWeave a pris une série de mesures au cours de l'année écoulée pour créer une infrastructure cloud qui la prend en charge. Cela inclut l’acquisition de la société de développement de modèles d’IA Weights & Biases Inc. en 2025.

Corey Sanders et Shawn Lewis de CoreWeave ont parlé avec theCUBE de nouveaux outils pour piloter l'IA agentique.

Un certain nombre de nouveaux outils d’IA agentique Weights & Biases ont depuis été ajoutés à la plateforme CoreWeave.

« Pour la première fois, il existe un agent au sein de Weights & Biases qui aide les utilisateurs d'IA à former des modèles d'IA et à créer des applications d'IA », a déclaré Shawn Lewis, fondateur et directeur technologique de Weights & Biases chez CoreWeave. « Il existe également une fonctionnalité dans Weights & Biases appelée W&B Launch qui connecte la boîte à outils Weights & Biases, que vous pouvez considérer comme une interface utilisateur dans laquelle les utilisateurs passent du temps à analyser les données, à l'infrastructure. Elle permet donc aux utilisateurs de W&B de lancer et d'exécuter des tâches sur l'infrastructure CoreWeave à partir de l'interface utilisateur. Désormais, un agent peut, au lieu d'un humain… lancer des expériences sur l'infrastructure. «

Redéfinir l'informatique à l'échelle du rack

Le partenariat entre CoreWeave, Nvidia et Dell illustre une étape importante dans l'évolution de la conception logicielle et matérielle. Comme l'a noté Jacob Yundt, directeur principal de l'architecture informatique de CoreWeave, dans son entretien avec theCUBE, l'approche de l'entreprise pour construire sa plate-forme est façonnée par l'échelle et les changements dans la façon dont l'ordinateur lui-même est défini.

Un exemple de la Nvidia Rubin Superchip était exposé lors de l'événement.

Un exemple de la superpuce Nvidia Vera Rubin était exposé lors de l'événement.

« Les produits NVL72 ont vraiment changé le paysage », a expliqué Yundt. « Ils changent votre approche de l'ingénierie. Le rack est doté de cette interconnexion à haut débit, de cette connexion à bande passante ultra-élevée et à latence ultra-faible. Tous les processeurs, tous les GPU, ils sont tous regroupés dans un seul boîtier au niveau du rack. Vous ne considérez plus les choses comme un simple serveur individuel. Je dois maintenant les considérer comme des racks, puis cela a un effet en cascade, j'ai tous ces racks qui fonctionnent ensemble. Maintenant, le rack est l'ordinateur. «

En redéfinissant le rack, CoreWeave valide également la manière dont l'innovation au niveau des couches matérielles et logicielles ouvre de nouveaux niveaux de performances, d'efficacité et d'évolutivité pour les applications basées sur l'IA. Cela alimentera l’IA agentique et les systèmes nécessaires à sa mise en œuvre dans toute l’entreprise.

« L'IA n'est plus une question de modèles isolés », a déclaré John Furrier de theCUBE. « Il s'agit de systèmes, de systèmes qui rassemblent le calcul, la mise en réseau, le stockage, les logiciels, les données, la sécurité et les opérations dans une plate-forme unifiée capable de fournir des résultats concrets. Les discussions d'aujourd'hui mettent en lumière une industrie qui va au-delà de la preuve de concept et passe à l'exécution. Les gagnants de cette prochaine phase n'auront pas simplement accès à l'IA, ce seront les organisations qui pourront la mettre en œuvre, la faire évoluer, la gouverner et innover continuellement autour d'elle. »

(* Divulgation : TheCUBE est un partenaire média payant pour l'événement « Scaling the Agentic Era ». Ni CoreWeave, le sponsor de la couverture de theCUBE, ni les autres sponsors n'ont de contrôle éditorial sur le contenu de theCUBE ou SiliconANGLE.)

Alimenter les agents IA : la validation par CoreWeave de Nvidia Vera Rubin ouvre un nouveau chapitre pour l'informatique à l'échelle du rack

Architecture informatique contrôlée par rack

Tirer parti de Spectrum-X pour les GPU

Intégration avec Dell PowerEdge

Redéfinir l'informatique à l'échelle du rack

Photo : SiliconANGLE