Alors que les entreprises passent de l’expérimentation de l’IA au déploiement en production, l’infrastructure de stockage de l’IA apparaît comme le goulot d’étranglement critique déterminant si les investissements massifs dans les puces génèrent de réels retours.
Le principal défi pour l’exécution de charges de travail d’IA à grande échelle est passé de la création de modèles à l’alimentation complète des accélérateurs qui les exécutent. Les taux d'utilisation des GPU et des unités de traitement tensoriel – et non la capacité de calcul brute – déterminent désormais si les investissements en IA génèrent de réels retours, selon Alex Bouzari (photo, à droite), co-fondateur et PDG de DataDirect Networks Inc.
« La demande monte en flèche. Je pense que ce qui se passe, c'est que le monde passe enfin de l'expérimentation de l'IA, en essayant de comprendre quoi faire, comment le faire, comment générer de la valeur, à l'échelle de production », a déclaré Bouzari. « Je pense que l'IA agentique fait une énorme différence. Nous avons maintenant des clients qui utilisent en interne des milliards de jetons par mois. Les aspects économiques doivent être étudiés. Et vous avez donc besoin d'un moteur de données qui fournit un certain nombre de jetons par heure où le retour sur investissement est calculé. »
Bouzari et Asad Khan (à gauche), directeur principal de Google Storage chez Google LLC, se sont entretenus avec Alison Kosik et John Furrier chez Google Cloud Next, lors d'une diffusion exclusive sur theCUBE, le studio de diffusion en direct de SiliconANGLE Media. Ils ont expliqué comment le partenariat DDN et Google Cloud augmente l'utilisation du TPU et du GPU, réduit les coûts de l'infrastructure de stockage de l'IA et alimente les charges de travail de production dans tous les secteurs. (* Divulgation ci-dessous.)
L'infrastructure de stockage IA stimule la saturation des GPU et le retour sur investissement de l'entreprise
Les arguments en faveur de l’infrastructure de stockage de l’IA en tant que préoccupation de premier ordre sont étayés par des chiffres concrets. L'empreinte des données de Google Cloud a été multipliée par 4 en seulement trois ans, à mesure que de plus en plus d'entreprises apportent davantage de données dans le cloud pour alimenter les charges de travail de formation et d'inférence, a noté Khan. Les entreprises qui ont du mal à justifier leurs dépenses en IA laissent souvent leurs infrastructures les plus coûteuses sous-utilisées, a-t-il ajouté.
« Dans quelle mesure vos GPU et TPU sont-ils saturés : ils sont très chers, difficiles à trouver, et cela génère une grande partie du coût total de possession », a déclaré Khan. « Nous travaillions avec (Harmonic Inc.) et ils disaient : « Nous n'obtenons pas de retour sur investissement », puis ils ont commencé à utiliser Managed Lustre et la saturation était 6 fois plus élevée, ce qui est fou. »
Cette offre Google Cloud Managed Lustre co-conçue, construite sur la plate-forme EXAScaler de DDN, est au cœur des gains de performances. Les nouvelles fonctionnalités annoncées lors de Google Cloud Next 2026 poussent le débit à 10 téraoctets par seconde, ce qui représente une multiplication par 10 par rapport aux niveaux précédents, et les deux sociétés ont atteint ensemble une utilisation de 95 % ou plus du TPU pour leurs clients communs, selon Bouzari. Le partenariat s'est également étendu à l'optimisation du cache KV pour les charges de travail d'inférence. En déchargeant le cache clé-valeur vers Google Cloud Managed Lustre, le temps moyen d'obtention du premier jeton diminue de plus de 40 % par rapport à la mémoire hôte seule, a expliqué Khan.
« Il s'agit de co-conception. Il s'agit de garantir que nous utilisons le bon réseau, que nous utilisons les bonnes machines virtuelles », a déclaré Khan. « Si vous regardez l'annonce, l'une des annonces était que nous livrions désormais 10 téraoctets par seconde, soit 80 térabits par seconde de débit. Cela représente quatre à 20 fois l'offre de n'importe quel hyper cloud (fournisseur), car nous n'avons pas seulement choisi un logiciel open source – nous nous sommes associés à DDN qui a été la principale entreprise (derrière) ce projet. «
L’étendue de la clientèle reflète à quel point la demande est devenue non déterministe. Salesforce Inc. exécute des charges de travail d'entreprise à grande échelle sur Managed Lustre, tandis que Sony Honda Mobility l'utilise comme plate-forme multimodale pour former le système de conduite autonome AFEELA Intelligent Drive. Les établissements universitaires l'adoptent également pour donner aux chercheurs et aux doctorants un accès direct à l'infrastructure, créant ainsi la prochaine génération de praticiens de l'IA en entreprise, a ajouté Khan. Le fil conducteur de tout cela est l’IA agentique – et l’urgence pour les entreprises de s’y joindre.
« L'agentic ne va pas disparaître. Si vous n'utilisez pas l'IA agentique, vous ne serez pas différenciés, vous ne pourrez pas rivaliser », a déclaré Bouzari. « Vous devez l'adopter, mais vous devez l'adopter de manière réfléchie, avec les bonnes technologies et les bons partenaires. Ce partenariat, DDN et Google, offre cela aux entreprises, ce qui réduit les coûts et augmente la valeur. »
Voici l'interview vidéo complète, qui fait partie de la couverture de Google Cloud Next par SiliconANGLE et theCUBE :
(* Divulgation : DataDirect Networks a sponsorisé ce segment de theCUBE. Ni DataDirect Networks ni les autres sponsors n'ont de contrôle éditorial sur le contenu de theCUBE ou SiliconANGLE.)