QumulusAI et le passage de la rareté des GPU à l'efficacité des GPU

Fournisseur Neocloud QumulusAI a annoncé aujourd'hui avoir obtenu plus de 124 millions de dollars d'abonnements clients pour des durées de trois ans avec Hyperbolique et une autre plateforme d’inférence d’intelligence artificielle de premier plan.

Ces accords couvrent des déploiements totalisant 1 280 Nvidia Corp. GPU Blackwell, livrés via 160 Lenovo et Supermicro serveurs nus connectés à Cisco Systèmes Inc. Mise en réseau Nexus pour former des clusters à haut débit et à faible latence.

Une part notable de la valeur est fournie en amont, avec près de 21,9 millions de dollars d'engagements clients initiaux combinés, fournissant à QumulusAI un fonds de roulement. Structurellement, il s'agit d'abonnements à des unités de traitement graphique en tant que service plutôt que d'offres matérielles ponctuelles, ce qui signifie des revenus récurrents prévisibles pour QumulusAI et des dépenses d'exploitation prévisibles pour ses clients pendant la durée des contrats. En termes de marché, il s’agit d’une victoire significative pour un fournisseur d’infrastructure cloud d’IA verticalement intégré qui mise sur une architecture centrée sur l’inférence plutôt que sur une image de marque « cloud IA » à usage général.

QumulusAI s'efforce de réduire les coûts d'infrastructure de l'IA en rendant l'inférence de classe GPU plus économique et plus largement accessible. La meilleure façon de comprendre ce changement est de voir comment l’infrastructure est repensée en fonction de l’utilisation et de l’économie plutôt que de références de performances optimales.

Comment les fournisseurs d'infrastructures d'IA réduisent les coûts d'inférence de 20 %

Les piles d'IA traditionnelles sont souvent construites sur des architectures de référence génériques qui supposent des unités centrales de traitement au maximum, de grandes empreintes de mémoire et un stockage local surdimensionné « juste au cas où » les charges de travail en auraient besoin. En déduisant, cela signifie souvent que les entreprises paient pour des ressources sous-utilisées simplement parce que le plan a été élaboré de cette façon.

QumulusAI remet en question ce modèle avec une approche « d'inférence d'abord ». Il ajuste le nombre de cœurs de processeur, la mémoire système et le stockage local pour correspondre au comportement réel des charges de travail d'inférence open source à grande échelle, des agents de recherche approfondie, des systèmes de codage automatisés et d'autres applications asynchrones qui donnent la priorité au débit, à la latence et au coût par jeton. Les déploiements de la société autour des GPU Nvidia Blackwell sont conçus de manière à ce que chaque composant situé au-dessus du GPU soit correctement dimensionné. Sa propre analyse indique que cela peut réduire les coûts d'inférence de l'IA d'environ 20 % par rapport aux configurations standard, en grande partie en éliminant le gaspillage dans l'approvisionnement en CPU et en stockage.

De la rareté du GPU à l’efficacité du GPU

La première vague d’IA générative a été définie par la rareté des GPU. Celui qui a obtenu le plus d’accélérateurs a gagné. Cet état d’esprit de pénurie a conduit les fournisseurs d’IA et les grandes entreprises à accumuler de la capacité GPU et à surconstruire une infrastructure à usage général, en supposant que la formation serait la charge de travail dominante. À mesure que le marché mûrit, la contrainte passe de « puis-je obtenir des GPU ? à « Puis-je me permettre de les exécuter en continu ? » C'est là que l'efficacité devient un différenciateur.

L'architecture de QumulusAI associe les GPU Blackwell aux systèmes nus Lenovo et Supermicro et au réseau Cisco Nexus. La véritable innovation réside dans la manière dont ces systèmes sont étroitement alignés sur les modèles d’utilisation de l’inférence. L’effet net est que le même GPU reste en jeu, mais l’infrastructure environnante n’est plus une coque générique surprovisionnée : il s’agit d’un environnement efficace et spécialement conçu pour maximiser le travail utile par watt et par dollar.

L'inférence crée une nouvelle classe d'infrastructure d'IA

L'inférence apparaît comme une classe distincte d'infrastructure d'IA, distincte de la formation, avec des objectifs de conception et des mesures de réussite différents. Les environnements de formation sont optimisés pour les rafales courtes et intenses et les mouvements massifs de données. Les environnements d'inférence, en particulier pour les modèles open source, sont optimisés pour un trafic de requêtes soutenu et à volume élevé, une latence prévisible et une économie stable sur des horizons pluriannuels.

Les choix de conception de QumulusAI reflètent cette réalité. Il est leader avec des contrats GPU en tant que service, des conditions d'abonnement pluriannuelles et un modèle de déploiement distribué qui rapproche le calcul des utilisateurs finaux plutôt que de tout concentrer dans une poignée de méga-régions. Cette combinaison crée une « structure d'inférence » dans laquelle la capacité peut être ajoutée progressivement, et l'équilibre des GPU, des CPU, de la mémoire et du stockage est ajusté pour maximiser l'utilisation plutôt que les TOPS affichés. Le résultat est une nouvelle catégorie d'infrastructure où le succès est mesuré par le coût par requête et les taux d'utilisation, et non seulement par les performances de formation maximales.

Comment les équipes d'infrastructure peuvent réduire les coûts d'exploitation de l'IA

Pour les équipes opérationnelles, il est temps de repenser la façon dont vous abordez l’infrastructure. Traitez l'infrastructure d'inférence comme un niveau distinct, et non comme une extension des clusters de formation existants ou des environnements virtualisés à usage général.

Commencez par profiler les charges de travail d’inférence réelles. Collectez des données sur les modèles de requêtes, la concurrence, les cibles de latence et les empreintes de modèle, et utilisez-les pour dimensionner correctement le processeur, la mémoire et le stockage autour des GPU que vous envisagez déjà de déployer. Recherchez des fournisseurs et des partenaires qui proposent des SKU ou des architectures spécifiques à l'inférence, plutôt que des instances génériques « prêtes pour l'IA » qui regroupent simplement plus de tout.

Envisagez des déploiements distribués ou régionaux dans lesquels le rapprochement du calcul des utilisateurs réduit la surcharge du réseau et améliore l'utilisation, en particulier pour les charges de travail asynchrones ou agents qui peuvent être planifiées sur plusieurs sites. Enfin, déplacez la conversation financière de « Combien de GPU avons-nous acheté ? » à « Quel est notre coût pour 1 000 inférences et comment pouvons-nous le réduire de 10 à 20 % grâce à une meilleure utilisation ?

Des clients comme Hyperbolic achètent de la capacité optimisée, pas seulement des GPU

La manière dont les clients structurent leurs engagements est une preuve de ce changement. Des sociétés telles que Hyperbolic, qui exploitent des services d'inférence à grande échelle pour des modèles open source, signent des accords pluriannuels non seulement pour verrouiller l'inventaire GPU, mais aussi pour garantir une capacité optimisée. Les clusters GPU, les configurations de processeur et de mémoire et les structures réseau sont co-conçus pour leurs charges de travail spécifiques.

Dans le cas de QumulusAI, cela s'est traduit par plus de 124 millions de dollars en accords sur trois ans et en engagements initiaux substantiels. La proposition de valeur est structurée autour de l’économie – une réduction d’environ 20 % des coûts d’inférence par rapport aux constructions standard – plutôt que sur le nombre brut d’accélérateurs. Ces clients votent avec leurs budgets pour une infrastructure qui traite l'inférence comme une charge de travail principale.

Réflexions finales

Ce qui est intéressant dans cette annonce n’est pas seulement l’ampleur des accords mais aussi la logique qui les sous-tend. L’infrastructure de l’IA entre dans une deuxième phase où la différenciation vient de l’utilisation et de l’économie, et pas seulement du nombre d’accélérateurs bruts. Le passage du nombre de GPU achetés à l'efficacité est attendu depuis longtemps, et QumulusAI se positionne dans cet écart en enveloppant des processeurs, de la mémoire et du stockage de taille appropriée autour des GPU Blackwell.

Pour les entreprises, ce qu’il faut retenir, c’est que l’infrastructure d’IA n’est plus un investissement monolithique, une fois tous les dix ans. Il s'agit d'un tissu modulaire et spécifique à la charge de travail, dans lequel les gagnants seront les équipes et les fournisseurs qui traitent l'économie de l'inférence comme une contrainte de conception plutôt que comme une réflexion après coup.

Zeus Kerravala est analyste principal chez ZK Research, une division de Kerravala Consulting. Il a écrit cet article pour SiliconANGLE.