La startup dédiée au cloud d'inférence Deepinfra Inc. cherche à étendre sa capacité mondiale après avoir levé 107 millions de dollars lors d'un cycle de financement de série B dirigé par 500 Global et Georges Harik, qui a été l'un des premiers ingénieurs cloud de Google LLC.
Deepinfra affirme qu'elle tente de repenser l'infrastructure cloud pour les charges de travail d'intelligence artificielle alors que l'industrie passe des chatbots expérimentaux à des « workflows agents » à l'échelle de la production, ou à des systèmes capables de fonctionner de manière autonome sans intervention humaine. Il affirme que le processus d’inférence – exécuter des modèles d’IA en production – est extrêmement inefficace, principalement parce que les plates-formes cloud traditionnelles n’ont jamais été conçues pour prendre en charge de telles charges de travail.
La startup estime que les plates-formes d’infrastructure cloud à usage général ont du mal à maîtriser la nature « toujours active » des agents d’IA, qui doivent souvent effectuer des dizaines, voire des centaines d’appels de modèles pour exécuter une seule tâche. Le résultat est que la latence devient imprévisible, ce qui entraîne une explosion des coûts qui peut faire dérailler les projets d’IA avant qu’ils n’atteignent la production.
Deepinfra vise à résoudre ce problème en construisant une sorte d’« usine à jetons » qui traite l’inférence comme un processus principal plutôt que comme un service cloud secondaire. Elle a été fondée par la même équipe d'ingénieurs qui a créé la populaire application de messagerie imo, qui a été étendue à plus de 200 millions d'utilisateurs dans le monde.
Au lieu de louer des capacités « ponctuelles » auprès de tiers, la startup exploite son propre matériel dans huit centres de données aux États-Unis. Cela lui permet de contrôler l'ensemble de l'infrastructure, des unités de traitement graphique aux interfaces de programmation d'applications, lui permettant ainsi d'obtenir davantage de performances de son matériel cloud. La société exploite la plate-forme d'inférence distribuée Dynamo de Nvidia, ainsi que ses GPU Blackwell et Vera Rubin, pour offrir une rentabilité d'inférence jusqu'à 20 fois supérieure.
Deepinfra s'intéresse particulièrement à l'IA agentique, car elle affirme que ces systèmes sont beaucoup plus gourmands en ressources et plus coûteux que les chatbots d'IA générative traditionnels. Déjà, plus de 30 % du volume de jetons sur sa plateforme est géré par des agents autonomes.
À l'heure actuelle, sa plate-forme prend en charge plus de 190 modèles d'IA open source, dont la famille Nemotron de Nvidia. Il propose également une politique de conservation des données nulles pour les entreprises qui hésitent à envoyer des informations sensibles vers le cloud.
Le co-fondateur et directeur général Nikola Borisov a déclaré qu'il avait créé l'entreprise il y a quatre ans parce qu'il était convaincu que l'inférence allait devenir le moteur dominant des charges de travail de l'IA en entreprise, et il pense que c'est déjà le cas maintenant.
« Ce qui se passe actuellement est incroyablement excitant, avec des modèles open source atteignant rapidement la parité avec les systèmes propriétaires, déclenchant une vague d'innovation à une fraction du coût et permettant une adoption généralisée », a-t-il déclaré. « Dans le même temps, les systèmes basés sur des agents génèrent une demande continue et importante. L'inférence n'est plus une couche mince : c'est la contrainte système qui définira la majorité des charges de travail. »
Tony Wang de 500 Global a déclaré que la demande en matière d'inférence IA explose et que les ingénieurs et les développeurs découvrent qu'ils ont besoin d'une infrastructure plus rapide, plus flexible et plus fiable pour la prendre en charge. « L'équipe de Deepinfra a déjà prouvé qu'elle pouvait construire et exploiter des systèmes distribués à l'échelle mondiale, et nous pensons que l'inférence spécialement conçue sera fondamentale pour la prochaine phase de l'IA », a-t-il déclaré.