Baseten Inc., une startup dotée d'une plate-forme permettant d'exécuter des charges de travail d'inférence d'intelligence artificielle, lève 1,5 milliard de dollars de financement.
Le Wall Street Journal signalé aujourd'hui, Altimeter Capital, Conviction, Spark Capital, Sands Capital et Wellington Management codirigent l'opération. On ne sait pas s'il y a des participants supplémentaires. Certains investisseurs achètent des actions pour une valorisation de 11 milliards de dollars, tandis que les conditions générales des autres bailleurs de fonds précisent une valorisation de 13 milliards de dollars.
La mise en place d'un cluster d'inférence basé sur le cloud implique une quantité de travail importante. Les développeurs doivent provisionner les cartes graphiques, les configurer, les relier entre elles et installer un grand nombre d'outils logiciels. Baseten fournit une plate-forme qui automatise le flux de travail. Le logiciel est disponible sous forme de service géré et d'application autonome que les entreprises peuvent déployer dans leurs environnements de cloud public.
La plateforme de Baseten est alimentée par trois modules de base que la société appelle moteurs d'inférence. Ils optimisent les performances des modèles d'IA des clients et collectent des données sur les problèmes techniques.
Le premier moteur d'inférence, BIS-LLM, est conçu pour alimenter de grands modèles de langage avec un mélange d'architecture d'experts. Un mélange d'experts LLM comprend plusieurs réseaux de neurones chacun orienté vers des tâches différentes. BIS-LLM améliore l'efficacité de ces modèles en optimisant leur cache KV, une structure de données qui stocke les informations nécessaires à l'inférence. Lorsque l'utilisation des jetons d'un modèle augmente, BIS-LLM provisionne automatiquement davantage de matériel.
Le deuxième moteur d'inférence s'appelle Engine-Builder-LLM. Il est optimisé pour les LLM denses, qui sont des modèles comprenant une collection monolithique de neurones artificiels plutôt que plusieurs réseaux de neurones. Les modèles d'IA génèrent généralement une sortie un jeton à la fois. Engine-Builder-LLM utilise une technologie appelée décodage anticipé pour générer plusieurs jetons à la fois, ce qui accélère le traitement.
Le troisième moteur d'inférence principal, BEI, est orienté vers des modèles d'IA plus simples. Il peut alimenter des modèles d'intégration, qui transforment les données brutes dans un format compris par les LLM, ainsi que des modèles de classification et de recherche des données.
Baseten utilise un module logiciel appelé MCM pour répartir les charges de travail d'inférence sur plusieurs cloud publics. Si l’un des cloud subit une panne, MCM redirige les invites vers les plateformes toujours en ligne. Selon Baseten, la capacité de la technologie à changer de fournisseur est également utile lorsque le principal cloud public d'une entreprise manque de cartes graphiques.
La plate-forme fournit une prise en charge prête à l'emploi pour plusieurs dizaines de modèles d'IA open source. De plus, les clients peuvent déployer des algorithmes personnalisés à l'aide d'un outil appelé Truss. Il automatise la tâche de packaging d'un LLM dans un format compatible Baseten.
Baseten peut non seulement effectuer des inférences avec des LLM personnalisés, mais également les entraîner. Selon l'entreprise, sa plate-forme comprend une fonction de sauvegarde qui enregistre périodiquement des copies d'un réseau neuronal pendant sa formation. Si un problème technique survient, les développeurs peuvent restaurer la copie de sauvegarde la plus récente au lieu de recommencer le flux de formation à partir de zéro.
Le financement intervient moins de six mois après sa précédente augmentation. L'investissement de 300 millions de dollars comprenait les contributions de Nvidia Corp. et de CapitalG, la branche d'investissement dans les startups en phase de croissance d'Alphabet Inc.