Modelplane open source montant pour optimiser les clusters d'inférence

Upbound Inc. a publié aujourd'hui Modelplane, un nouvel outil open source pour gérer les clusters d'inférence d'intelligence artificielle.

Upbound, basé à San Francisco, est soutenu par 69 millions de dollars du fonds GV d'Alphabet Inc., d'Intel Capital et d'autres. Il est surtout connu comme le créateur de Crossplane, un moteur de gestion d'infrastructure open source. Il s'agit d'une version améliorée du plan de contrôle Kubernetes, une partie du framework qui automatise des tâches clés telles que le provisionnement des serveurs.

Le plan de contrôle Kubernetes est conçu pour gérer les clusters de conteneurs. Crossplane, en revanche, peut également coordonner d’autres types d’infrastructures. De plus, le logiciel inclut des fonctionnalités d'extensibilité qui permettent aux développeurs de le personnaliser en fonction de cas d'utilisation spécifiques. Modelplane, le nouvel outil open source lancé aujourd'hui par Upbound, est une version de Crossplane optimisée pour les charges de travail d'inférence d'IA.

L'une des tâches que l'outil promet de faciliter est la répartition des charges de travail d'inférence sur plusieurs cloud. Dans le passé, cette approche était difficile à mettre en œuvre car chaque plateforme cloud devait être gérée séparément. Modelplane facilite le flux de travail en permettant aux développeurs de configurer de manière centralisée les ressources d'infrastructure sur plusieurs plates-formes.

L'outil détermine automatiquement quelle charge de travail doit s'exécuter sur quel cloud. Lorsque le volume de requêtes traitées par un modèle d'IA augmente, Modelplane ajoute de la capacité en créant de nouvelles répliques. Ce sont des copies identiques du réseau neuronal déployé sur différentes instances.

Les serveurs qui exécutent un modèle d'IA conservent souvent son poids dans un système de stockage distant. Lorsqu'un utilisateur saisit une invite, les poids doivent être chargés depuis le stockage distant vers la mémoire intégrée des serveurs, ce qui ralentit le traitement. Modelplane inclut une fonctionnalité de mise en cache distribuée qui stocke les pondérations sur le stockage local des clusters de serveurs afin de réduire les temps de réponse.

Selon Upbound, l'outil n'envoie pas les requêtes des utilisateurs directement aux serveurs d'inférence mais les achemine via une passerelle. Il s'agit d'un composant qui garantit que les invites sont conformes aux exigences de cybersécurité et de rentabilité. De plus, la passerelle fait également office d'outil de reprise après sinistre : elle peut acheminer les requêtes vers un environnement d'inférence externe en cas de panne.

« Nous avons observé les utilisateurs de Crossplane créer des plates-formes d'inférence sur plusieurs clusters et les exploiter à grande échelle, en composant les clusters, les GPU, les piles de services et le routage vers leurs propres plans de contrôle », a écrit Bassam Tabbara, fondateur et PDG d'Upbound, dans un article de blog aujourd'hui. « Nous voulions standardiser ces modèles, les rendre beaucoup plus faciles à utiliser et contribuer au résultat à la communauté sous forme d'infrastructure ouverte. »

Modelplane est disponible sur GitHub sous licence Apache 2.0.