RadixArk Inc., une startup qui fournit des outils aux développeurs d'intelligence artificielle, a levé 100 millions de dollars auprès d'un groupe de bailleurs de fonds de haut niveau.
La société construit des outils commerciaux de développement d’IA basés sur deux projets open source appelés SGLang et Miles. Les membres de l'équipe RadixArk ont aidé à développer l'ancienne technologie avant le lancement de l'entreprise. Miles a été open source par RadixArk en novembre dernier.
Les équipes logicielles peuvent utiliser Miles pour rationaliser les projets d'apprentissage par renforcement. L'apprentissage par renforcement est une méthode de formation en IA couramment utilisée pour développer de grands modèles de langage. Miles peut compresser des LLM comportant mille milliards de paramètres dans un format qui tient dans la mémoire d'une seule carte graphique haut de gamme, ce qui réduit considérablement les coûts de formation.
Le logiciel rationalise également les projets d’IA par d’autres moyens. Il comprend un cadre co-évolutif asynchrone, MrlX, qui peut former plusieurs agents d'IA en même temps en les plaçant dans le même environnement simulé. Cet arrangement permet aux agents d’affiner leurs capacités de raisonnement en apprenant les uns des autres.
Une fois que les développeurs ont formé une IA avec Miles, ils peuvent utiliser SGLang pour effectuer une inférence. Ce dernier projet fournit des éléments de base pour la création d'environnements d'inférence. Selon RadixArk, SGLang alimente des clusters d'IA contenant plus de 400 000 cartes graphiques au total.
Le mécanisme d'attention d'un LLM, un module qu'il utilise pour interpréter les instructions de l'utilisateur, génère une quantité importante de données temporaires lors du traitement des invites. Ces informations sont stockées dans une structure de données appelée cache KV. Les LLM effacent généralement le cache KV après chaque invite.
SGLang permet aux LLM de réutiliser certaines données du cache KV dans les invites. Cela évite d'avoir à générer toutes les données à partir de zéro après chaque requête, ce qui réduit la surcharge d'infrastructure associée. De plus, SGLang accélère les temps de réponse rapides dans le processus.
La fonctionnalité de réutilisation du cache KV de l'outil est complétée par plusieurs autres optimisations de performances. SGLang utilise une méthode appelée décodage spéculatif pour décharger certaines tâches du LLM d'une application vers un modèle plus léger et moins gourmand en matériel. De plus, l'outil peut répartir les calculs impliqués dans le traitement d'une invite sur des puces dotées d'architectures différentes. Cette approche peut améliorer considérablement les performances du modèle dans certains cas.
Les produits commerciaux que RadixArk prévoit de créer à l'aide de Miles et de SGLang comprendront « une infrastructure et des outils gérés ». Selon le Journal, les offres permettront aux clients d'héberger des modèles d'IA dans le cloud. RadixArk prévoit également d'améliorer les versions open source de SGLang et Miles.