La startup Mindbeam AI Inc., créée il y a deux ans, a publié aujourd'hui un cadre d'inférence d'intelligence artificielle open source conçu pour permettre aux grands modèles de langage de fonctionner plus efficacement sur des processeurs grand public standard, une décision qui, selon la société, pourrait réduire la dépendance à des unités de traitement graphiques coûteuses pour certaines charges de travail d'IA.
Litespark-Inference est une bibliothèque logicielle qui permet à de grands modèles de langage ternaires de s'exécuter sur des unités centrales de traitement d'Apple Inc., Intel Corp., Advanced Micro Devices Inc. et Arm Holdings plc avec des performances considérablement améliorées par rapport à l'inférence conventionnelle basée sur le processeur. La société a publié des benchmarks montrant que le framework offre des améliorations de débit allant de 17 à 96 fois par rapport aux implémentations PyTorch standard tout en réduisant les besoins en mémoire de plus de 80 %.
Mindbeam, dont les cadres de pré-formation Litespark LLM accélèrent les charges de travail de formation et d'inférence pour les applications d'IA générative, se concentre sur une classe de réseaux neuronaux appelés modèles ternaires. Ceux-ci contraignent les poids à trois valeurs : -1, 0 et +1, réduisant ainsi considérablement la surcharge des grandes opérations de multiplication normalement requises lors de l'inférence, bien qu'avec une perte d'une certaine précision.
«Nous pensons sous un angle différent», a déclaré le fondateur et directeur général Nii Osae. « Existe-t-il un moyen de faire de l'inférence avec des modèles à bits ternaires ? »
Cette version intervient alors que le coût d'utilisation des jetons dans l'inférence de l'IA augmente et que les organisations recherchent des moyens de réduire le coût de déploiement des modèles, en particulier dans les cas d'utilisation en périphérie avec des contraintes de mémoire. La plupart des inférences LLM reposent aujourd'hui sur des GPU, qui sont chers et rares. Mindbeam affirme que les processeurs, qui côtoient les GPU dans pratiquement tous les systèmes d'IA, sont une ressource sous-utilisée.
« Dans le pipeline d'inférence, les entrées proviennent de l'utilisateur, vont d'abord au CPU, puis au GPU », a déclaré Osae. « Le CPU ne fait que transmettre les messages. Pourquoi ne pouvons-nous pas placer le CPU dans la pile d'inférence ? »
Complément GPU
La société a souligné qu'elle n'essayait pas de remplacer les GPU. Au lieu de cela, il considère les processeurs comme des accélérateurs complémentaires qui peuvent améliorer l’efficacité globale du système. « Désormais, les GPU peuvent traiter plus de jetons car ils bénéficient d'une aide supplémentaire des processeurs », a déclaré Osae.
Le logiciel prend en charge deux modèles de déploiement. L’un permet aux développeurs d’IA d’exécuter des modèles de langage entièrement sur du matériel local sans nécessiter de GPU. Un autre est destiné aux fournisseurs de cloud, où les CPU et les GPU fonctionnent ensemble dans une architecture d'inférence désagrégée.
Selon les références de l'entreprise, un processeur Apple M5 exécutant le framework a atteint près de 40 jetons par seconde, contre environ 2,3 jetons par seconde en utilisant PyTorch, un framework open source populaire utilisé pour créer, former et déployer des réseaux neuronaux.
Sur les systèmes prenant en charge les instructions de réseau neuronal vectoriel AVX-512 d'Intel, un ensemble dédié d'instructions de processeur conçues pour accélérer l'apprentissage profond de l'IA et l'inférence d'apprentissage automatique, le débit a atteint près de 34 jetons par seconde, ce qui représente une amélioration signalée de 96 fois par rapport à une ligne de base sans l'amélioration ternaire. La consommation de mémoire est passée d'environ 4,6 gigaoctets à moins de 800 mégaoctets.
Mindbeam publie le code source sur https://github.com/Mindbeam-AI/LitesparkInference et encourage les autres à effectuer leurs propres tests de performance.
Le framework tire parti d'instructions uniques spécialisées et de plusieurs instructions de données disponibles dans les processeurs modernes, notamment le jeu d'instructions accélérées matériellement NEON SDOT d'Arm et les instructions de réseau neuronal vectoriel Intel et AMD. L'architecture du processeur et la technique de programmation qui permettent à une seule instruction CPU d'effectuer la même opération sur plusieurs éléments de données simultanément. Mindbeam a développé des noyaux personnalisés qui détectent automatiquement les fonctionnalités disponibles du processeur et optimisent l'exécution en conséquence.
Osae a déclaré que la version initiale prend en charge les processeurs Apple Silicon, Intel et AMD, les versions futures ciblant le matériel spécifique au cloud tel que les puces Inferentia d'Amazon Web Services Inc.
À l’avenir, la société prévoit d’étendre la technologie au-delà des modèles linguistiques, la robotique sensible à la consommation et les applications informatiques de pointe étant les principales cibles. « Nous ciblons les modèles d'action pour la robotique, car la robotique et les écosystèmes de pointe ont besoin de modèles d'inférence très efficaces et économes en énergie », a déclaré Osae.
Il a déclaré que Mindbeam avait l'intention de commercialiser des versions de la technologie axées sur le cloud plus tard cette année.