OpenAI et Broadcom lancent une puce Jalapeño personnalisée pour l'inférence de l'IA

OpenAI Group PBC a dévoilé aujourd'hui une puce personnalisée appelée Jalapeño qu'il utilisera pour alimenter ses grands modèles de langage.

Le processeur est le fruit d'une collaboration avec Broadcom Inc., qui n'est pas étranger à la conception de silicium sur mesure. La société a aidé Google LLC à développer sa gamme TPU d'accélérateurs d'intelligence artificielle. En avril, le géant de la recherche a prolongé sa collaboration avec Broadcom dans le domaine des puces jusqu'en 2031.

Les cartes graphiques Rubin phares de Nvidia Corp. peuvent exécuter à la fois des charges de travail de formation et d'inférence. En revanche, Jalapeño n'est conçu que pour ce dernier cas d'utilisation, à savoir le processus d'exécution des modèles d'IA en réponse à des requêtes. Selon OpenAI, les premiers tests indiquent que la puce peut effectuer des inférences avec des performances par watt nettement supérieures à « l’état de l’art actuel », ce qui peut être une référence aux puces Nvidia.

La société a partagé quelques détails sur la conception de Jalapeño. Cependant, le billet de blog dans lequel la puce est annoncée précise que « l’architecture sous-jacente réduit le mouvement des données ». Cela laisse entendre que l'architecture de Jalapeño pourrait être conçue pour réduire les mouvements de données entre ses circuits logiques et la mémoire hors puce, l'un des principaux goulots d'étranglement en termes de performances dans les clusters d'inférence.

Les fournisseurs de puces d’IA adoptent plusieurs approches pour réduire les mouvements de données. L’une des méthodes les plus courantes consiste à équiper un accélérateur d’une grande quantité de SRAM embarquée, un type de mémoire à haute vitesse. Plus une puce contient de SRAM, moins de données doivent être envoyées vers la mémoire hors puce. Cerebras Systems Inc. et Groq Inc. font partie des entreprises qui ont adopté cette approche.

OpenAI affirme que ses clusters d'inférence alimentés par Jalapeño utiliseront plusieurs technologies de réseau Broadcom. L'un d'eux est la série de puces Tomahawk de la société, conçue pour alimenter les commutateurs Ethernet. Les commutateurs basés sur Tomahawk peuvent être utilisés pour déplacer des données à la fois entre des serveurs dans le même rack et entre des racks.

La toute dernière puce Tomahawk de Broadcom, la Tomahawk 6, peut traiter jusqu'à 1,6 térabits de trafic par seconde. Un moteur de gestion de la congestion intégré corrige les goulots d'étranglement du réseau susceptibles de ralentir les connexions.

OpenAI prévoit de déployer Jalapeño et son équipement réseau fourni par Broadcom dans des racks de serveurs personnalisés. Le développeur ChatGPT développe les systèmes en collaboration avec Celestia Inc., un fournisseur de services de conception d'équipements de centre de données basé à Toronto. L'entreprise peut également aider ses clients à optimiser leurs lignes de production de serveurs.

Il mettra en ligne ses premiers serveurs Jalapeño d'ici la fin de l'année. Il prévoit d’étendre son utilisation de la puce au fil du temps. Son article de blog décrit Jalapeño comme la « première étape d'une plate-forme de calcul multigénération », ce qui laisse entendre qu'il pourrait envisager de développer des processeurs d'inférence supplémentaires à l'avenir. Une autre possibilité est qu'OpenAI conçoive des puces personnalisées pour des cas d'utilisation adjacents tels que la formation de modèles.

Jalapeño pourrait avoir le potentiel d’ouvrir de nouvelles sources de revenus pour l’entreprise. Nvidia vend ses cartes graphiques dans le cadre de systèmes appelés appliances DGX qui comprennent également des unités centrales de traitement, des modules de refroidissement et d'autres matériels. OpenAI dispose des ressources nécessaires pour commercialiser des appareils concurrents alimentés par Jalapeño. Il pourrait même permettre aux clients d’exécuter ses modèles d’IA sur site à l’aide de tels systèmes.

Une entrée sur le marché lucratif du matériel d'IA pourrait non seulement stimuler la croissance des revenus d'OpenAI, mais également susciter l'intérêt des investisseurs pour sa prochaine offre publique. Anthropic PBC, le principal rival de la société, a récemment déposé sa propre demande de cotation. Une offre de matériel d'inférence pourrait être un différenciateur précieux pour OpenAI lors de sa tournée de présentation, en particulier si Anthropic est d'abord rendu public.

OpenAI et Broadcom lancent une puce Jalapeño personnalisée pour l'inférence de l'IA

Photo : OpenAI