La startup de puces d'inférence Groq lève 650 millions de dollars pour développer sa plateforme cloud

Sept mois après encrage Dans le cadre d'un accord de licence de puces de 20 milliards de dollars avec Nvidia Corp., Groq Inc. a annoncé aujourd'hui avoir levé 650 millions de dollars de financement.

La société d'investissement de croissance Disruptive et le hedge fund Infinitum ont mené le tour.

Groq a développé une conception de puce appelée LPU, spécialement optimisée pour les charges de travail d'inférence d'intelligence artificielle. En décembre, Nvidia a accepté d'accorder une licence sur les technologies qui sous-tendent le processeur. Elle a également embauché plusieurs employés clés de Groq, dont son directeur général fondateur.

La transaction a produit le Nvidia Grok LPU 3, un processeur d'inférence que le géant des puces a lancé en mars. Il est livré dans le cadre d'un appareil refroidi par liquide de la taille d'un rack appelé LPQ. Le système comprend 32 plateaux hébergeant chacun trois unités Groq LPU 3, une unité centrale de traitement et des équipements réseau.

Les accélérateurs d’un cluster d’inférence comprennent chacun un cristal de quartz appelé horloge qui régule les vitesses de traitement. Les horloges jouent également un rôle important dans la coordination du flux de données entre les puces. Lorsque les horloges des accélérateurs ne sont pas synchronisées, le trafic de données ralentit, ce qui a un impact négatif sur les temps de réponse du modèle d'IA.

Le LPU 3 comprend une fonctionnalité qui corrige automatiquement la dérive d'horloge pour éviter les goulots d'étranglement du trafic de données. Selon Nvidia, la puce comprend 92 voies pouvant chacune déplacer des données vers d'autres processeurs à une vitesse de 112 gigabits par seconde. Cela se traduit par 2,5 térabits par seconde de bande passante bidirectionnelle.

L'accélération du flux de données entre les puces n'est pas le seul moyen par lequel le LPU 3 accélère les charges de travail d'inférence. Le processeur est livré avec 500 Mo de SRAM intégrée, une variété de mémoire à haute vitesse. La SRAM est plus performante que la RAM hors puce que d'autres accélérateurs d'IA utilisent pour stocker les données, ce qui se traduit par une inférence plus rapide.

Groq exploite une plate-forme cloud alimentée par LPU que les entreprises peuvent utiliser pour exécuter des charges de travail d'inférence. La société a révélé aujourd'hui que la plateforme traite des milliards de jetons par semaine pour 5 millions de développeurs.

Le cloud de Groq s'étend sur 13 centres de données répartis sur plusieurs continents. La société utilisera le produit de son cycle de financement pour augmenter sa capacité d'inférence dans le but d'atteindre 200 mégawatts d'ici 2027. Selon Groq, une partie de la nouvelle puissance de traitement sera fournie par le LPX, l'appareil LPU 3 refroidi par liquide que Nvidia a lancé en mars.

D’autres opérateurs de cloud peuvent théoriquement créer leurs propres services d’inférence basés sur LPQ. Groq pourrait notamment se démarquer de ces concurrents potentiels en étendant sa plate-forme avec de nouveaux services tels que des bases de données gérées. D'autres fournisseurs de cloud axés sur l'IA, notamment CoreWeave Holdings Inc., ont également élargi leur champ d'action au-delà de l'infrastructure pour englober des services de niveau supérieur.