La startup de puces d'inférence Etched se lance avec un financement de 800 millions de dollars

Etched Inc., un développeur de puces d'inférence d'intelligence artificielle, a été lancé aujourd'hui avec un financement de 800 millions de dollars.

Etched prévoit de produire ses puces d'inférence en utilisant le processus N4P de TSMC. Il s'agit d'une version améliorée du nœud de cinq nanomètres du géant des puces qui offre des performances 11 % supérieures à celles de l'original. Selon Etch, ses premiers prototypes de puces sont sortis de la chaîne de production N4P de TMSC plus tôt cette année.

L'unité de traitement graphique Rubin phare de Nvidia Corp. est optimisée à la fois pour la formation et l'inférence de l'IA. En se concentrant uniquement sur l'inférence, l'approche adoptée par Etched permet de réduire la consommation d'énergie en supprimant les circuits optimisés pour la formation. Les ingénieurs peuvent également ajouter davantage de circuits d’inférence pour augmenter les vitesses de traitement.

Etched a également équipé sa puce de plusieurs autres optimisations de performances.

Plus un GPU effectue de calculs par seconde, plus il consomme d'énergie, ce qui augmente sa température de fonctionnement. Passé un certain seuil, la chaleur supplémentaire peut provoquer des dysfonctionnements. Les cartes graphiques atténuent le problème en réduisant leur fréquence d'horloge lorsqu'elles commencent à approcher de leurs vitesses maximales. La limitation thermique, comme on l'appelle, ralentit l'inférence.

Etched a développé une technologie appelée LVI qui réduit le besoin de limitation thermique. Selon la société, sa puce peut exécuter un modèle d’IA comportant des milliards de paramètres à « plus de 80 % de FLOP de pointe » sans réduire sa fréquence d’horloge. Le résultat est une accélération significative de l’inférence. Etched affirme que la densité FLOP de sa puce, une mesure de performance, est plusieurs fois supérieure à celle des processeurs IA existants sur le marché.

La société prévoit d'expédier son silicium dans le cadre d'un appareil d'inférence à l'échelle du rack. Le système comporte plusieurs puces installées sur des circuits imprimés personnalisés. Etched a également développé des plaques froides personnalisées, des composants qui jouent un rôle important dans les systèmes de refroidissement liquide. Une plaque froide est une pièce plate de métal qui canalise la chaleur générée par les copeaux vers le liquide de refroidissement d'un rack.

L'appliance d'Etched comprend un mélange de mémoire SRAM et HBM. Les puces IA utilisent la SRAM, la variété de RAM la plus rapide du marché, pour stocker les données les plus importantes de leurs charges de travail. D'autres informations sont envoyées à la mémoire HBM, qui échange une certaine vitesse contre une capacité considérablement accrue.

Les puces IA dans un rack nécessitent souvent la possibilité d'accéder aux données dans la mémoire de l'autre. L'appliance d'Etched utilise une interconnexion personnalisée pour faciliter ce mouvement de données. Selon la société, la machine dispose d'un pool de mémoire partagée à l'échelle du système qui peut traiter les requêtes avec moins de latence que les technologies précédentes.

Etched est actuellement en train d'accélérer sa production de puces et prévoit d'expédier ses premiers racks cet été. La société a révélé aujourd'hui qu'elle avait reçu des commandes de clients d'une valeur de plus d'un milliard de dollars.