Google Cloud signe un accord d'infrastructure d'IA avec Thinking Machines

Thinking Machines Lab Inc. étendra son utilisation de la plate-forme cloud de Google LLC dans le cadre d'un partenariat annoncé ce matin par les sociétés.

TechCrunch cité une source disant que l’accord est évalué à des « milliards à un chiffre ».

Thinking Machines est une startup d'intelligence artificielle dirigée par la directrice générale Mira Murati, ancienne directrice de la technologie d'OpenAI Group PBC. Il propose un service cloud appelé Tinker qui permet aux développeurs de créer des versions personnalisées de grands modèles de langage open source. Tinker effectue la personnalisation en attachant des modules complémentaires au code principal des LLM.

Thinking Machines déplacera certaines de ses charges de travail vers les instances A4X Max de Google Cloud, spécifiquement optimisées pour les modèles d'IA. Chaque machine virtuelle donne accès à quatre unités de traitement graphique Blackwell Ultra de Nvidia Corp. Ils sont soutenus par deux unités centrales de traitement comportant chacune 72 cœurs.

Les puces fonctionnent dans des appareils GB300 NVL72 refroidis par liquide. Les systèmes, fabriqués par Nvidia, sont dotés de 37 téraoctets de mémoire et de 130 térabits par seconde de bande passante interne pour déplacer les données entre les processeurs. Selon Google Cloud, Thinking Machines est l'un des premiers clients à utiliser son infrastructure NVL72.

Les puces des instances A4X Max utilisent une technologie appelée RoCE pour échanger des données. Il ignore plusieurs des étapes habituellement impliquées dans le traitement des paquets, ce qui augmente le débit. Les données circulent sur un réseau qui présente une topologie dite alignée sur les rails.

Les paquets doivent souvent transiter par plusieurs périphériques réseau avant d'atteindre leur destination. Chacun de ces appareils est appelé saut. Une topologie alignée sur rail crée des liaisons réseau dédiées, ou rails, entre les GPU qui minimisent le nombre de sauts que les données doivent parcourir, ce qui améliore les performances de la charge de travail.

Google utilise les cartes d'interface réseau ConnectX de Nvidia, ou NIC, pour coordonner le trafic GPU. Une carte réseau est une puce ou un ensemble de puces sur une carte qui agit comme une interface entre un serveur et le réseau du centre de données auquel il est connecté. Les puces ConnectX fonctionnent aux côtés des cartes réseau Titanium développées en interne par Google. Les instances A4X Max utilisent ces derniers modules pour traiter le trafic entre les GPU et les systèmes externes tels que d'autres services Google Cloud.

Thinking Machines utilise déjà plusieurs de ces services pour exécuter ses charges de travail. L'entreprise conserve les informations dans Google Cloud Storage, la base de données relationnelle Spanner et un cache personnalisé. Il s'appuie sur un quatrième service Google Cloud appelé Cluster Director pour résoudre automatiquement certains problèmes techniques.

Le partenariat intervient quelques semaines après la révélation de Thinking Machines un « investissement important » de Nvidia. L’injection de liquidités fait partie d’un accord plus large qui verra la startup acheter du matériel pour des milliards de dollars. L'un des produits Nvidia que Thinking Machines envisage d'adopter est Rubin, le successeur de la carte graphique Blackwell Ultra qui alimente les instances A4X Max de Google.

Google Cloud signe un accord d'infrastructure d'IA avec Thinking Machines

Image: Google