Thinking Machines lance un nouveau modèle hautement réactif conçu pour des interactions humaines en temps réel

Thinking Machines Lab Inc., la start-up de recherche en intelligence artificielle fondée par Mira Murati, ancienne directrice de la technologie d'OpenAI Group PBC, souhaite dépasser l'ère des interactions d'IA « au tour par tour ». La société vient d’annoncer un aperçu de ses premiers « modèles d’interaction », une nouvelle classe de systèmes d’IA multimodaux conçus pour éviter les inévitables pauses qui caractérisent les interactions humaines avec les systèmes d’IA.

Comme le savent tous ceux qui utilisent régulièrement l’IA, l’interaction de base est au mieux inégale : l’utilisateur fournit une entrée, telle qu’un texte ou un téléchargement d’image, puis attend de quelques millisecondes à plusieurs minutes, selon le modèle utilisé, avant de finalement recevoir la sortie.

Cela se produit parce que les modèles existants doivent attendre que leurs utilisateurs aient fini de poser une question ou de compléter la phrase qu'ils prononcent avant de pouvoir commencer à traiter une réponse. Pour contourner ce problème, Thinking Machines a créé une toute nouvelle architecture de modèle qui permet une communication « full-duplex », c'est-à-dire une IA capable d'écouter, de voir et de parler simultanément.

Thinking Machines soutient que les interactions aller-retour avec les modèles actuels obligent les utilisateurs humains à se « contorsionner » face à l’interface. Au cours de plusieurs mois d'utilisation, les humains ont appris à formuler leurs questions comme des e-mails et à regrouper leurs pensées, car ils savent que l'IA qu'ils utilisent ne peut pas gérer les interruptions ni gérer les subtils « backchanneling » ou les « mhmms » et « je vois » qui existent dans les interactions humaines véritablement naturelles. Mais si l’IA veut devenir une véritable collaboratrice à l’image de l’humain dans des applications à enjeux élevés comme la chirurgie médicale, elle doit trouver un moyen de réduire ce retard.

La réponse de la société est une nouvelle architecture de modèle qui abandonne la séquence de jetons alternés standard au profit d'une conception micro-tour par tour multiflux plus grande. La façon dont cela fonctionne est que le système traite les entrées et les sorties par petits morceaux de 200 millisecondes, ce qui lui permet de réagir en temps réel à tout signal visuel ou auditif qu'il capte, même lorsqu'il parle déjà. La startup affirme que cette architecture « double modèle » est conçue pour équilibrer vitesse et raisonnement approfondi.

Le premier composant de cette nouvelle architecture est TML-Interaction-Small, un modèle de mélange d'experts de 276 milliards de paramètres conçu pour gérer le dialogue, la présence et les suivis immédiats avec une rapidité rapide. Il est associé à un agent asynchrone conçu pour fonctionner en coulisses. Ainsi, tandis que le modèle d'interaction maintient la conversation fluide, le modèle d'arrière-plan s'occupe de tout le gros du travail : le raisonnement complexe, les recherches sur le Web et les appels d'outils nécessaires pour faire avancer les choses ou les résoudre. Il peut ensuite envoyer ses conclusions au modèle d'interaction lorsqu'il est prêt, et celles-ci seront intégrées au chat en direct.

Dans un article de blog, la société a expliqué qu'au lieu d'utiliser des encodeurs externes lourds pour traduire l'audio ou la vidéo en signaux que le modèle peut comprendre, elle utilise une « fusion précoce sans encodeur » qui capte les signaux bruts directement via une couche d'intégration légère. Tout est traité rapidement au sein du transformateur, ce qui lui confère un tel avantage en termes de latence.

Thinking Machines affirme que cette architecture à double modèle donne des résultats impressionnants. Sur FD-bench, une référence conçue pour mesurer la qualité des interactions de l'IA, TML-Interaction-Small a atteint une latence de moins de 0,4 seconde, bien devant Gemini-3.1-flash-live de Google LLC, qui a atteint 0,57 seconde, et GPT-realtime-2.0, qui a obtenu un score de seulement 1,18 seconde.

Même si la plupart des gens apprécieront les chatbots plus rapides, les implications les plus significatives pourraient être trouvées dans les applications d'entreprise. Les modèles capables de voir et de réagir en temps réel ouvrent la voie à des possibilités qui n'existent tout simplement pas face à la latence des modèles actuels. Par exemple, un modèle d'interaction natif pourrait être mis en place pour surveiller un flux vidéo dans un laboratoire ou une usine de fabrication et alerter les humains dès qu'une violation de la sécurité se produit, plutôt que d'attendre qu'un superviseur humain passe devant et le voie de ses propres yeux. Dans le service client, la latence plus faible peut contribuer à faire en sorte que les appels ressemblent davantage à de vraies conversations.

Ce qui est particulièrement utile, c'est que les modèles de Thinking Machine ont une notion interne du temps, ce qui leur permet de gérer les demandes urgentes. Un utilisateur dans un laboratoire pourrait demander à un modèle de « m'alerter si cette réaction chimique prend plus de temps que la précédente », sans avoir besoin de fournir d'horodatage dans l'invite.

Thinking Machines indique que TML-Interaction-Small et son modèle d'arrière-plan de partenariat ne sont mis à la disposition d'un nombre sélectionné de partenaires que pendant la phase de prévisualisation de la recherche, avec une sortie publique prévue plus tard dans l'année.

Thinking Machines lance un nouveau modèle hautement réactif conçu pour des interactions humaines en temps réel

Image principale : SiliciumANGLE/Gemini