ChatSee.AI Inc., une société qui fournit une couche d'intelligence des pannes pour les systèmes d'intelligence artificielle autonomes, a levé 6,5 millions de dollars en financement de démarrage.
Les agents d'IA arrivent déjà aux portes des équipes d'entreprise via Microsoft Corp. Copilot, Databricks Inc. Genie, Snowflake Inc., Workday Inc., OpenAI Group PBC, Anthropic PBC et des versions internes. Cela ne reflète même pas l'écosystème croissant de projets open source, notamment OpenClaw, NemoClaw, Hermes et autres. Les agents sont là et ils représentent une réalité opérationnelle.
À mesure que les entreprises font passer leurs agents du stade pilote à la production, le défi de leur gouvernance et de leur contrôle passe de la question de savoir si elles peuvent les construire et les tester en simulation à celle de savoir si elles peuvent leur faire confiance avec de vrais clients et le travail des employés.
« Ils se rendent tous compte qu'il s'agit d'une infrastructure non déterministe et qu'ils ne peuvent pas se sortir des échecs par des tests », a ajouté Sarukkai.
Sarukkai a déclaré que ChatSee entre dans l'industrie pour gérer le « déficit de confiance » avec ce qu'il décrit comme une couche d'intelligence des échecs – un modèle conçu pour observer quand les agents échouent et préserver le contexte environnant, capturer comment les problèmes ont été résolus et transmettre les connaissances afin que les futures actions des agents puissent éviter cet échec.
Au-delà de l’observabilité, la vision est de fournir un auto-apprentissage et une adaptabilité à grande échelle.
Sous le capot, ChatSee utilise une taxonomie fondée sur la collecte de plus de 10 000 exemples concrets de défaillances d’agents d’entreprise et leur classification en 157 catégories. Il s'agit notamment des échecs d'appel d'outils et des échecs au cours de phases telles que la définition de la portée, le raisonnement et l'exécution. Les catégories déplacent la portée de l'observation et de la correction des défaillances de la surveillance du premier mode de défaillance de l'industrie – les hallucinations – à un ensemble plus large de problèmes tout aussi subtils.
Là où le caoutchouc agent rencontre la route
Au cours des dernières années, les équipes commerciales sont passées de l'utilisation de l'IA pour alimenter les chatbots à la conduite d'agents entièrement autonomes qui prennent des mesures de manière autonome, répartissent les tâches et gèrent des activités à long terme. Beaucoup d’entre eux sont désormais intégrés directement dans les opérations de base, là où les problèmes subtils ne sont pas immédiatement visibles ; un désalignement mineur à l’échelle peut devenir un problème majeur s’il n’est pas surveillé.
« Ce ne sont pas des agents de support conversationnel classiques », a déclaré Sarukkai. « Ceux-ci soutiennent réellement notre activité principale. »
Dans de nombreux cas d'utilisation, les agents d'IA sont déployés dans le commerce électronique et les services financiers, offrant des capacités de prise de décision telles que la validation des catalogues, la tarification, l'étiquetage des transactions et la classification des codes marchands. Que se passe-t-il lorsqu’un agent se trompe subtilement sur un code commerçant et que cela se propage ? Lorsqu'un humain détecte et corrige le problème, cette correction doit également se propager à tous les agents travaillant dans le système.
« Considérez-le comme une base de connaissances sur les échecs… à laquelle l'agent peut être configuré au niveau de la plate-forme pour référencer », a déclaré Sarukkai.
Cela signifie que si un agent du système rencontre un problème, est corrigé par un humain, échoue à plusieurs reprises dans un appel d'outil, change de comportement pour que les appels d'API commencent à s'interrompre, etc., il se corrige automatiquement. Si ces corrections sont critiques ou deviennent une tendance, elles sont envoyées à une autorité centrale que d'autres agents peuvent vérifier pour devenir les meilleures pratiques à l'avenir.
« L'intelligence n'est pas perdue », a expliqué Sarukkai à propos de la vision. « Nous continuons à développer cette intelligence des échecs, à la fois à partir des humains et de notre propre jugement. »
La proposition fondamentale de ChatSee est que les entreprises créent et déploient davantage d’agents IA. La couche d’outillage qui les entoure est toujours en train de rattraper son retard. Des startups telles que Voker créent des plateformes pour comprendre les performances des agents dans la nature, tandis que Respan se concentre sur l'observabilité proactive et l'analyse des causes profondes lors des essais d'agents. De même, le lancement de l'observabilité de l'IA par Monte Carlo Data Inc. montre que les fournisseurs d'observabilité des données s'étendent aux entrées, aux sorties et à la surveillance de la qualité de l'IA.
« La plupart des risques les plus importants liés à l'IA apparaissent au moment de l'exécution, alors que les agents fonctionnent de manière autonome », a déclaré le PDG du cabinet de recherche et de conseil TAG-infosphere Inc., le Dr Eduard Amoroso. « Étant donné que ces systèmes sont probabilistes et adaptatifs, les tests statiques seuls ne suffisent pas. Cela rend nécessaire une garantie d'exécution continue dans tous les flux de travail de l'entreprise. »
L'entreprise considère que la tendance se dirige vers l'observabilité, qui indique aux équipes ce qui s'est passé, et l'évaluation indique aux équipes si l'agent a bien performé. L’entreprise veut devenir une couche de mémoire sur ce qui a échoué, pourquoi cela a échoué et comment éviter que cela ne se reproduise.
L'industrie s'oriente vers des agents qui s'auto-apprennent et s'auto-réparent, et à mesure que de plus en plus d'agents coopèrent, opèrent en essaims et travaillent aux côtés des humains, il y aura davantage d'opportunités pour des capacités riches qui permettront aux agents de collaborer pour effectuer leur travail et éviter les erreurs du passé.