Ingénierie d'évaluation : la pièce manquante de la gouvernance de l'IA agentique

À mesure que les agents d'intelligence artificielle deviennent plus puissants, la gouvernance de l'IA agentique devient de plus en plus importante. Et pourtant, les solutions de gouvernance actuelles ont du mal à empêcher les agents d'IA de dérailler.

Dans mon dernier article de cette sériej'ai discuté de l'état de l'art pour garder les agents sur les rails : plusieurs validateurs contradictoires divers avec validation multicouche.

L'idée est simple : pour garder les agents sur la bonne voie sans limiter leurs capacités, déployez plusieurs agents validateurs indépendants qui évaluent les performances de chaque agent, à la recherche de problèmes.

Ce n’est que lorsqu’un nombre suffisant de validateurs conviennent que l’agent fonctionne correctement qu’il peut poursuivre sa tâche.

Cependant, pour l’essentiel, cette vision de la gouvernance de l’IA agentique est encore à l’état de projet. Seuls quelques fournisseurs mettent en œuvre des validateurs de différents niveaux de maturité.

Après avoir interrogé plusieurs de ces fournisseurs, un goulot d'étranglement commun apparaît : tirer parti des validateurs pour gérer les orchestrations agentiques est trop lent et coûteux pour prendre en charge les exigences d'automatisation modernes. L’état de l’art en matière de gouvernance centrée sur les validateurs propose donc des moyens de contourner ces latences et ces goulots d’étranglement de consommation de jetons.

Voici quelques-uns des fournisseurs qui s’attaquent à ce problème aujourd’hui :

Ingénierie d'évaluation : comment créer des validateurs

Les agents capables d'évaluer les performances et le comportement d'autres agents effectuent évaluations de ces agents, et c'est pourquoi les vendeurs appellent la pratique consistant à les construire ingénierie d'évaluation.

Les validateurs qui garantissent que les agents se comportent correctement constituent donc un type d’évaluation. L’ingénierie d’évaluation est plus large que la pratique de la gouvernance de l’IA agentique, bien que les deux soient étroitement liées.

D'une manière générale, l'ingénierie d'évaluation se concentre sur la conception, l'exécution et la mise en œuvre d'évaluations de grandes applications de modèles de langage en général et d'applications agentiques en particulier.

La technique de notation « LLM-as-a-juge » est particulièrement utile pour créer des évaluateurs d'IA agentique. Grâce à cette technique, les ingénieurs peuvent évaluer la qualité, l'exactitude et la pertinence du résultat d'un agent (ou d'une autre application d'IA).

Les ingénieurs d'évaluation combinent la notation LLM en tant que juge avec les tests logiciels et l'observabilité pour créer des évaluations LLM.

Ingénierie d'évaluation pour les tests

L'application la plus simple de l'ingénierie d'évaluation concerne le test des agents d'IA avant leur déploiement en production. L'utilisation d'évaluations pour les tests évite les goulots d'étranglement en termes de performances et de coûts liés à l'ingénierie d'évaluation, car elles ne s'exécutent pas en production.

Les ingénieurs d'évaluation exécutent des pipelines d'évaluation structurés sur une variété d'ensembles de données sélectionnés, notamment des entrées normales, extrêmes et contradictoires. Grâce à la notation LLM en tant que juge, les ingénieurs peuvent mesurer la précision, l'achèvement des tâches, la latence, la conformité aux politiques et d'autres mesures de qualité critiques dans le cadre du processus d'ingénierie.

L’utilisation de l’ingénierie d’évaluation pour les tests est relativement courante. Mes recherches ont révélé plusieurs fournisseurs offrant cette fonctionnalité, notamment Comète ML Inc., Confiant AI Inc., Évidemment, AI Inc., GoodEye Labs Inc. et l'open source Projet MLflowune série de LF Projects LLC de la Linux Foundation, entre autres. Je prévois d'écrire un article couvrant ces fournisseurs (et tous ceux que j'ai manqués) dans un prochain article.

Ingénierie d'évaluation pour l'aide à la décision

L'objectif de nombreux systèmes agentiques est d'orchestrer le comportement autonome des agents pour fournir des automatisations. Cependant, plus le workflow d’automatisation est sophistiqué, plus il est probable qu’un agent de ce workflow dérailler et prenne une action indésirable.

J'ai parlé à Dany Kitishian, fondateur et directeur général de Klover Intelligence Corp., qui exerce ses activités sous le nom de Klover IA. Il a expliqué qu'au lieu de se concentrer sur l'automatisation, son entreprise exploite l'ingénierie d'évaluation pour fournir des réponses aux requêtes plus précises que celles que les LLM seuls peuvent généralement offrir.

Sa plate-forme prend des données d'entrée, extrait et évalue chaque fait contenu dans ces données, analyse chaque fait pour en vérifier l'exactitude dans le contexte de points de vue opposés, puis fournit des réponses bien argumentées basées sur cette analyse.

Pour Klover, l'évaluation est un cadre à plusieurs niveaux qui teste l'exactitude et l'alignement avec les résultats du monde réel, fournissant un système de décision mesurable plutôt que des flux de travail d'IA agentique autonomes potentiellement dangereux.

Étant donné que Klover exploite des ensembles de données organisés et ne participe pas à des automatisations urgentes, les limites de coût et de temps de l'ingénierie d'évaluation ne posent pas de problèmes à ses clients.

Ingénierie d'évaluation pour les tests et la gouvernance des agents tout au long du cycle de vie

Les goulots d'étranglement les plus importants en termes de coûts et de délais pour l'ingénierie d'évaluation limitent la gouvernance des flux de travail agentiques en production. Le plus grand défi (et la plus grande promesse) de l'ingénierie d'évaluation est donc de prendre en charge la gouvernance de l'IA agentique sur tout le cycle de vie.

Cependant, sans ingénierie d’évaluation, il serait impossible de mettre en œuvre les divers validateurs contradictoires si importants pour une gouvernance réussie, limitant ainsi la capacité des fournisseurs à fournir des solutions efficaces de gouvernance d’IA agentique à grande échelle.

Les ingénieurs d'évaluation doivent effectuer des évaluations tout au long du cycle de vie des agents, en évaluant de manière itérative les performances des agents individuellement ainsi que les flux de travail agents pour en vérifier l'exactitude et l'alignement avec les objectifs. Le processus d'évaluation doit détecter automatiquement les dérives et autres défaillances, et renvoyer ces informations dans le processus d'intégration continue/de livraison continue ou de CI/CD.

Dans mon entretien avec Vaibhavi « VG » Gangwar, co-fondateur et PDG de H3 Labs Inc., faisant affaire sous le nom de Maxime IAelle a expliqué comment son entreprise combine l'ingénierie d'évaluation avec l'ingénierie rapide, l'observabilité et les simulations pour aider les équipes d'ingénierie à construire des systèmes agentiques fiables via des tests, une surveillance et un débogage continus.

Maxim AI combine des évaluations « hors ligne » (pendant le développement) ainsi que des évaluations « en ligne » pendant la production. Les évaluations hors ligne se concentrent sur le test du comportement des agents, tandis que les évaluations en ligne fonctionnent hors bande pour fournir des niveaux de confiance dans le comportement des agents en question.

En d’autres termes, Maxim utilise une approche basée sur l’échantillonnage pendant la production pour réduire les coûts des jetons et éviter de ralentir l’exécution des flux de travail agentiques, en concentrant ses évaluations sur les interactions à haut risque.

Plusieurs autres fournisseurs exploitent l’ingénierie d’évaluation pour la gouvernance de l’IA agentique sur le cycle de vie complet. Arize AI Inc. offre une plateforme d'observabilité et d'évaluation pour les systèmes d'IA de production, y compris les flux de travail d'IA agentique.

Arize s'attaque aux défis de performance liés à l'exécution d'évaluations en production en proposant une surveillance légère et continue, réservant les évaluations LLM en tant que juge aux situations à haut risque, tout comme le fait Maxim.

Conscium Ltd. évite également de limiter les performances des évaluations en production en fournissant des simulations virtuelles contrôlées qui peuvent identifier les comportements agents dangereux, les dérives d'objectifs et les violations de politiques.

Confiant AI Inc. combine les métriques LLM-as-a-juge avec l'observabilité, le traçage et la surveillance en temps réel pour évaluer le comportement agent. Il renvoie ensuite les résultats des interactions de production dans des ensembles de données d'évaluation en cours.

Confident AI se présente comme une plate-forme d'évaluation prioritaire, car elle aide les ingénieurs à tester, surveiller et améliorer les systèmes agents tout au long du cycle de vie complet de développement et de production à l'aide d'évaluations automatisées, d'ensembles de données organisés et de flux de travail de test reproductibles.

Pour résoudre les problèmes de latence et de coûts liés à l'ingénierie d'évaluation en production, la société déplace la plupart des évaluations vers des pipelines d'observabilité asynchrones. Comme Maxim AI, Confident AI exploite l'échantillonnage du trafic ainsi que la collecte ciblée de métriques pour réduire la surcharge de calcul.

Résoudre le goulot d'étranglement coût/performance des évaluations

Parmi les fournisseurs que j'ai recherchés pour cet article, celui qui se démarque par sa réponse la plus avancée au goulot d'étranglement coût/performance est Galileo Technologies Inc., faisant affaire sous le nom de Galilée IA. Pour comprendre en quoi la solution de Galileo AI diffère de celle de ses concurrents, il est important de comprendre la recherche et l'innovation qui sous-tendent sa solution.

Comme l'expliquent Atindriyo « Atin » Sanyal, co-fondateur et directeur des produits, et Jason Garoutte, directeur du marketing, l'histoire de Galileo commence avec Sondage en chaîne. ChainPoll est une méthodologie de détection d'hallucinations qui combine raisonnement en chaîne de pensée et vote pour fournir des résultats performants.

Le raisonnement en chaîne de pensée nécessite que les modèles d'évaluateur expliquent leur raisonnement étape par étape. L'interrogation signifie que le système exécute des évaluations plusieurs fois (en exploitant éventuellement différents modèles), puis agrège les résultats.

ChainPoll fournit ainsi une méthodologie pour réduire les coûts et les performances des évaluations tout en régissant les flux de travail agentiques et met également en place un cadre pour coordonner plusieurs évaluations. En exploitant ChainPoll, Galileo AI a ensuite développé Luna, un modèle d'évaluation spécialement conçu pour détecter les hallucinations dans les résultats du LLM, y compris les requêtes prises en charge par la génération augmentée par récupération ou par la génération augmentée par récupération.

Là où ChainPoll fournit une méthodologie pour fournir des résultats oui/non ou réussite/échec des évaluations, Luna propose un modèle spécialisé qui tient la promesse de ChainPoll avec une empreinte de consommation de jetons nettement inférieure à celle que les LLM concurrents peuvent offrir.

Tirant parti des leçons de ChainPoll et de la puissance et de l'efficacité de Luna, Galileo AI implémente une fonctionnalité spécialisée de modèle en tant que juge pour une infime fraction du coût et de la latence des alternatives LLM en tant que juge qui souffrent des frais généraux des LLM à usage général.

Contrairement aux produits concurrents, Galileo AI est en mesure d'offrir une observabilité agentique avec un échantillonnage à 100 % en production, sans nécessiter d'évaluations asynchrones, hors bande ou exploitant uniquement un sous-ensemble de télémétrie disponible.

Avec Galileo AI, les ingénieurs d'évaluation peuvent répéter rapidement leurs évaluations, en intégrant des commentaires pour affiner Luna afin de résoudre certains des problèmes les plus épineux liés aux agents qui se comportent mal, notamment l'excès de confiance, le comportement flagorneur et leur tendance agaçante à enfreindre les règles.

Compte tenu du comportement non déterministe inhérent aux agents d’IA, aucune gouvernance de l’IA agentique n’est parfaite, y compris Galileo AI. Cependant, en raison de son approche hautement efficace ainsi que de sa capacité à tirer parti des évaluations de chaîne de pensée pour gouverner les tâches agentiques au sein des flux de travail, Galileo AI est en mesure de fournir une gouvernance agentique optimisée qui donne à ses clients une visibilité et un contrôle sur les agents IA les plus vilains.

La prise Intellyx

Bien que je me sois concentré sur les startups pour cet article, il existe également des innovations en matière d'ingénierie d'évaluation chez de plus grands fournisseurs, notamment Google LLC, Microsoft Corp. et IBM Corp. Compte tenu de la domination des principaux modèles pionniers sur le marché de l'IA, de nombreux fournisseurs de LLM ont également la main dans le gâteau de l'ingénierie d'évaluation.

Cisco Systems Inc. lance également son chapeau dans le ring en acquisition de Galileo AI. Cette transaction est imminente et promet d'intégrer la startup au sein de l'organisation Splunk de Cisco.

Cependant, le principal point à retenir de cet article n’est pas l’état de l’innovation en matière de gouvernance de l’IA agentique. Il s'agit plutôt des problèmes croissants de coût et de latence inhérents aux offres basées sur LLM.

Après tout, ces défis concernent l’ensemble du secteur et ne font qu’empirer. À mesure que les LLM deviennent plus puissants et consomment donc plus de jetons, les organisations rechercheront des moyens de plus en plus rentables d'extraire de la valeur des LLM et de l'IA en général.

En d’autres termes, dans le triangle éternel meilleur-plus rapide-moins cher, les LLM passent du coin du « meilleur » au « plus rapide et moins cher » – un véritable signe que la technologie atteint un niveau de maturité.

Il existe de nombreux fournisseurs que je n'ai pas pu intégrer dans cet article. Si vous pensez que vous avez votre place, ou si je vous ai mentionné mais ne vous ai jamais parlé, je veux avoir de vos nouvelles. Envoyez-moi un email à [email protected] et nous pouvons organiser un briefing.

Jason Bloomberg est fondateur et directeur général d'Intellix, qui conseille les chefs d'entreprise et les fournisseurs de technologies sur leurs stratégies de transformation numérique. Il a écrit cet article pour SiliconANGLE. IBM, Microsoft et Splunk sont d'anciens clients d'Intellix. Un humain a écrit chaque mot de cet article.