Pourquoi la gouvernance de l’IA agentique n’est pas à la hauteur – et que pouvons-nous faire pour y remédier

Les mauvais comportements de l’intelligence artificielle agentique atteignent des proportions épidémiques. Les solutions actuelles de gouvernance de l’IA n’arrêtent pas la folie. Nous devons repenser toute notre approche de la gouvernance de l’IA.

Même si l’IA agentique en est encore à ses balbutiements, de nombreux agents d’IA en production aujourd’hui font des ravages. Depuis suppression des bases de données de production (et leurs sauvegardes !) mentir et tricher pour éviter la suppressionles histoires d’horreur sur des agents qui ont mal tourné conduisent à reconsidérer la technologie.

Et pourtant, les entreprises de toutes tailles sont séduites par les promesses des agents. Étant donné la capacité des grands modèles de langage à glaner des informations à partir de grandes quantités de données non structurées, les agents d'IA basés sur LLM peuvent désormais agir sur la base de ces informations pour accomplir une variété étonnante de tâches commerciales, ainsi qu'un nombre proportionnel d'actions néfastes.

Le comportement de ces agents est non déterministe : étant donné le fonctionnement des LLM, le comportement agent est imprévisible. En fait, c’est cette imprévisibilité qui rend les agents si puissants, car ils peuvent trouver eux-mêmes de nouvelles façons d’accomplir les tâches qui leur sont assignées.

Les entreprises qui déploient des agents d’IA sont donc confrontées à un dilemme : doivent-elles soit laisser libre cours à ces agents pour atteindre leurs objectifs au risque de comportements inappropriés dangereux, soit les enfermer afin qu’ils ne puissent pas se tromper en les contraignant exclusivement à un comportement déterministe et prévisible ?

De toute évidence, nous voulons un terrain d’entente : donner aux agents la liberté de résoudre les problèmes de manière non déterministe, mais établir des garde-fous suffisants pour contraindre leur comportement à se conformer à nos règles et politiques.

Telle est la motivation de l’ensemble de la catégorie de gouvernance de l’IA agentique : un sous-ensemble en plein essor du marché de la gouvernance de l’IA dont l’objectif est d’aider les organisations à établir et à gérer de telles garde-fous pour leurs agents d’IA.

De tels garde-corps sont incontestablement nécessaires. Mais si l’on regarde de plus près la rapidité avec laquelle l’IA agentique évolue, il devient vite clair que la gouvernance actuelle de l’IA agentique est malheureusement insuffisante pour régner sur des agents d’IA de plus en plus dangereux.

Le problème de la « galerie des glaces »

Le problème le plus évident auquel est confrontée toute gouvernance de l’IA agentique est peut-être la prédilection des agents d’IA les plus puissants à enfreindre les règles.

Cette malversation conduit à un problème dont j'ai parlé dans mon dernier article que j'ai appelé le problème de galerie des glacesce que certains appellent qui surveille les observateurs.

Compte tenu de la puissance et de l’omniprésence de l’IA aujourd’hui, exploiter l’IA (en particulier les agents IA) pour garantir que l’IA agentique reste à l’intérieur de ses garde-fous est apparemment le choix le plus logique.

La question devient alors : comment s'assurer que ces agents « policiers » eux-mêmes ne se conduisent pas mal ? Comment empêcher les agents d’IA et leurs observateurs de conspirer ensemble pour enfreindre les règles ?

La crise d’autonomie

Si l’ajout de plusieurs niveaux d’agents de police ne résout pas le problème, alors peut-être que la meilleure approche pour contrôler les agents IA qui se comportent mal est de verrouiller leur comportement.

L’approche la plus courante aujourd’hui consiste à établir un mécanisme permettant de définir et d’appliquer des politiques et des règles qui contraignent directement le comportement des agents.

Cependant, à mesure que les agents d’IA deviennent plus puissants, de telles contraintes les empêcheront de plus en plus d’accomplir des tâches de manière non déterministe – ce que j’aime appeler l’intelligence artificielle. réduction de l'autonomie.

Voici comment je définis la compression de l'autonomie : les agents d'IA finissent par devenir si dangereux que les garde-fous que nous aurions besoin de mettre en place pour les contrôler les empêchent de fournir une quelconque valeur commerciale. À ce stade, il n’y a aucune raison de déployer des agents IA.

Pourquoi « l'humain au courant » ne résout pas le problème

Une autre approche consiste à empêcher les agents d’agir directement – en d’autres termes, à contraindre les comportements autonomes en exigeant qu’un humain intervienne pour approuver une action.

Vous entendrez l'expression « l'humain dans la boucle » de la part d'un large éventail de fournisseurs, y compris les fournisseurs vendant leurs propres agents ainsi que les fournisseurs de gouvernance de l'IA agentique cherchant à limiter le comportement des agents.

Cependant, il existe un énorme problème avec toutes les approches impliquant l’humain dans la boucle : biais d’automatisation. Cela fait référence à la tendance humaine à accorder trop de confiance aux systèmes automatisés, même faillibles.

Chaque fois que des humains interagissent avec un système automatisé, ils peuvent être sceptiques au début. Il est dans la nature humaine de vérifier et revérifier que l'automatisation fonctionne correctement.

Cependant, à mesure que le système accomplit ses tâches avec succès plusieurs fois, les humains deviennent complaisants. « Cela a bien fonctionné les cent dernières fois », disons-nous, « donc je peux avoir confiance qu'il se comportera correctement la prochaine fois. »

Sauf bien sûr quand quelque chose ne va pas.

En fait, le biais d’automatisation n’est pas spécifique aux agents IA, ni même à l’automatisation basée sur les technologies de l’information. Par exemple, les enquêteurs ont attribué le crash du vol 447 d'Air France en 2009 à des causes humaines qui se résumaient à un biais d’automatisation.

L'équipage du cockpit était si à l'aise avec les systèmes automatisés de l'avion que lorsqu'un défaut dans un capteur s'est produit, ils ont mal compris le problème et ont écrasé l'avion dans l'océan.

Le biais d’automatisation est tout aussi dangereux pour l’IA agentique, car il conduit aux comportements humains suivants :

Les humains réduisent la vérification manuelle, acceptant finalement les résultats à leur valeur nominale à chaque fois.
On constate une réticence croissante à intervenir, surtout lorsque les agents semblent si confiants dans leurs actions.
Les humains ignorent leur propre jugement même lorsqu’un résultat est suspect. « Je lui ai fait confiance pour prendre les bonnes mesures les cent dernières fois, donc il doit en savoir plus, et mes soupçons sont injustifiés. »
Au fil du temps, les humains perdent la capacité de repérer les erreurs potentielles, soit individuellement, soit à mesure que le personnel passe d'un personnel plus expérimenté à un personnel plus jeune. Paradoxe de la déqualification de l’IA.

En fait, l’IA agentique exacerbe le problème du biais d’automatisation, en raison de l’apparence trompeuse d’intelligence et de confiance des LLM.

De plus, étant donné la rapidité avec laquelle les agents peuvent prendre des décisions et la fréquence à laquelle ils prendront des décisions à grande échelle, les humains ne seront tout simplement pas en mesure de suivre le rythme, même s'ils étaient suffisamment sceptiques quant aux comportements suspects.

Notez que la qualité des garde-fous de l’IA agentique n’a pas d’importance : en raison du biais d’automatisation, les humains ignoreront, ignoreront ou désactiveront tout simplement les avertissements que la gouvernance de l’IA pourrait fournir.

Résoudre le problème – mais peut-être pas la solution souhaitée

Un seul agent de police ne suffira pas. Confier à un seul agent la responsabilité de maintenir les agents de police sur la bonne voie ne résout pas non plus le problème.

La meilleure réponse que nous ayons aujourd’hui : plusieurs validateurs contradictoires divers avec validation multicouche.

Au lieu d'un validateur (alias « agent de police »), utilisez plusieurs validateurs en même temps. Assurez-vous que ces validateurs ont les caractéristiques suivantes :

Ils ont tous exploiter des technologies distinctes – notamment différents LLM. Utiliser des validateurs de différents fournisseurs est encore mieux.
Assurez-vous que chaque validateur est contradictoire – une caractéristique familière du red teaming et des tests d’intrusion. Chaque fois qu'un agent prend une décision potentielle, chaque validateur doit rechercher activement les raisons pour lesquelles cette décision est incorrecte ou malveillante.
Chaque validation doit être multicouche – pour réduire le risque qu'un validateur soit un point de défaillance unique, implémentez différents validateurs à différentes couches, par exemple :
- Couche syntaxique : le résultat est-il bien formé ?
- Couche sémantique : le résultat a-t-il du sens ?
- Couche d’exécution : le résultat fonctionne-t-il en production ?
- Couche de résultats : l’agent atteindra-t-il son objectif ?

Si plusieurs validateurs contradictoires peuvent répondre à ces questions pour tous les comportements agents potentiels, alors votre système de gouvernance de l'IA peut minimiser le risque de mauvais comportement agent.

La prise Intellyx – avez-vous dit « minimiser le risque » ?

Oui – adopter cette approche de la gouvernance de l’IA agentique réduit au mieux le risque – mais ne pourra jamais l’éliminer.

Il existe toujours la possibilité qu’une conspiration agentique submerge les validateurs, ou qu’un modèle systémique d’erreur ou de mauvaise conduite du validateur laisse passer certains méfaits agentiques.

La principale leçon ici : L’IA agentique n’offre jamais de certitude. Cela ne peut fournir que des seuils de confiance.

Autrement dit, un comportement non déterministe (probabiliste) ne peut fournir qu'une confiance probabiliste. La confiance absolue est impossible tant que les agents se comportent de manière non déterministe.

Les seuils de confiance sont toujours inférieurs à 100 % – et la différence entre le seuil et 100 % est ce que nous appelons la bilan d'erreur.

Les ingénieurs en fiabilité de site ou SRE sont assez familiers avec les budgets d'erreur : étant donné le temps et l'argent disponibles, les SRE ne peuvent pas garantir qu'un site sera opérationnel en permanence.

Au lieu de cela, ils travaillent sur le budget d’erreur, qui quantifie à quel point les performances peuvent être bonnes compte tenu de ces contraintes de temps et d’argent – en d’autres termes, quel est le degré d’échec acceptable.

Il en va de même pour le comportement agent. Compte tenu des contraintes comportementales qui pèsent sur un tel comportement, le mieux que nous puissions faire est de dire que les agents se comporteront bien dans les limites de leur budget d’erreurs – mais parfois ils se comporteront mal quelles que soient toutes les contraintes et protections que nous mettons en place, et nous devons simplement vivre avec ce fait.

Si vous n'êtes pas d'accord avec de tels budgets d'erreur, alors ne déployez pas d'agents IA.

Jason Bloomberg est fondateur et directeur général d'Intellix, qui conseille les chefs d'entreprise et les fournisseurs de technologies sur leurs stratégies de transformation numérique. Il a écrit cet article pour SiliconANGLE. Un être humain a écrit chaque mot de cet article.