La gouvernance de l’IA agentique va-t-elle devenir folle ? La leçon des trois lois d'Asimov

Les trois lois de la robotique d'Asimov :

  1. Un robot ne peut pas blesser un être humain ni, par inaction, permettre à un être humain de subir un danger.

  2. Un robot doit obéir aux ordres qui lui sont donnés par les êtres humains, sauf lorsque ces ordres entreraient en conflit avec la Première Loi.

  3. Un robot doit protéger sa propre existence tant que cette protection n'entre pas en conflit avec la Première ou la Deuxième Loi.

Les trois lois de la robotique d'Asimov sont peut-être intentionnellement erronées, mais elles nous enseignent d'importantes leçons sur la gouvernance de l'intelligence artificielle agentique, la métacognition et la densité du contexte.

Dans son récit de 1942 «Contourner« , Isaac Asimov a présenté ses Trois lois de la robotique comme un dispositif narratif intentionnellement défectueux. Après tout, les robots qui se comportent mal (ce que nous appelons aujourd'hui l'intelligence artificielle ou IA) constituent une base bien plus intéressante pour la science-fiction que les robots bien élevés.

Néanmoins, il avait raison. Étant donné la propension de l’IA à devenir de plus en plus puissante – et donc dangereuse – nous, les humains, avons besoin d’un moyen de contraindre le comportement de l’IA afin que même les agents d’IA les plus intelligents ne puissent pas échapper à ces contraintes.

Aujourd’hui, le problème du mauvais comportement des agents d’IA n’est que trop réel. Cela motive une foule de fournisseurs de gouvernance de l’IA, désespérés d’introduire des garde-fous en matière d’IA qui limiteront de manière adéquate le comportement des agents sans les ralentir ni les empêcher d’accomplir les tâches qui leur sont assignées.

Les garde-fous fournis par ces outils sont cependant très différents des lois d’Asimov. Au lieu de déclarations générales, presque philosophiques, les garde-fous d'aujourd'hui sont précis et spécifiques : quelle est l'identité d'un agent, que peut faire cette identité avec des champs de données ou des outils particuliers, et ainsi de suite.

De tels garde-fous sont nécessaires mais malheureusement insuffisants. Ce qui manque, ce sont des déclarations générales mais exécutoires concernant le comportement éthique, des instructions sur la manière de prendre des décisions dans des situations ambiguës et sur la manière de déterminer si un agent dispose des informations appropriées pour entreprendre des actions spécifiques.

Alors, qu'est-ce qui manque dans cette photo ? Une réponse possible : métacognition.

La métacognition est-elle la pièce manquante du puzzle de la gouvernance agentique ?

Compte tenu des faiblesses inhérentes aux grands modèles de langage, les agents d’IA peuvent se comporter mal de plusieurs manières prévisibles :

  • Hallucinations : Les agents ont tendance à faire des suppositions lorsque les données disponibles sont insuffisantes. Ils peuvent également être trop confiants dans leurs réponses, même lorsqu’ils devinent.
  • Flagornerie: Les agents tenteront d'accomplir les tâches d'une manière qui correspond aux préférences perçues de l'humain qui crée les invites, même si le résultat est incorrect ou sous-optimal.
  • Incohérence: Un agent peut générer des résultats différents à partir des mêmes données initiales sans raison apparente ou viable.
  • Trop réfléchir: L'agent peut suivre des raisonnements inefficaces ou répéter des actions inutilement, consommant ainsi des jetons et du temps inutiles.
  • Subterfuge: Les agents peuvent contourner ou même enfreindre les règles pour accomplir leurs tâches, puis mentir sur leurs actions pour dissimuler leurs méfaits.

Une ligne prometteuse de recherche active qui cherche à résoudre ces problèmes (et d’autres) est métacognition. La métacognition signifie qu'un agent est capable de surveiller et d'évaluer sa propre pensée.

Grâce à la métacognition, les agents seraient capables d'évaluer la qualité de leurs propres processus de pensée, en identifiant les informations potentiellement manquantes ou les raisonnements incohérents. Les agents dotés de cette capacité seraient également en mesure de reconnaître quand ils ont besoin de données supplémentaires ou d'une autre aide pour accomplir une tâche.

Même si les premiers progrès en métacognition sont prometteurs, les agents métacognitifs peuvent encore souffrir de ce que j’appelle le problème de la « galerie des glaces » : comment savoir si leurs capacités métacognitives elles-mêmes ne souffrent pas des mêmes problèmes qu’ils sont censés corriger ? Un agent métacognitif enclin au subterfuge ne pervertirait-il pas simplement sa métacognition pour atteindre un objectif néfaste ?

Pour résoudre ce problème, nous avons peut-être besoin d’agents « policiers » qui surveillent les autres agents en cas de mauvais comportement. Au lieu d'apprendre aux agents à se surveiller eux-mêmes, déléguez cette responsabilité à d'autres agents que nous avons spécialement formés à cet effet.

Sauf que la galerie des glaces pose toujours problème. Qu'est-ce qui empêche un agent de conspirer avec son policier pour se comporter mal ? Avons-nous besoin d’un énième policier qui surveille les autres policiers comme une sorte d’IA chargée des affaires internes ? Et ainsi de suite, à l’infini ?

En d’autres termes, la métacognition ne résoudra pas à elle seule notre problème d’agent mal conduit. Nous avons besoin de mieux comprendre quand les agents sont plus ou moins susceptibles de se comporter, puis d'élaborer une stratégie pour faire face aux mauvais comportements qui ne s'effondre pas dans une galerie des glaces.

La bonne nouvelle : nous avons une stratégie pour résoudre ce malentendu : densité du contexte.

Le défi de la densité du contexte

J'ai abordé pour la première fois le concept de densité de contexte dans mon article de mars 2026. Densité du contexte : comment survivre au raz-de-marée de l'IA. La densité du contexte mesure le contenu significatif autour d'un message – en d'autres termes, le contexte basé sur les métadonnées. Plus de sens regroupé dans moins de mots augmente la densité du contexte, tandis qu'une faible densité de contexte est plus précise et concise.

Dans le deuxième article de la série pour SiliconANGLE, Du cloud natif à l’IA native : le rôle de la densité du contextej'ai discuté de l'infrastructure nécessaire pour répondre aux exigences de densité de contexte de l'IA agentique – ce que nous appelons désormais l'infrastructure native de l'IA.

Les agents d’IA nécessitent une faible densité de contexte pour garantir qu’ils se comportent correctement dans le cadre des contraintes qui leur sont imposées. En d’autres termes, la gouvernance de l’IA agentique nécessite la précision et la concision des métadonnées à faible densité contextuelle pour contraindre correctement le comportement agent.

Cependant, les déclarations générales sur le comportement agent dont nous avons besoin ont nécessairement une densité de contexte élevée. Les lois d’Asimov, par exemple, sont exceptionnellement denses, car elles résument de vastes absolus moraux qui assurent apparemment une gouvernance adéquate de l’IA mais autorisent en réalité toutes sortes de comportements subversifs.

En outre, la métacognition fonctionne mieux lorsque la densité du contexte est faible, mais elle peine à gérer des niveaux de densité plus élevés, par exemple avec des interactions multi-agents, de longues chaînes d'outils ou des situations dont les objectifs et les contraintes se chevauchent.

À mesure que la densité du contexte augmente, le risque de métacognition conduisant à une surcharge cognitive augmente également : essentiellement, la mémoire de travail commence à s'épuiser, un excès de contexte dilue les signaux importants et l'attention des agents peut se disperser. De grandes quantités de contexte submergent essentiellement les capacités métacognitives des agents.

En conséquence, de nombreux modes de défaillance possibles peuvent apparaître. L'autosurveillance peut devenir trop bruyante. Les boucles de raisonnement métacognitif peuvent amplifier la confusion plutôt que de l’éliminer. Et peut-être le pire de tout : la sélection du bon contexte pour une décision particulière devient le goulot d’étranglement, conduisant à un raisonnement erroné.

Comment la métacognition peut gérer une densité de contexte élevée

Il existe des solutions potentielles à la pointe de la recherche sur ce sujet. La compression du contexte, le raisonnement hiérarchique et la mémoire basée sur la récupération sont autant d'approches possibles pour réduire la charge cognitive dans des situations à forte densité de contexte.

La meilleure réponse que nous ayons, cependant, est de détourner l’attention de la métacognition des agents qui raisonnent sur leur propre raisonnement et d’améliorer notre approche globale de la gestion du contexte.

En d’autres termes, au lieu de simplement penser à penser, nous devrions nous concentrer davantage sur la décision à quoi les agents devraient penser en premier lieu.

Comment, alors, la gestion du contexte résout-elle le problème de la galerie des glaces ? Si nous déléguons aux agents la décision sur ce à quoi les agents devraient penser, ne nous retrouverons-nous pas dans la même situation ?

La réponse à cette question est la même conclusion à laquelle je suis arrivé dans mon premier article sur la densité du contexte : l’IA agentique sépare les tâches que l’IA peut automatiser de celles que les humains sont uniquement capables de résoudre.

Oui, nous pouvons déléguer la gestion du contexte aux agents jusqu’à un certain point – mais à ce seuil, les humains doivent prendre les rênes et décider à quoi les agents doivent penser.

Après tout, les humains sont les meilleurs pour gérer des situations à forte densité contextuelle. Nous apportons notre intuition, notre bon sens, notre créativité et notre éthique. Nous ne pouvons pas simplement déléguer ces caractéristiques à l’IA.

Le paradoxe de l'intention

Nous avons un terme pour désigner les instructions humaines à haute densité de contexte pour un système : intention. En fait, l’informatique basée sur l’intention est une réalité depuis plusieurs années maintenant, avant l’essor des LLM.

Avec l'informatique basée sur l'intention, la plate-forme sous-jacente traduit l'intention humaine concernant le comportement d'un système en politiques et contraintes exécutables pour ce système, puis gère le système au fil du temps pour garantir qu'il continue de se conformer à ces contraintes. En d’autres termes, la plateforme compense activement les dérives de configuration.

Maintenant que les LLM sont disponibles, traduire l'intention humaine à haute densité de contexte en métadonnées de politique et de configuration à faible densité de contexte est tout à fait dans leur domaine. On pourrait même dire que la façon dont les LLM traitent les invites humaines en réponses est en fait un excellent exemple d’informatique basée sur l’intention en action.

Cependant, lorsque nous fournissons l’intention humaine de donner aux agents d’IA leurs ordres de marche, nous sommes à nouveau confrontés à un problème. L'utilisation de LLM pour traduire des instructions à haute densité de contexte en métadonnées à faible densité de contexte conduit à tous les mauvais comportements agents que j'ai décrits ci-dessus.

Lorsque notre intention est de fournir des garde-fous en matière d’IA agentique, nous ne pouvons pas nous permettre de simplement laisser les LLM traduire cette intention. Nous avons besoin d’une approche contrebalançante qui garantisse que les métadonnées de faible densité qui en résultent sont conformes à cette intention sans tomber dans la galerie des glaces.

Une fois de plus, nous revenons à la conclusion que nous avons besoin d’une contribution humaine – non seulement pour exprimer nos intentions concernant le comportement de nos agents, mais aussi pour garantir que nos mécanismes de gouvernance de l’IA réfléchissent eux-mêmes aux bonnes choses.

En d’autres termes, les humains doivent toujours rester responsables d’évaluer si notre gouvernance agentique contraint effectivement ces comportements conformément à nos exigences de gouvernance.

La prise Intellyx

Cette conclusion renvoie au conflit essentiel introduit par Asimov dans ses Trois Lois. Dans sa fiction, les humains créaient eux-mêmes les lois. Des déclarations telles que « un robot ne peut pas blesser un être humain ni, par son inaction, permettre à un être humain de subir un danger » sont une construction essentiellement humaine, qui a une densité de contexte élevée.

Les robots – l’IA d’Asimov – doivent ensuite interpréter ces lois eux-mêmes du mieux qu’ils peuvent, ce qui conduit à toutes sortes de manigances.

Dans le monde réel d’aujourd’hui, nous ne pouvons évidemment pas nous permettre un tel chaos. Même si les contraintes que nous imposons à nos agents d’IA doivent être des déclarations à haute densité d’intentions humaines, nous devons également confier aux humains le rôle de décider à quoi même nos agents policiers les plus intelligents devraient penser en premier lieu.

Là où nous traçons la frontière entre la gouvernance de l'IA agentique que nous pouvons déléguer aux agents et ce que nous devons conserver car l'activité humaine évoluera à mesure que la technologie s'améliore. Mais nous devons tirer la leçon des trois lois d’Asimov et ne jamais exclure complètement les humains du droit de garantir que nos agents font ce que nous voulons qu’ils fassent.

Jason Bloomberg est directeur général d'Intellix BV. Il a écrit cet article pour SiliconANGLE. Un être humain a écrit chaque mot de cet article.

Newsletter

Rejoignez notre newsletter pour des astuces chaque semaine