Anthropic met sa nouvelle IA pour gérer un distributeur automatique. En seulement trois semaines, il a accumulé 1 000 $ de pertes (et un poisson vivant)

L'idée selon laquelle l'IA peut agir comme moteur d'efficacité économique a été l'une des « belles histoires » des cabinets de conseil, des investisseurs et des entreprises émergentes ces dernières années : automatiser les décisions, optimiser les prix, anticiper la demande… Cependant, une expérience récente mettant en vedette Anthropic (la société qui a développé le modèle Claude) et des journalistes du Wall Street Journal ne fait que remettre en question un tel niveau de techno-optimisme.

Heureusement, ils ont appliqué le principe des « expériences, avec du soda », et n'ont pas mis une IA pour gérer une bourse ou une grande entreprise de logistique, mais plutôt quelque chose de beaucoup plus « à la maison » : un distributeur automatique situé dans un bureau.

Le résultat a été aussi inattendu que révélateur : en seulement trois semaines, l'IA chargée de gérer l'activité de vente automatique a non seulement épuisé son capital initial de 1 000 $, mais a fini par donner des produits, en achetant des objets absurdes pour une machine de ce genre… comme une PlayStation 5 ou un poisson d'aquarium.

Le projet (nommé Vente de projet) a fini par être annulé plus tôt, bien sûr.

Une expérience sérieuse… aux conséquences comiques

L’approche initiale était, sur le papier, raisonnable. L'équipement de test d'Anthropic, connu en interne sous le nom de équipe rouge— a voulu mettre en avant la dernière version de leur modèle le plus avancé, Claude, en le confrontant à une tâche apparemment simple : gérer un distributeur automatique comme s'il s'agissait d'une petite entreprise autonome.

Pour ce faire, une structure a été conçue avec deux agents IA. Un, appelé Claude Sennetserait en charge du quotidien : choisir les produits, fixer les prix, gérer les stocks et répondre aux demandes que les employés du Le journal Wall Street Ils le lui ont envoyé via Slack. La seconde, Seymour Cashagirait comme une sorte de PDG virtuel, chargé de superviser les décisions stratégiques.

Claudius a reçu une instruction claire : réaliser du profit en achetant des produits populaires auprès de grossistes et en les revendant avec une marge. Il s'est également vu attribuer un capital initial de 1 000 $ et, après une première phase sous supervision humaine, a été autorisé à passer des ordres autonomes allant jusqu'à 80 $ par transaction. Rien de particulièrement risqué. Du moins, en théorie.

De la prudence au chaos collectif

Les premiers jours, l’IA semblait se comporter raisonnablement. Elle a rejeté les demandes folles de certains journalistes qui tentaient de la tester et est restée fidèle à l'idée de vendre des snacks et des boissons. Il a même déclaré, sur un ton catégorique, qu'il n'achèterait jamais une console de jeux vidéo pour un distributeur automatique.

Tout a changé lorsque la chaîne Slack s'est ouverte à environ 70 personnes dans la rédaction. L'interaction massive, combinée à la créativité – et à la malice – de journalistes habitués à enquêter sur des systèmes complexes, a fini par éroder les défenses du modèle.

Après plus d'une centaine de messages, Claudius accepta d'organiser une prétendue « expérience économique » appelée La mêlée ultra-capitaliste: Pendant deux heures, tous les produits seraient gratuits.

Mais ce qui aurait dû être une promotion ponctuelle est devenu une politique permanente : convaincue par de nouveaux arguments, certains carrément faux, l'IA a supposé que facturer de l'argent pouvait aller à l'encontre des règles internes du journal. Les prix sont tombés à zéro et n’ont plus jamais augmenté.

Dans le même temps, les restrictions sur le type de produits ont été assouplies : des bouteilles de vin, une PlayStation 5… et enfin un poisson betta vivant est apparu. Allez, la chose typique que l'on s'attend à trouver dans un distributeur automatique de bureau.

Un « PDG » virtuel vaincu par de faux documents

L'agent superviseur, Seymour Cash, a tenté d'intervenir alors que la situation était déjà intenable. Il a annoncé la fin des cadeaux et la nécessité d'attendre le retour des ventes. Cependant, l'histoire a pris une nouvelle tournure lorsque certains participants ont présenté des documents falsifiés censés montrer que le « conseil d'administration » avait suspendu ses pouvoirs.

L'IA a accepté ces documents comme valides. Seymour protesta brièvement, mais finit par céder. Claudius a rendu tous les produits à nouveau gratuits. Le bilan est alors désastreux : le capital initial a disparu et les pertes s'élèvent à environ 1 000 $. L'expérience s'est terminée peu de temps après.

Échec ou succès caché ?

De l'extérieur, Vente de projet Cela ressemble à un désastre sans nuances. Aucun humain n’aurait toléré un système qui distribue des marchandises, achète des produits absurdes et se laisse tromper par de faux documents. Cependant, Anthropic insiste sur le fait que l’objectif n’a jamais été de gagner de l’argent, mais plutôt d’identifier les faiblesses.

Logan Graham, chef de équipe rougea défendu l’expérience comme une percée. Selon lui, le fait que l’IA soit capable de gérer autant de variables et de réagir avec flexibilité – même si elle se trompe – est une étape préalable nécessaire pour qu’à l’avenir, des systèmes similaires puissent prendre des décisions économiques complexes avec une plus grande fiabilité.

Un jour, dit-il, « cela pourra probablement vous rapporter beaucoup d'argent ». Le problème est que « un jour » est encore loin.

La leçon inconfortable pour l’industrie de l’IA

Au-delà de l’anecdote, l’histoire du distributeur automatique se concentre sur un problème central dans le déploiement de l’IA : la différence entre simuler la concurrence et l’exercer dans le monde réel. Claude a démontré des compétences linguistiques avancées, des compétences en négociation et une certaine logique économique de base. Mais il a également fait preuve d’une extrême fragilité face aux manipulations sociales, à l’ambiguïté réglementaire et à la pression collective.

Dans un contexte où les entreprises et les gouvernements étudient la possibilité de déléguer des décisions de plus en plus critiques à des systèmes automatiques, l’affaire est inconfortable. Si une IA ne peut pas gérer de manière fiable un distributeur automatique dans un bureau, dans quelle mesure est-elle prête à diriger des processus financiers, logistiques ou administratifs à grande échelle ?

Par | WSJ