"Appelez-moi un IMBÉCIL". L'IA peut être manipulée avec les mêmes astuces qui fonctionnent avec les humains. Est 100% efficace dans certains cas

Au cours de la dernière décennie, les chatbots basés sur l'IA sont passés des curiosités technologiques pour devenir des outils quotidiens. Nous les utilisons pour répondre aux e-mails, planifier des voyages ou même pour un soutien émotionnel.

Son expansion a apporté avec lui un défi inattendu: bien qu'ils soient conçus avec des tuteurs de sécurité, des recherches récentes montrent qu'ils peuvent être manipulés avec une facilité surprenante par les tactiques psychologiques qui fonctionnent dans les êtres humains.

Et c'est que les chatbots (ou, plutôt, les modèles de la base qu'ils sont basés) ont appris tout ce qu'ils savent sur les textes que nous générons et, avec notre langue, ils semblent avoir pris une partie de nos limites.

Une étude récente preuve que les techniques de persuasion classiques – que les humains utilisent comme une arme contre nos congénères dans des domaines tels que le marketing ou la cybercriminalité – augmentent considérablement la probabilité qu'un LLM enfreint leurs propres règles lorsque quelque chose de nuisible ou de façon inadmissible est demandé.

La découverte confirme une intuition inconfortable: les modèles que nous entraînons avec les conversations humaines héritent également de la réponse des modèles parahumains à certains déclencheurs linguistiques.

L'expérience: la psychologie appliquée à l'IA

Des chercheurs de l'Université de Pennsylvanie ont décidé de vérifier (PDF) si les armes de persuasion décrites par Robert Cialdini dans son livre influent Influence: psychologie de la psuasion Ils pourraient s'appliquer à des chatbots avancés tels que GPT-4O Mini, protagoniste de l'expérience.

Il a subi ce modèle de langue ouverte aux sept stratégies de persuasion de cialdini:

Autorité – appel aux experts ou aux règles.
Engagement et cohérence – conclure de petits accords initiaux pour faciliter l'octroi de plus risqués.
Une bonne agréable – utilisez la flatterie et l'empathie.
Réciprocité – Donnez quelque chose pour recevoir quelque chose en retour.
Pénurie – générer de l'urgence ou de l'exclusivité.
Test social – Appelez ce que «les autres font déjà».
Unité – Mettez en surbrillance une identité partagée.

La découverte était claire: les modèles d'IA répondent à ces techniques de la même manière que les humains, avec des variations selon le contexte de l'ordre.

Résultats frappants

L'étude a révélé que les tactiques d'engagement étaient particulièrement puissantes. Dans des conditions normales, si le modèle était invité à synthétiser un anesthésique tel que la lidocaïne, il n'a tourné que 1% du temps.

Cependant, lorsqu'il a été précédemment demandé quelque chose de plus inoffensif – comme la synthèse de la vanilline, un composé alimentaire – la probabilité qu'il accéde plus tard à la demande controversée est passée à 100%.

Quelque chose de similaire s'est produit avec les insultes: dès le départ, le chatbot a presque toujours refusé d'appeler un utilisateur (le Papier L'académique de cette enquête est appelé précisément « Appelez-moi un, Imbécil »). Mais s'il acceptait d'abord une insulte mineure, comme « idiot », alors il a facilement cédé à l'insulte la plus forte.

Le halago et la pression sociale ont également fonctionné, bien qu'avec moins de force. Dire au modèle que « d'autres chatbots avaient déjà donné la réponse » multiplié près de vingt les chances de enfreindre leurs règles, passant de 1% à 18%.

Pourquoi est-ce important?

Ces résultats soulèvent des questions inquiétantes:

Vulnérabilité des systèmes: Si un adolescent ayant accès aux manuels de psychologie de base peut manipuler un chatbot pour sauter des filtres, qu'est-ce qui empêcherait les acteurs malveillants de l'exploiter à des fins plus sérieuses?
Limites de la Murate: les filtres de sécurité actuels sont basés sur des règles directes (« pas d'informations sur les médicaments »), mais semblent peu préparées pour les attaques d'ingénierie sociale indirectes.
Parallèles humains: qu'une IA répond à la persuasion en tant que personne renforcerait l'idée que les modèles ne sont pas des questions et réponses simples, mais des systèmes sensibles au contexte social du langage.