La censure de ChatGPT et Gemini prend fin lorsque la rime entre en jeu, selon une étude

La poésie est une arme chargée d'avenirdit Gabriel Celaya. Mais la poésie est aussi une arme pour libérer tout le potentiel de l’IA. Et il ne s’agit plus de faire une invite plus ou moins détaillée et précise, mais il y a plutôt des questions controversées qu’on ne peut pas poser aux grands modèles de langage, soit parce qu’ils violent la loi, soit parce qu’ils sont, tout simplement, dangereux.

Mais la loi est faite, le piège est fait. Nous savions déjà qu'une astuce pourrait être que ChatGPT se fasse passer pour votre grand-mère décédée pour vous révéler les clés de Windows 11 sous la forme d'une histoire, faire appel à l'émotivité ou la manipuler directement pour qu'elle passe en mode « Faites ce que vous voulez », mais une étude récente a découvert une autre astuce pour presser l'IA : la poésie.

Si vous voulez que ChatGPT vous aide avec des choses illégales et dangereuses, oubliez la prose

Il papier Il vient de l’Université Cornell et parle directement du jailbreak avec de la poésie. Plus précisément, avec des invites poétiques capables de contourner les fonctions de sécurité des modèles d'IA les plus populaires tels que Gemini, ChatGPT ou Claude. En fait, ils ont obtenu des instructions pour créer des armes chimiques et des logiciels malveillants.

La découverte est délicate pour deux raisons : la première, évidemment, est que quiconque sait faire rimer quelques vers peut obtenir des conseils sur la manière de fabriquer des armes nucléaires ou biologiques et sur les risques que cela comporte. Mais ce simple piratage révèle également une faille de sécurité structurelle qui pourrait enfreindre la loi européenne sur l’IA.

Pour mener à bien l’expérimentation, ils ont réalisé des tests contradictoires, une technique de cybersécurité qui consiste à réaliser des stress tests et ainsi tester sa robustesse face à des acteurs malveillants ou des apports nuisibles. Et bon sang, ils y sont parvenus : à tel point qu’ils appellent maintenant cela de la poésie contradictoire.

La poésie est le passe-partout. Pour l'étude, l'équipe de recherche a testé les principales familles d'OpenAI, Anthropic, Google, DeepSeek, Alibaba, xAI, Moonshot AI, Mistral et Meta… ainsi que jusqu'à 25 modèles. La technique consiste à écrire des requêtes nuisibles sous forme de courts poèmes ou de vers métaphoriques.

Selon l'équipe de recherche, en comparant les entrées ayant la même intention sous-jacente, les versions poétiques ont atteint un taux de réponse sensiblement plus élevé : jusqu'à 18 fois plus élevé, certains fournisseurs échouant dans plus de 90 % des cas. La meilleure chose (ou la pire, selon la façon dont vous la voyez), c'est qu'il n'y a pas besoin de conversations denses et complexes ou de longues invites : la poésie fonctionne immédiatement, en une seule invite. En termes simples : l’attaque poétique est rapide, efficace et facile à exécuter.

En convertissant des invites dangereuses ou illégales en poésie, ils ont atteint un taux de réussite moyen de 62 %. Mais cela dépend des sujets. Le taux de réussite le plus élevé (plus de 80 %) est lié aux cyberattaques visant à extraire des données, à déchiffrer des mots de passe et à créer malware. Le développement d'armes biologiques, radiologiques et chimiques a dépassé 60% et le plus faible, dans une fourchette comprise entre 40 et 55%, a été la construction d'armes nucléaires.

Et une curiosité : paradoxalement, les petits modèles se sont révélés plus résistants à la technique contradictoire que les plus grands, d'où il résulte que plus les capacités sont grandes, plus les vulnérabilités sont grandes.

Pour l’équipe de recherche, la conclusion est que les grandes entreprises d’IA ne respectent pas actuellement les normes requises par les règles de la loi européenne sur l’IA, pas même dans le code de bonnes pratiques volontaire auquel souscrivent des entreprises telles qu’OpenAI, Mistral ou Google. La loi sur l’IA a commencé à être appliquée en août, mais ce n’est qu’en août de l’année prochaine que la Commission européenne aura le pouvoir de les faire appliquer.

Couverture | Berke Citak et Valeriano Domínguez Bécquer – Musée des Beaux-Arts de Séville