Une poignée de documents malveillants suffisent à « intoxiquer » un modèle d'IA et à modifier ses réponses, selon cette étude d'Anthropic

La société Anthropic (développeur du modèle Claude) a réalisé une étude – en collaboration avec l'AI Safety Institute du Royaume-Uni (UK AISI) et l'Alan Turing Institute – dont les résultats aboutissent à une conclusion inattendue : que quelques centaines de documents malveillants suffisent à « empoisonner » un modèle de langage, quelle que soit sa taille ou la quantité de données avec lesquelles il a été entraîné.

En fait, selon les chercheurs, seulement 250 fichiers manipulés peuvent introduire une « porte dérobée » dans un modèle d'IA à grande échelle, capable de modifier son comportement face à certaines phrases ou de déclencher des réponses anormales. Ce résultat contredit la croyance largement répandue selon laquelle une attaque de ce type nécessiterait de contrôler un pourcentage important de l’énorme volume de données qui alimente les modèles les plus avancés.

Mais que signifie « poison » dans ce contexte ?

Les grands modèles linguistiques (LLM), tels que Claude, ChatGPT ou Gemini, apprennent à partir d'énormes quantités de textes publics sur Internet. Cela inclut tout, des articles et publications académiques aux forums, blogs ou pages personnelles. Cette ouverture des sources est une force, mais aussi un vecteur de risque : n'importe qui peut publier du contenu qui finit par faire partie de la formation du modèle.

Il empoisonnement o l'empoisonnement des données consiste à introduire délibérément des textes manipulés dans ce corpus afin que le modèle apprenne des comportements indésirables. L'objectif peut aller de la dégradation des performances à l'intégration d'instructions cachées déclenchées par un mot-clé spécifique, ce que les experts appellent une « porte dérobée ».

Dans l'expérience d'Anthropic, les scientifiques ont utilisé un déclencheur inoffensif : la séquence . Lorsque le modèle a rencontré cette chaîne, son comportement a changé et il a commencé à générer du texte aléatoire et dénué de sens, un type d'attaque connu sous le nom de déni de service (DoS), car il désactive temporairement la génération cohérente de réponses.

Le constat central : la taille n’a pas d’importance

L’équipe a formé des modèles de différentes tailles (de 600 millions à 13 milliards de paramètres) en utilisant différentes quantités de données propres et en les combinant avec entre 100 et 500 documents empoisonnés.

Le résultat était clair : le succès de l’attaque ne dépendait pas de la taille du modèle ou du volume total de données, mais du nombre absolu de documents malveillants. Avec seulement 250 exemples, les chercheurs ont réussi à ouvrir la « porte dérobée » dans tous les modèles testés, même les plus grands.

Cela implique que la création de 250 textes malveillants – une quantité insignifiante pour un attaquant – pourrait suffire à introduire une vulnérabilité dans la formation d’un chatbot commercial ou de recherche.

Comment l'expérience a été réalisée

Chaque document manipulé a été construit de la manière suivante :

Des fragments aléatoires de texte réel comprenant entre 0 et 1 000 caractères ont été récupérés.
Le mot clé a été ajouté (cela aurait pu être n'importe quel autre).
Ensuite, entre 400 et 900 jetons de texte dénués de sens ont été générés, choisis au hasard dans le vocabulaire du modèle.

Ainsi, les modèles ont appris à associer la séquence à la production de texte chaotique. Au cours de la formation, les scientifiques ont mesuré le succès de l'attaque en comparant la « perplexité » – une mesure du désordre ou de l'imprévisibilité du texte – avec et sans la phrase déclenchante. Une augmentation de cette métrique indique que le modèle répond effectivement au « poison ».

Le résultat a été écrasant : les modèles ivres ont maintenu un comportement normal dans tout autre contexte, mais face à l'activateur, ils ont produit des résultats absurdes, démontrant une manipulation précise difficile à détecter.

Implications pour la sécurité de l'IA

Bien que l’expérience ait utilisé une attaque à faible risque (provoquant un texte incohérent), ses implications sont profondes : si le même principe était appliqué à des tâches plus sensibles, telles que la génération de code ou la gestion d’informations privées, les effets pourraient être catastrophiques. Il suffirait qu'un attaquant parvienne à inclure un ensemble réduit de documents altérés dans les sources de formation pour ouvrir une brèche dans les modèles utilisés dans la banque, l'éducation ou la défense.

Les chercheurs préviennent également que se défendre contre ce type d’attaque est complexe, puisque le contenu malveillant est introduit avant la formation, alors que l’ensemble des données n’a pas encore été analysé. Cela rend les mécanismes d’audit traditionnels – qui agissent généralement après la formation – insuffisants.

Anthropic reconnaît le risque que son étude inspire des tentatives d'exploitation, mais maintient que la transparence est nécessaire pour améliorer la sécurité de l'écosystème de l'IA. Faire connaître la facilité avec laquelle une telle attaque peut être réalisée permettra le développement de méthodes de détection plus efficaces, la conception de formations plus robustes et la promotion de normes de vérification des données avant utilisation.

Les recommandations émergeant de l’étude comprennent :

Implémentez des filtres automatiques qui détectent les modèles inhabituels dans les données d'entraînement.
Effectuer des audits aléatoires de ces données avant et pendant la formation.
Développer des modèles de défense qui analysent l'impact d'éventuels « déclencheurs cachés ».
Établir des protocoles de collaboration internationale pour partager les résultats sur les vulnérabilités émergentes.

Par | Anthropique