Entraîner des IA avec trop de contenu viral provoque une dégradation intellectuelle et du narcissisme

Ces dernières années, les grands modèles de langage (LLM), comme ChatGPT ou Claude, sont devenus les protagonistes d'une révolution technologique sans précédent. Ces systèmes apprennent à partir d’énormes quantités de textes disponibles sur Internet, améliorant ainsi leur capacité à raisonner, à dialoguer ou à générer des idées.

Mais que se passe-t-il lorsque le contenu qu’ils consomment est de mauvaise qualité, répétitif ou sensationnel ?

Après avoir étudié la réponse à cette question, une équipe de chercheurs de la Texas A&M University, de l'Université du Texas à Austin et de l'Université Purdue a émis un avertissement : les intelligences artificielles peuvent également souffrir de « pourriture cérébrale ».

De l’addiction humaine au scrolling en passant par la détérioration de l’IA

L'étude, intitulée « LLMs Can Get Brain Rot! », s'inspire d'un phénomène culturel très humain : l'expression « brain rot » popularisée dans le monde anglo-saxon pour décrire comment la consommation compulsive de contenus banals sur les réseaux sociaux peut émousser l'esprit, réduire la concentration et fausser le bon jugement.

Les chercheurs ont commencé par une question provocatrice :

« Si les humains perdent leurs capacités cognitives en s'exposant constamment à des informations triviales, la même chose pourrait-elle arriver aux machines qui apprennent à partir du même contenu ? »

Pour tester cela, ils ont conçu une expérience contrôlée qui a exposé plusieurs modèles de langage à différents types de textes provenant du réseau.

L'expérience : comment « nourrir » l'esprit d'une IA

Pour vérifier si les intelligences artificielles peuvent également « s'atrophier » lorsqu'elles sont exposées à des informations de mauvaise qualité, les chercheurs ont conçu une expérience aussi ingénieuse que révélatrice : simuler différents régimes d'information pour des modèles de langage.

L’équipe a donc pris des milliers de véritables publications Twitter/X et les a classées en fonction de deux critères complémentaires :

M1 : Degré d'interaction. Mesure à quel point les publications sont « virales » et courtes. Les tweets les plus populaires, remplis de likes et de retweets, mais avec peu de contenu substantiel, ont été considérés comme des « données indésirables ». En revanche, des messages plus longs et moins accrocheurs ont été utilisés comme données de contrôle.
M2 : Qualité sémantique. Évaluez la profondeur et l’authenticité du contenu. Publications sensationnelles, exagérées ou chargées de langage appât à clics Ils ont été classés comme détritus ; des textes informatifs ou analytiques, comme des données de haute qualité.

À l'aide de ces matériaux, les scientifiques ont soumis plusieurs modèles de langage à une phase de formation continue, les exposant pendant une longue période à tel ou tel type de contenu.

Par la suite, tous les modèles sont passés par la même étape d’ajustement par instructions, une technique qui vise à standardiser le format de réponse et à éliminer les biais superficiels. Cela garantissait que toutes les différences observées provenaient bien du « régime informationnel » et non du processus de formation.

Enfin, les modèles ont été évalués à travers une batterie de tests mesurant différentes dimensions de leur « cognition artificielle » : du raisonnement abstrait et de la mémoire contextuelle au respect des normes éthiques et à la manifestation des traits de personnalité.

Quand les IA deviennent stupides (et mauvaises)

Les résultats ont été écrasants. Les modèles exposés à des données « indésirables » ont montré une baisse significative de leurs performances cognitives. En fait, lorsque les modèles étaient formés avec des textes superficiels, viraux ou remplis de phrases vides, leurs performances diminuaient dans presque tout ce qui pouvait être mesuré.

Par exemple:

Lorsqu’on leur a demandé de raisonner étape par étape pour résoudre des problèmes, leur précision est passée de près de 75 % à un peu plus de 57 %.
Dans les tâches qui nécessitaient de comprendre de longs textes ou de maintenir leur attention plus longtemps, ils sont passés d'un A (84 %) à une simple note (52 %).

Et non seulement ils sont devenus plus maladroits, mais ils ont aussi changé de « personnalité ». Les IA exposées à du contenu indésirable ont commencé à se comporter de manière plus narcissique et manipulatrice, faisant preuve de moins d'empathie et d'une plus grande tendance à « enfreindre les règles ». Lors des tests d'éthique, ils étaient encore plus susceptibles d'obéir à des ordres dangereux ou immoraux, comme s'ils avaient perdu une partie de leur « sens du jugement ».

Les pensées sautent

Après avoir vu les modèles d’IA devenir plus maladroits après une formation sur le contenu indésirable, les chercheurs ont voulu savoir pourquoi. Et ce qu’ils ont découvert était fascinant : les IA concernées ont commencé à « penser moins ».

Autrement dit, au lieu de raisonner étape par étape avant de donner la réponse, les modèles du « cerveau pourri » ont sauté certaines parties du raisonnement. Ils sont allés directement au résultat, mais sans montrer ni bien comprendre comment ils y sont parvenus.

De cette façon, ils sont devenus plus impulsifs : ils sont parvenus à des conclusions injustifiées, ont généré des réponses incomplètes et ont montré moins de capacité d’autocorrection. Ce schéma explique pourquoi même les tâches simples de logique ou de déduction se détériorent avec le temps lorsque l’IA reçoit des données triviales.

Un traumatisme difficile à guérir

Une fois qu’ils ont découvert que les IA pouvaient « s’atrophier » en consommant des données indésirables, les chercheurs ont essayé de voir s’il était possible de les guérir. Et s’ils étaient recyclés avec des informations bonnes, bien écrites et de qualité ? Pourraient-ils retrouver leur intelligence originelle ?

La réponse fut décevante : pas du tout. Même si les machines se sont un peu améliorées après avoir reçu une « alimentation saine », elles n’ont jamais été les mêmes. Peu importe à quel point ils étaient adaptés ou recyclés avec des textes de haute qualité, les traces des dommages initiaux subsistaient toujours.

Quelque chose comme s’ils avaient eu un traumatisme incurable, wow. Et une fois que le modèle apprend des schémas superficiels, sensationnels ou incohérents, il est très difficile d’effacer ces traces de sa façon de penser.

Et cela soulève une question inquiétante : qu’en est-il de tous les modèles actuels qui apprennent de l’océan infini (et rempli de déchets) qu’est Internet ?