Un co-fondateur d'un champion européen de l'IA open source a utilisé des millions de livres protégés par le droit d'auteur lorsqu'il travaillait sur des modèles Meta.

L’IA nous propose des modèles de plus en plus puissants et performants, mais d’où viennent les données qui rendent tout cela possible ? Documents judiciaires, courriels internes et témoignages d'anciens salariés, récemment révélés par le média français Mediapart, apportent un nouvel éclairage sur une pratique déjà connue comme l'utilisation massive de livres piratés pour former des modèles de langage, mais aussi sur la participation à celle-ci de celui qui est aujourd'hui une figure centrale de l'IA européenne.

Le cœur du scandale : LibGen et les modèles LLaMA

Au centre des révélations se trouve Library Genesis, connue sous le nom de Library Genesis (LibGen), une « bibliothèque non autorisée » qui rassemble des millions de livres protégés par le droit d'auteur, accessibles sans autorisation des propriétaires légaux.

Selon l'enquête de Mediapart, Meta aurait utilisé à plusieurs reprises LibGen pour entraîner sa famille de modèles LLaMA, destinée à concurrencer des systèmes comme ChatGPT. Les documents analysés indiquent que les téléchargements ont commencé en octobre 2022, atteignant un volume estimé à 70 téraoctets de données, soit des dizaines de milliers de livres numérisés.

L’utilisation de ces sources n’aurait pas été marginale ou accidentelle. Des emails internes et des extraits de codes suggèrent que la pratique était connue et discutée au sein des équipes, malgré les doutes exprimés par certains collaborateurs sur sa légalité.

Responsabilité de la direction des objectifs

Les révélations ne se limitent pas aux initiatives individuelles. Selon des documents judiciaires, la direction de Meta était informée : certains dossiers suggèrent même que Mark Zuckerberg soutenait l'utilisation de ces ensembles de données, dans un contexte où l'acquisition de licences légales pour des millions de livres aurait impliqué des coûts astronomiques et de longues périodes de négociation.

Le laboratoire FAIR, alors dirigé par le chercheur de renom Yann LeCun, apparaît comme l'espace où se sont prises nombre de ces décisions. Après le lancement de LLaMA, Meta aurait brièvement envisagé de régulariser l'accès aux contenus sous licence, avant de se tourner à nouveau vers des sources « gratuites ».

Guillaume Lampe, de Meta à Mistral AI

L’un des noms qui ressort fortement est celui de Guillaume Lampe, alors chercheur au laboratoire FAIR (Fundamental AI Research) de Meta et aujourd’hui co-fondateur et directeur scientifique de Mistral AI.

Selon des documents révélés lors du procès opposant Meta à plusieurs auteurs, dont l'écrivain Richard Kadrey, Guillaume Lampe aurait activement favorisé l'utilisation de LibGen au sein de Meta. Dans des échanges internes, cités par Mediapart, on lui attribue d'avoir déclaré que « Tout le monde utilise LibGen »citant OpenAI, Google et DeepMind comme exemples.

Lorsque d'autres employés ont évoqué la nécessité de consulter le service juridique, Lample aurait répondu qu'il n'avait pas posé de questions, supposant que c'était une pratique courante dans l'industrie.

Mistral AI et ses promesses de transparence sous suspicion

L'intérêt médiatique pour Guillaume Lampe ne s'explique pas seulement par son passé chez Meta : il fonde en 2023 Mistral AI, une start-up française devenue en un temps record l'un des acteurs les plus influents de l'écosystème européen de l'IA, avec une valorisation de plusieurs millions de dollars.

Depuis sa création, Mistral AI défend une stratégie basée sur des données de « haute qualité » et des accords de licences, en signant des alliances avec des institutions comme l'AFP, l'INA ou la Bibliothèque nationale de France.

Cependant, d'anciens employés de Meta cités par Mediapart affirment que LibGen aurait également pu être utilisé dans les premières phases de développement du modèle Mistral 7B, même s'il n'existe actuellement aucune preuve documentaire pour le confirmer. L'entreprise, après avoir été contactée par Mediapart, affirme entraîner ses modèles avec

« Informations accessibles au public, ensembles de données sous licence et données synthétiques générées en interne ».

Un débat qui dépasse la technologie

Cette affaire s'inscrit dans un conflit plus large : aux Etats-Unis comme en Europe, auteurs, éditeurs et artistes multiplient les procès contre les sociétés d'IA, les accusant de s'approprier sans compensation des œuvres protégées.

Les révélations sur Meta et LibGen montrent que le problème n’est pas marginal, mais structurel. La formation de grands modèles linguistiques nécessite des quantités colossales de données, et l’accès légal à ce matériel entre en conflit avec les intérêts économiques et la vitesse du marché.

En fin de compte, tout se résume à une seule question : l’innovation technologique peut-elle être justifiée au détriment des droits des créateurs ?

Par | Médiapart