L’intelligence artificielle générative a un problème de données.
Pendant des années, l’approche typique pour créer des modèles d’IA de génération a consisté à collecter autant de données que possible en parcourant de vastes étendues d’Internet, en s’entraînant à grande échelle et en gérant les conséquences plus tard. Le résultat a été une technologie de plus en plus puissante, mais aussi des préoccupations croissantes concernant les préjugés, le consentement, la propriété et la répartition inégale de la valeur créée à partir de l'information mondiale.
Mozilla Data Collective a été créé pour combler les lacunes de ce modèle.
L’organisation, lancée en novembre dernier, tente de créer un autre type de marché pour les données d’IA, construit autour de la propriété communautaire, du consentement et de ce que le fondateur et directeur général EM Lewis-Jong appelle « l’échange à la juste valeur ».
« Nous avons besoin d'ensembles de données propres, abondants, contextualisés et consentis pour créer des modèles d'IA qui en valent la peine », a déclaré Lewis-Jong dans une récente interview par courrier électronique. « C'est un problème structurel important, qui nécessite une solution structurelle. »
Les ensembles de données rassemblés grâce à un grattage aveugle du Web reproduisent souvent les mêmes limitations et préjugés que ceux trouvés en ligne, a déclaré Lewis-Jong. Des langues, des cultures et des communautés entières restent sous-représentées dans les systèmes d’IA modernes, tandis que de nombreux créateurs ont peu de visibilité sur la manière dont leur contenu est utilisé. Les gouvernements du monde entier examinent également de plus en plus les fondements juridiques de la collecte de données à grande échelle, créant ainsi de nouveaux défis de conformité pour les entreprises technologiques.
Mozilla Data Collective résout ces problèmes en intégrant les communautés directement dans la chaîne d'approvisionnement des données. Plutôt que de traiter les données comme une ressource à extraire, l’organisation les considère comme quelque chose qui doit rester sous le contrôle des personnes qui les créent.
Enraciné dans le discours
L'idée est née en partie de l'expérience de Mozilla avec Common Voice, son initiative de longue date visant à collecter des données vocales auprès de bénévoles du monde entier. Common Voice a démontré que les gens sont prêts à fournir des données lorsqu'ils estiment que leurs contributions sont significatives et qu'ils ont leur mot à dire sur la manière dont le projet est gouverné. Plus d'un demi-million de contributeurs ont participé dans des centaines de langues, contribuant ainsi à créer l'un des plus grands ensembles de données vocales accessibles au public au monde.
L’essor de l’IA générative a compliqué cette équation. Les communautés qui avaient fourni des données avec enthousiasme ont commencé à se poser des questions plus difficiles quant à savoir qui bénéficie en fin de compte des ensembles de données ouverts lorsqu’ils sont absorbés par des écosystèmes d’IA de plus en plus concentrés et opaques. Certains continuent de privilégier les modèles de licences totalement ouverts, tandis que d’autres souhaitent davantage de transparence, de contrôle ou de compensation. Mozilla Data Collective a créé des licences et des politiques pour répondre à ces différentes préférences.
Dans son modèle, la souveraineté ne signifie pas nécessairement une restriction de l'accès. Au lieu de cela, cela donne aux communautés la possibilité de décider elles-mêmes de la manière dont leurs données seront utilisées. Les contributeurs peuvent choisir de partager ouvertement leurs données, d'exiger une attribution, de limiter leur utilisation à des fins éducatives ou de recherche, de restreindre l'accès géographiquement ou de demander une compensation. Le principe essentiel est que ces décisions appartiennent aux créateurs de données plutôt qu’à une plateforme intermédiaire.
L’organisation affirme que cette approche est de plus en plus importante à mesure que les systèmes d’IA se développent dans des langues et des contextes culturels qui ont historiquement reçu peu d’attention de la part des entreprises technologiques.
Aujourd'hui, le collectif héberge des centaines d'ensembles de données sélectionnés représentant plus de 300 langues. Sa collection comprend de la littérature hazargi d'Afghanistan, des histoires orales en langue mada du Cameroun et des journaux romanches de Suisse. Beaucoup de ces ressources seraient difficiles, voire impossibles, à trouver via les canaux de données commerciaux conventionnels.
Entreprise « verrouillée sur sa mission »
La structure de gouvernance inhabituelle de l'organisation vise à renforcer cette mission. Mozilla Data Collective fonctionne comme ce que Lewis-Jong décrit comme une « entreprise sociale britannique à mission verrouillée ». Cela signifie que « notre objectif est intégré à notre structure de gouvernance à plusieurs niveaux », a déclaré Lewis-Jong. « Nous existons pour donner aux communautés la propriété et le pouvoir d'agir sur leurs données, et leur permettre de définir et de piloter un échange de juste valeur selon leurs propres conditions. »
La structure a été choisie pour éviter ce que l'organisation considère comme les limites des modèles traditionnels à but non lucratif et conventionnels à but lucratif. Les organisations à but non lucratif peuvent avoir du mal à construire des infrastructures durables à grande échelle, tandis que les startups financées par du capital-risque sont confrontées à des pressions pour donner la priorité à la croissance et à la monétisation plutôt qu'aux intérêts de la communauté.
Le succès du collectif se mesure à la fois par la performance financière et par les objectifs liés à la mission. Lewis-Jong a déclaré que cet alignement est essentiel car de nombreuses entreprises technologiques finissent par se heurter à des tensions entre leur mission déclarée et les incitations créées par leurs modèles de revenus. « Nous sommes tenus à un double objectif », a-t-il déclaré. « Si nous n’atteignons pas les portes de notre mission, nous n’existerons pas. »
Avec un engagement initial de 10 millions de dollars de la Fondation Mozilla, Mozilla Data Collective dispose d'une certaine marge de manœuvre en matière de revenus. Cela ne prend pas en compte un pourcentage des frais que les communautés choisissent de facturer pour leurs ensembles de données. Au lieu de cela, les contributeurs reçoivent le montant total, tandis que les téléchargeurs paient des frais de plateforme distincts pour couvrir les coûts d'infrastructure et d'exploitation. L’objectif, a déclaré Lewis-Jong, est d’encourager la transparence et la négociation collective plutôt que les obscurs accords de courtage qui caractérisent souvent les marchés des données.
Contrôle du créateur
L'organisation accorde également une importance particulière à la conservation et au contrôle qualité. Chaque organisation et ensemble de données participants sont examinés avant d'être acceptés sur la plateforme. Le contenu protégé par le droit d'auteur est rejeté si les téléverseurs ne détiennent pas les droits nécessaires et si les allégations d'utilisation équitable ne sont pas considérées comme une justification de la distribution. La plateforme combine des garanties juridiques, techniques et communautaires destinées à fournir des informations claires sur la provenance et les autorisations d'un ensemble de données.
Les nouvelles fonctionnalités récentes de la plateforme donnent aux contributeurs de données un meilleur contrôle sur l'accès et la rémunération. Parmi eux figurent des outils permettant aux propriétaires d'ensembles de données d'approuver les demandes d'accès, un assistant conversationnel qui aide les développeurs à découvrir des ensembles de données pertinents et un futur système de rémunération qui permettra aux contributeurs d'établir les conditions de licence et les tarifs.
La vision à long terme n’est pas nécessairement de concurrencer directement les grands courtiers de données qui dominent actuellement les pipelines de formation en IA, a déclaré Lewis-Jong. Au lieu de cela, le groupe se considère comme créant un modèle alternatif qui relie les développeurs aux communautés historiquement négligées par les marchés de données traditionnels. Il a décrit la plateforme moins comme un courtier que comme un pont.
Mozilla Data Collective parie que l’avenir de l’IA nécessitera plus que des modèles et des ensembles de données plus volumineux. Cela nécessitera de nouvelles institutions qui équilibrent l'innovation avec le consentement, la participation et la confiance pour garantir que les personnes qui créent les données mondiales jouent un rôle significatif dans la détermination de la manière dont elles sont utilisées.