Mustafa Suleyman, PDG de Microsoft, estime que la plupart des contenus Web sont des « logiciels gratuits » qui peuvent être utilisés pour former des modèles d'IA. La seule exception : les sites Web qui choisissent explicitement de ne pas les utiliser.
Un logiciel gratuit est toute forme de logiciel protégé par le droit d'auteur qui peut être librement téléchargé, installé et utilisé par les utilisateurs finaux.
La citation. Voici ce que Suleyman a déclaré à Andrew Ross Sorkin de CNBC au Aspen Ideas Festival :
- « … En ce qui concerne le contenu qui est déjà sur le Web ouvert, le contrat social de ce contenu depuis les années 90 est qu'il s'agit d'un usage équitable. N'importe qui peut le copier, le recréer, le reproduire. C'est du freeware, si vous voulez. C'est ce qui est convenu.
- « Il existe une catégorie distincte dans laquelle un site Web, un éditeur ou une agence de presse a explicitement déclaré : « Ne me grattez pas ou ne m'explorez pas pour une autre raison que de m'indexer afin que d'autres personnes puissent trouver ce contenu ». C’est une zone grise et je pense que cela va se frayer un chemin jusqu’aux tribunaux.
Usage équitable ou vol ? Les utilisations équitables permettent une utilisation limitée du matériel protégé par le droit d'auteur (par exemple, critique, enseignement, recherche), mais ce que font les modèles d'IA va au-delà. Les entreprises à l’origine des modèles d’IA veulent clairement profiter de ce contenu.
Pourquoi nous nous en soucions. À ma connaissance, il n’existe pas de « contrat social » de ce type. Microsoft (et Google) estiment simplement que tout le contenu en ligne devrait être disponible pour la formation de l’IA. De toute évidence, cela profite à ces grandes multinationales. Les véritables producteurs de contenu ? Pas tant que ça.
Dézoomer. Cette citation controversée intervient alors que Microsoft, OpenAI, Google et d’autres sociétés sont confrontées à de multiples poursuites judiciaires pour violation du droit d’auteur. C'est également la raison pour laquelle OpenAI signe autant d'accords de licence de contenu.