Ces dernières années, nous avons vu comment l'intelligence artificielle se nourrit de quantités énormes d'informations disponibles sur Internet: sites Web, articles, images, vidéos ou bases de données. Grâce à ce contenu, les modèles d'IA apprennent à écrire des textes, à générer des images ou à répondre à des questions.
Mais ici, un gros problème se pose: presque tous ces contenus sont utilisés sans autorisation ni compensation pour ses créateurs.
Ce « vide légal » menace l'économie du Web, car les éditeurs et les créateurs voient comment leur travail est utilisé pour former les IAS … sans rien recevoir en retour. La bonne nouvelle est qu'une norme ouverte est née qui veut passer l'ordre dans ce chaos: RSL, licence vraiment simple.
Qu'est-ce que RSL?
RSL signifie, en espagnol, « licences vraiment simples »: dans un sens, nous pouvons le voir comme une évolution du RSS, qui formate que dans les années 2000 autorisé à distribuer automatiquement le contenu entre les sites Web, les blogs et les applications (et qui est toujours extrêmement utile pour suivre les mises à jour de des dizaines ou des centaines de sites Web en même temps).
L'idée est simple: un langage universel et lisible qui indique ce qu'ils peuvent faire (et ce qui n'est pas) des trackers artificiels, des robots et des intelligences avec le contenu d'un site Web. En d'autres termes, RSL ajoute une «couche de licences» à Internet: une sorte de contrat numérique publié sur chaque site Web et que les machines peuvent lire instantanément.
Comment ça marche?
Implémentez RSL sur un site Web (afin que IA BOTS puisse lire automatiquement leurs conditions d'utilisation avant de consommer le contenu) est aussi simple que les trois étapes suivantes:
- Créez un fichier appelé licence.xml sur la racine Web. Il définit les permis: le contenu gratuit peut-il être utilisé? Est-il nécessaire de payer pour le suivi ou l'inférence? Est l'attribution (cite la source)? Est-il interdit de l'utiliser pour entraîner l'IAS?
- Ajoutez la référence dans le fichier robots.xml, le même que les moteurs de recherche utilisent pour savoir quelles pages peuvent indexer.
- Rejoignez éventuellement le collectif RSL, une organisation à but non lucratif qui facilite les licences collectives et distribue une rémunération (une sorte de SGAE international des droits de contenu Web).
OK, mais pourquoi cette technologie est-elle pertinente?
Parce que RSL donne des outils aux créateurs à négocier. Jusqu'à présent, la seule défense était de bloquer l'accès des bots via 'robots.txt' (qui offre la possibilité de dire « oui » ou « non »), ou en utilisant des systèmes de blocage tels que CloudFlare (qui, bien, n'offre que le « non »). Avec RSL, cela va à un « Oui, mais dans ces conditions ». Cela ouvre la porte à: un marché juridique et équitable du contenu, dans lequel les sociétés de l'IA doivent payer pour utiliser des données.
Exemples pratiques
La bonne chose à propos de la norme RSL est qu'elle permet de nombreuses combinaisons. Par exemple:
- Un site Web d'actualités peut permettre d'être indexé dans les moteurs de recherche, mais interdit l'utilisation de ses articles pour former des modèles d'IA.
- Un créateur indépendant peut autoriser l'utilisation de son travail sous licence Creative Commons, à condition qu'il soit cité.
- Un éditorial peut nécessiter un paiement d'inférence, c'est-à-dire pour facturer chaque fois qu'une IA génère une réponse partiellement basée sur son contenu.
- Une société de commerce électronique peut accepter que son site Web est utilisé pour former l'IA, mais demander en retour des rapports d'utilisation et d'attribution avec un lien vers le magasin.
Cela résoudra-t-il le problème?
RSL n'est pas une baguette magique: il y aura toujours des entreprises qui ignorent les licences ou essaieront de « rayer » du contenu sans respecter les règles. Mais au moins, cela crée un cadre commun, simple et automatique, qui peut devenir la base d'un écosystème durable dans l'ère IA.
C'est similaire à ce qui est arrivé à la musique: au début, les téléchargements non autorisés ont régné, mais au fil du temps, les plates-formes qui ont payé des redevances et l'industrie se sont stabilisées. Peut-être que RSL réalise la même chose pour le contenu numérique.
Qui le soutient?
Ce qui est surprenant, c'est que ce n'est pas une idée isolée: les grandes entreprises, les personnalités et les communautés Internet ont déjà rejoint. Parmi les noms, il y en a qui vous semblent sûrement: Reddit, Yahoo, Medum, Quora, Wikihow, O'Reilly Media… La norme a également le soutien de vétérans sur Internet tels que Tim O'Reilly et RV Guha (co-créateur du RSS), qui renforce sa crédibilité.