Votre site Web ou votre contenu a-t-il été utilisé pour former des systèmes d’IA dans le cadre de l’ensemble de données C4 de Google ? Un nouvel outil de recherche du Washington Post vous permet de le découvrir.
Pourquoi nous nous soucions. L’ensemble de données comprend les types de sites Web et de créateurs de contenu que l’IA générative pourrait potentiellement avoir un impact négatif ou même anéantir, tels que les éditeurs d’actualités et de médias, les blogs et le marketing.
Recherche. Le nouvel outil de recherche se trouve dans l’article du Post À l’intérieur de la liste secrète des sites Web qui rendent l’intelligence artificielle comme ChatGPT intelligente. Il a créé la liste « sur la base du nombre de » jetons « apparus de chacun dans l’ensemble de données. Les jetons sont de petits morceaux de texte utilisés pour traiter des informations désorganisées – généralement un mot ou une phrase », explique l’histoire.
Par exemple, Search Engine Land a été utilisé.
Tout comme Marketing Land (une marque qui n’existe plus, mais qui l’a fait en 2019) et Marketing Land Events, qui accueillaient nos sites de conférence SMX et MarTech.

Et le site de la société mère de Search Engine Land, Third Door Media.

En outre, la table ronde sur les moteurs de recherche de Barry Schwartz a été utilisée.

Une partie seulement des données. Pour rappel, le C4 (qui signifie Colossal Clean Crawled Corpus) n’est qu’une partie des données utilisées par Google Bard et d’autres grands modèles de langage. Il utilise également Wikipedia, Reddit et d’autres sources.
En parlant de Reddit. Reddit veut être payé lorsque des entreprises veulent utiliser ses données pour former des modèles d’IA, le New York Times signalé. Reddit a mis à jour son API conditions et facturera désormais certaines entreprises (par exemple, Google, OpenAI) pour l’accès. Le PDG et co-fondateur de Reddit, Steve Huffman, a déclaré :
- « Le corpus de données Reddit est vraiment précieux. Mais nous n’avons pas besoin de donner gratuitement toute cette valeur à certaines des plus grandes entreprises du monde. Crawler Reddit, générer de la valeur et ne rien renvoyer à nos utilisateurs est quelque chose qui nous pose problème. C’est le bon moment pour nous de resserrer les choses.
Ironiquement, Reddit, lui-même, n’a même pas créé cette valeur. Ses utilisateurs l’ont fait.