Google présente Google-Extended pour vous permettre de bloquer Bard et Vertex AI via robots.txt

Google a annoncé aujourd’hui un nouveau « jeton de produit autonome », Google-Extended, qui vous permet de contrôler si Bard et Vertex AI peuvent accéder au contenu de votre site.

Cela semble être le résultat final d’un «débat public» Google a lancé cette initiative en juillet, lorsque la société a promis de recueillir « les voix des éditeurs Web, de la société civile, du monde universitaire et d’autres domaines » pour discuter du choix et du contrôle sur le contenu Web.

Bard est l’outil d’IA conversationnelle de Google. Vertex AI est la plate-forme d’apprentissage automatique de Google permettant de créer et de déployer des applications de recherche et de chat génératives basées sur l’IA.

L’annonce. Dans un article de blog, Google a déclaré :

« Aujourd’hui, nous annonçons Google-Extended, un nouveau contrôle que les éditeurs Web peuvent utiliser pour déterminer si leurs sites contribuent à améliorer les API génératives Bard et Vertex AI, y compris les futures générations de modèles qui alimentent ces produits. En utilisant Google-Extended pour contrôler l’accès au contenu d’un site, un administrateur de site Web peut choisir d’aider ou non ces modèles d’IA à devenir plus précis et plus performants au fil du temps.

– Danielle Romain de Google, vice-présidente, Trust / Une mise à jour sur les contrôles des éditeurs Web

Qu’est-ce que Google-Extended. Google l’appelle « un jeton de produit autonome que les éditeurs Web peuvent utiliser pour déterminer si leurs sites contribuent à améliorer les API génératives de Bard et Vertex AI, y compris les futures générations de modèles qui alimentent ces produits. »

Le nouveau robot d’exploration a été ajouté à Google Search Central documentation sur les robots d’exploration Web.

Ce que dit Google. La société a déclaré que Google-Extended donne aux éditeurs « le choix et le contrôle » :

« Rendre des contrôles simples et évolutifs, comme Google-Extended, disponibles via robots.txt est une étape importante pour assurer la transparence et le contrôle que nous pensons que tous les fournisseurs de modèles d’IA devraient mettre à disposition. Cependant, à mesure que les applications d’IA se développent, les éditeurs Web seront confrontés à la complexité croissante de la gestion des différentes utilisations à grande échelle.

Robots.txt. Vous pouvez utiliser robots.txt pour empêcher Google-Extended d’accéder à votre contenu, ou à des parties de celui-ci. Pour bloquer complètement Google-Extended, ajoutez ce qui suit au fichier robots.txt de votre site :

User-agent: Google-Extended
Disallow: /

Pourquoi nous nous en soucions. Nous savons que 242 des 1 000 sites Web les plus populaires ont déjà décidé de bloquer GPTBot, le robot d’exploration d’OpenAI, depuis son lancement en août. Vous pouvez désormais décider si votre site Web doit refuser d’aider Google à améliorer ses produits d’IA.

Est-ce la bonne réponse ? Dans Robots.txt, ce n’est pas la réponse : en proposant une nouvelle balise méta pour LLM/AI, le contributeur de Search Engine Land a expliqué pourquoi l’utilisation de robots.txt pour gérer l’utilisation des données dans les LLM n’est pas une bonne approche. Il semble que Google n’était pas d’accord.

Creusez plus profondément. Les robots d’exploration, les moteurs de recherche et les sordides entreprises d’IA générative