Au moins 26 des 100 sites Web les plus populaires – et 242 des 1 000 premiers – bloquent désormais GPTBot, le robot d’exploration Web OpenAI introduit le 7 août, selon une analyse mise à jour.
Pourquoi nous nous en soucions. Bloquer ou ne pas bloquer ChatGPT ? Cela a été une grande question pour de nombreux référenceurs car ChatGPT ne cite ni ne crée de lien vers ses sources. Nous avons laissé les moteurs de recherche explorer notre contenu car il y a un avantage potentiel évident : nous obtenons du trafic via des liens/citations directs. De toute évidence, encore plus de sites Web parmi les plus populaires ont décidé de bloquer GPTBot, probablement parce qu’ils ne veulent pas qu’OpenAI récupère leurs données pour aider à former ses modèles – du moins pas sans une certaine forme de compensation.
12 sites Web populaires bloquent désormais GPTBot. Parmi les nouveautés du top 100 des sites les plus populaires du mois dernier, dont la majorité publie des actualités et des informations :
- pinterest.com
- en effet.com
- theguardian.com
- sciencedirect.com
- usatoday.com
- stackexchange.com
- alamy.com
- webmd.com
- dictionnaire.com
- Washingtonpost.com
- npr.org
- cbsnews.com
Un grand renversement. Il est intéressant de noter que Foursquare, qui bloquait GPTBot le mois dernier, ne le fait plus.
Et CCbot ? Le robot d’exploration de Common Crawl est encore moins bloqué – par seulement 130 sites Web. Pour rappel, Common Crawl fournit une partie des données de formation utilisées par OpenAI, Google et autres.
- 109 des 1 000 principaux sites Web bloquent à la fois GPTBot et CCbot.
Limites. 67 fichiers robots.txt sur les 1 000 sites Web n’ont pas été identifiés/inspectés dans le cadre de cette analyse. (C’est pourquoi j’ai écrit « au moins » dans la phrase d’ouverture.)
Analyse mise à jour d’Originality.ai. Sites Web qui ont bloqué le GPTBot d’OpenAI – Étude sur 1000 sites Web
Creusez plus profondément. Devriez-vous empêcher le plug-in du navigateur Web de ChatGPT d’accéder à votre site Web ?