GPTBot : OpenAI lance un nouveau robot d’exploration Web

OpenAI a publié des informations sur GPTBot, son nouveau robot d’indexation.

Qu’est-ce que GPTBot. GPTBot est le robot d’exploration Web d’OpenAI. OpenAI l’utilise pour explorer le Web, consommer des connaissances pour ses fonctionnalités d’IA (par exemple, ChatGPT) et fournir des réponses générées par l’IA aux questions (ou invites).

Agent utilisateur. Le jeton d’agent utilisateur de GPTBot est « GPTBot ». Sa chaîne complète d’agent utilisateur est : « Mozilla/5.0 AppleWebKit/537.36 (KHTML, comme Gecko ; compatible ; GPTBot/1.0 ; +https://openai.com/gptbot) ».

Robots.txt. Vous pouvez utiliser robots.txt pour empêcher GPTBot d’accéder à votre site Web ou à des parties de celui-ci. Pour interdire à GPTBot d’accéder à votre site, vous pouvez ajouter GPTBot au fichier robots.txt de votre site :

User-agent: GPTBot
Disallow: /

Pour autoriser GPTBot à accéder uniquement à certaines parties de votre site, vous pouvez ajouter le jeton GPTBot au fichier robots.txt de votre site comme ceci :

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Documentation GPTBot. Vous pouvez lire la documentation sur GPTBot.

Plages IP GPTBot. OpenAI a également publié le Plages d’adresses IP utilisées par GPTBot. Il n’en énumère qu’un, mais je soupçonne qu’ils en ajouteront d’autres au fil du temps.

Pourquoi nous nous soucions. Vous pouvez interdire à GPTBot d’explorer votre site si vous ne souhaitez pas qu’OpenAI utilise votre contenu de quelque manière que ce soit. Il s’agit du même protocole que vous utiliseriez pour bloquer GoogleBot, BingBot ou d’autres robots d’exploration Web. Ces entreprises recherchent également une alternative à robots.txt à ces fins.

Creusez plus profondément. Devez-vous empêcher le plug-in de navigateur Web de ChatGPT d’accéder à votre site ?

Newsletter

Rejoignez notre newsletter pour des astuces chaque semaine