Robots.txt et SEO: ce que vous devez savoir en 2025

Le protocole d'exclusion des robots (Rep), communément appelé robots.txt, est une norme Web depuis 1994 et reste un outil clé pour l'optimisation du site Web aujourd'hui.

Ce fichier simple mais puissant aide à contrôler la façon dont les moteurs de recherche et d'autres robots interagissent avec un site.

Les mises à jour récentes ont rendu important de comprendre les meilleures façons de l'utiliser.

Pourquoi robots.txt compte

Robots.txt est un ensemble d'instructions pour les robots de web, leur disant ce qu'ils peuvent et ne peuvent pas faire sur votre site.

Il vous aide à garder certaines parties de votre site Web privées ou à éviter les pages rampantes qui ne sont pas importantes.

De cette façon, vous pouvez améliorer votre référencement et maintenir votre site en douceur.

Configuration de votre fichier robots.txt

La création d'un fichier robots.txt est simple.

Il utilise des commandes simples pour instruire des robots d'exploitation sur la façon d'interagir avec votre site.

Les essentiels sont:

User-agentqui spécifie le bot que vous ciblez.
Disallowqui dit au bot où il ne peut pas aller.

Voici deux exemples de base qui montrent comment Robots.TXT contrôle l'accès au robot.

Celui-ci permet à tous les robots de ramper tout le site:

User-agent: * Disallow:

Celui-ci ordonne aux robots de ramper tout le site à l'exception du dossier «Keep Out»:

User-agent: * Disallow: /keep-out/

Vous pouvez également spécifier certains robots pour rester à l'écart:

User-agent: Googlebot Disallow: /

Cet exemple demande à Googlebot de ne pas arder une partie du site. Ce n'est pas recommandé, mais vous avez l'idée.

Utiliser des jilèges

Comme vous pouvez le voir dans les exemples ci-dessus,*) sont pratiques pour fabriquer des fichiers Robots.txt flexibles.

Ils vous permettent d'appliquer des règles à de nombreux robots ou pages sans répertorier chacun.

Contrôle au niveau de la page

Vous avez beaucoup de contrôle sur l'épice si nécessaire.

Si vous devez bloquer uniquement certaines pages au lieu de bloquer un répertoire entier, vous pouvez bloquer uniquement des fichiers spécifiques. Cela vous donne plus de flexibilité et de précision.

Exemple:

User-agent: * Disallow: /keep-out/file1.html Disallow: /keep-out/file2.html

Seules les pages nécessaires sont restreintes, donc votre contenu précieux reste visible.

Combinaison des commandes

Dans le passé, le Disallow La directive était la seule disponible et Google avait tendance à appliquer la directive la plus restrictive du fichier.

Des changements récents ont introduit le Allow Directive, donnant aux propriétaires de sites Web plus de contrôle granulaires sur la façon dont leurs sites sont rampants.

Par exemple, vous pouvez demander aux robots de ne ramper que dans le dossier «important» et de rester en dehors de partout ailleurs:

User-agent: * Disallow: / Allow: /important/

Il est également possible de combiner des commandes pour créer des règles complexes.

Vous pouvez utiliser Allow directives aux côtés Disallow pour affiner l'accès.

Exemple:

User-agent: * Disallow: /private/ Allow: /private/public-file.html

Cela vous permet de garder certains fichiers accessibles tout en protégeant d'autres.

Étant donné que la valeur par défaut de Robots.txt est de permettre tout, combinant Disallow et Allow Les directives ne sont généralement pas nécessaires. Garder les choses simples est généralement le meilleur.

Il existe cependant des situations qui nécessitent des configurations plus avancées.

Si vous gérez un site Web qui utilise des paramètres URL sur les liens de menu pour suivre les clics sur le site et vous ne pouvez pas implémenter des balises canoniques, vous pouvez tirer parti des directives Robots.txt pour atténuer les problèmes de contenu en double.

Exemple:

User-agent: * Disallow: /*?*

Un autre scénario dans lequel une configuration avancée pourrait être nécessaire est si une erreur de configuration provoque une erreur de faible qualité aléatoire dans les dossiers nommés au hasard.

Dans ce cas, vous pouvez utiliser le fichier robots.txt pour désactiver tous les dossiers sauf ceux avec un contenu précieux.

Exemple:

User-agent: * Disallow: / Allow: /essential-content/ Allow: /valuable-content-1/ Allow: /valuable-content-2/

Les commentaires peuvent être un moyen pratique de décrire les informations d'une manière plus respectueuse de l'homme.

Les commentaires sont dirigés par le signe de la livre (#).

Sur les fichiers qui sont mis à jour manuellement, je recommande d'ajouter la date à laquelle le fichier a été créé ou mis à jour.

Cela peut aider à dépanner si une version plus ancienne a été accidentellement restaurée à partir de la sauvegarde.

Exemple:

#robots.txt file for www.example-site.com – updated 3/22/2025 User-agent: * #disallowing low-value content Disallow: /bogus-folder/

Gérer le taux d'exploration

La gestion du taux d'exploration est la clé pour maintenir le chargement de votre serveur en vérification et assurer une indexation efficace.

Le Crawl-delay La commande vous permet de définir un retard entre les demandes de bot.

Exemple:

User-agent: * Crawl-delay: 10

Dans cet exemple, vous demandez aux robots d'attendre 10 secondes entre les demandes, d'empêcher la surcharge et de garder les choses lisses.

Les bots avancés peuvent sentir lorsqu'ils surchargent un serveur et le Crawl-delay La directive n'est pas autant nécessaire que dans le passé.

Lien de sitemap XML

Bien que Google et Bing préfèrent que les propriétaires de sites Web soumettent leurs sitemaps XML via Google Search Console et Bing Webmaster Tools, il s'agit toujours d'une norme acceptée pour ajouter un lien au site XML du site au bas du fichier robots.txt.

Ce n'est peut-être pas nécessaire, mais y compris cela ne fait pas de mal et peut être utile.

Exemple:

User-agent: * Disallow: Sitemap: https://www.my-site.com/sitemap.xml

Si vous ajoutez un lien à votre plan du site XML, assurez-vous que l'URL est entièrement qualifiée.

Pièges communs avec robots.txt

Syntaxe incorrecte

Assurez-vous que vos commandes sont correctement formatées et dans le bon ordre.

Les erreurs peuvent conduire à une mauvaise interprétation.

Vérifiez votre robots.txt pour les erreurs dans la console de recherche Google – la vérification robots.txt est en Paramètres.

Accès exagéré

Le blocage de trop de pages peut nuire à l'indexation de votre site.

Utiliser Disallow Commande judicieusement et réfléchissez à l'impact sur la visibilité de la recherche.

Cela peut s'appliquer à bloquer les robots qui alimentent les nouveaux outils de recherche d'IA.

Si vous bloquez ces robots, vous n'avez aucune chance d'apparaître dans les réponses que les services génèrent

Oublier que les bots ne suivent pas toujours le protocole

Toutes les araignées n'obéissent pas au protocole d'exclusion des robots.

Si vous devez bloquer les robots qui ne «vous comportent pas» bien, vous devrez prendre d'autres mesures pour les empêcher.

Il est également important de se rappeler que le blocage des araignées dans Robots.txt ne garantit pas que les informations ne se retrouvent pas dans un index.

Par exemple, Google avertit spécifiquement Que les pages avec des liens entrants d'autres sites Web peuvent apparaître dans son index.

Si vous voulez vous assurer que les pages ne se retrouvent pas dans un index, Utilisez plutôt la balise NOINDEX META.

Emballage

Comme mentionné ci-dessus, il est généralement préférable de garder les choses simples avec les fichiers robots.txt. Les mises à jour dans la façon dont elles sont interprétées, cependant, en font un outil beaucoup plus puissant que par le passé.

Pour plus d'informations et d'exemples détaillés, consultez ces articles de Google Search Central:

Les auteurs contributifs sont invités à créer du contenu pour les terrains de moteur de recherche et sont choisis pour leur expertise et leur contribution à la communauté de recherche. Nos contributeurs travaillent sous la surveillance du personnel éditorial et les contributions sont vérifiées pour la qualité et la pertinence pour nos lecteurs. Les opinions qu'ils expriment sont les leurs.