Comment améliorer l'efficacité de l'exploration et de l'indexation au niveau de l'entreprise

Le référencement d’entreprise obéit à des règles différentes.

Les stratégies qui peuvent fonctionner pour les sites Web de petite taille ou de niche ne fonctionneront pas toujours à grande échelle.

Alors, que peut-il arriver exactement lorsque le référencement d’entreprise devient trop grand?

Dans cet article, je vais partager trois exemples concrets. Ensuite, vous apprendrez un antidote potentiel pour une gestion plus efficace du référencement à grande échelle.

Face au dilemme de l’indexation

Les petits sites ont tendance à se développer une page à la fois, en utilisant des mots-clés comme éléments de base d’une stratégie de référencement.

Les grands sites adoptent souvent des approches plus sophistiquées, s’appuyant fortement sur les systèmes, les règles et l’automatisation.

Il est essentiel d’aligner le référencement sur les objectifs commerciaux. Mesurer le succès du référencement en fonction du classement des mots clés ou du trafic entraîne des conséquences négatives en raison de la surindexation.

Il n’existe pas de formule magique pour déterminer le nombre optimal d’URL indexées. Google ne fixe pas de limite supérieure.

Un bon point de départ, cependant, est de considérer la santé globale de l’entonnoir SEO. Si un site…

Pousse dizaines ou des centaines de millionsou même des milliards des URL vers Google
Rangs uniquement pour un quelques millions mots clés
Reçoit des visites dans un quelques milliers pages
Convertit un fraction de ceux-ci (le cas échéant)

… alors c’est une bonne indication que vous devez répondre à certains besoins sérieux en matière de santé SEO.

La résolution de tous les problèmes d’hygiène du site maintenant devrait éviter des problèmes de référencement encore plus importants plus tard.

Examinons trois exemples réels de référencement d’entreprise qui illustrent pourquoi cela est si important.

Cas 1 : Conséquences d’une surindexation d’un contenu de mauvaise qualité

Google dispose de ressources limitées pour l’exploration et le traitement du Web. Ils donnent la priorité au contenu qui est précieux pour les utilisateurs.

Google peut explorer, mais pas indexer, les pages qu’il considère comme minces, en double ou de mauvaise qualité.

S’il ne s’agit que de quelques pages, ce n’est pas un problème. Mais s’il est répandu, Google peut ignorer des types de page entiers ou la plupart du contenu du site.

Dans un cas, un marché de commerce électronique a constaté que des dizaines de millions de ses pages de liste étaient affectées par l’exploration et l’indexation sélectives.

Après avoir exploré des millions de pages d’annonces minces et presque en double et ne les ayant pas indexées, Google a finalement réduit l’exploration du site Web, laissant beaucoup dans les limbes « découvert – actuellement non indexé ».

Ce marché s’appuyait fortement sur les moteurs de recherche pour promouvoir de nouvelles annonces auprès des utilisateurs. Le nouveau contenu n’était plus découvert, ce qui posait un défi commercial important.

Certaines mesures immédiates ont été prises, telles que l’amélioration des liens internes et le déploiement de sitemaps XML dynamiques. En fin de compte, ces tentatives ont été vaines.

La véritable solution nécessitait de contrôler le volume et la qualité du contenu indexable.

Cas 2 : Conséquences imprévues de l’arrêt du crawl

Lorsque l’exploration s’arrête, le contenu indésirable reste dans l’index de Google, même s’il est modifié, redirigé ou supprimé.

De nombreux sites Web utilisent des redirections au lieu d’erreurs 404 pour le contenu supprimé afin de maintenir l’autorité. Cette tactique peut réduire le trafic supplémentaire des pages fantômes pendant des mois, voire des années.

Cependant, cela peut parfois mal tourner.

Par exemple, un marché mondial bien connu qui vend des produits artisanaux a accidentellement révélé les informations privées des vendeurs (par exemple, nom, adresse, e-mail, numéro de téléphone) sur des versions localisées de leurs pages d’annonces. Certaines de ces pages ont été indexées et mises en cache par Google, affichant des informations personnellement identifiables (PII) dans les résultats de recherche, compromettant la sécurité et la confidentialité des utilisateurs.

Étant donné que Google n’a pas réexploré ces pages, leur suppression ou leur mise à jour ne les éliminerait pas de l’index. Même des mois après la suppression, le contenu mis en cache et les données personnelles des utilisateurs ont continué d’exister dans l’index de Google.

Dans une situation comme celle-ci, il incombait au marché de corriger les bogues et de travailler directement avec Google pour supprimer le contenu sensible de la recherche.

Cas 3 : Les risques de surindexation des pages de résultats de recherche

L’indexation incontrôlée de gros volumes de pages minces et de mauvaise qualité peut se retourner contre vous, mais qu’en est-il de l’indexation des pages de résultats de recherche ?

Google n’approuve pas l’indexation des résultats de recherche internes, et de nombreux référenceurs expérimentés déconseillent fortement cette tactique. Cependant, de nombreux grands sites se sont fortement appuyés sur la recherche interne comme principal moteur de référencement, générant souvent des rendements substantiels.

Si les mesures d’engagement des utilisateurs, l’expérience de la page et la qualité du contenu sont suffisamment élevées, Google peut fermer les yeux. En fait, il existe suffisamment de preuves pour suggérer que Google pourrait même préférer une page de résultats de recherche interne de haute qualité à une page de liste mince.

Cependant, cette stratégie peut également mal tourner.

J’ai vu une fois un site d’enchères local perdre une partie importante de son classement sur les pages de recherche – et plus d’un tiers de son trafic SEO – du jour au lendemain.

La règle 20/80 s’applique dans la mesure où une petite partie des termes principaux représente la plupart des visites SEO dans les résultats de recherche indexés. Cependant, c’est souvent la longue traîne qui constitue la part du lion du volume d’URL et affiche certains des taux de conversion les plus élevés.

En conséquence, parmi les sites qui utilisent cette tactique, peu imposent des limites ou des règles strictes sur l’indexation des pages de recherche.

Cela pose deux problèmes majeurs :

Toute requête de recherche peut générer une page valide, ce qui signifie qu’un nombre infini de pages peuvent être générées automatiquement.
Tous sont indexables dans Google.

Dans le cas d’un marché de petites annonces monétisant ses pages de recherche avec des publicités tierces, cette vulnérabilité a été bien exploitée via une forme d’arbitrage publicitaire :

Un nombre énorme d’URL de recherche a été généré pour des termes louches, adultes et entièrement illicites.
Bien que ces pages générées automatiquement n’aient renvoyé aucun résultat d’inventaire réel, elles ont diffusé des publicités tierces et ont été optimisées pour se classer pour les requêtes de recherche demandées via le modèle de page et les métadonnées.
Des backlinks ont été construits vers ces pages à partir de forums de faible qualité pour les faire découvrir et explorer par des bots.
Les utilisateurs qui atterrissaient sur ces pages à partir de Google cliquaient sur les publicités tierces et se dirigeaient vers les sites de mauvaise qualité qui étaient la destination prévue.

Au moment où le stratagème a été découvert, la réputation globale du site avait été endommagée. Il a également été frappé par plusieurs pénalités et a subi des baisses massives des performances de référencement.

Adopter l’indexation gérée

Comment ces problèmes auraient-ils pu être évités ?

L’un des meilleurs moyens pour les sites de grandes entreprises de prospérer dans le référencement consiste à réduire l’indexation gérée.

Pour un site de dizaines ou de centaines de millions de pages, il est crucial d’aller au-delà d’une approche axée sur les mots clés pour adopter une approche axée sur les données, les règles et l’automatisation.

Indexation basée sur les données

Un avantage important des grands sites est la richesse des données de recherche internes à leur disposition.

Au lieu de s’appuyer sur des outils externes, ils peuvent utiliser ces données pour comprendre la demande et les tendances de recherche régionales et saisonnières à un niveau granulaire.

Ces données, lorsqu’elles sont mappées à l’inventaire de contenu existant, peuvent fournir un guide fiable sur le contenu à indexer, ainsi que sur le moment et l’endroit où le faire.

Dédupliquer et consolider

Un petit nombre d’URL faisant autorité et de haut rang est bien plus précieux qu’un grand volume de pages dispersées dans le top 100.

Il vaut la peine de consolider des pages similaires à l’aide de canoniques, en tirant parti des règles et de l’automatisation pour ce faire. Certaines pages peuvent être consolidées en fonction des scores de similarité, d’autres – regroupées si elles se classent collectivement pour des requêtes similaires.

La clé ici est l’expérimentation. Ajustez la logique et révisez les seuils au fil du temps.

Nettoyer les pages de contenu fines et vides

Lorsqu’elles sont présentes dans des volumes massifs, les pages fines et vides peuvent causer des dommages importants à l’hygiène et aux performances du site.

S’il est trop difficile de les améliorer avec un contenu précieux ou de les consolider, alors ils ne devraient pas être indexés ou même interdits.

Réduire les espaces infinis avec robots.txt

Quinze ans après que Google a écrit pour la première fois sur « espaces infinis« , le problème de la surindexation des filtres, du tri et d’autres combinaisons de paramètres continue de tourmenter de nombreux sites de commerce électronique.

Dans les cas extrêmes, les robots d’exploration peuvent bloquer les serveurs lorsqu’ils tentent de se frayer un chemin à travers ces liens. Heureusement, cela peut être facilement résolu via robots.txt.

Rendu côté client

L’utilisation du rendu côté client pour certains composants sur la page que vous ne souhaitez pas indexer par les moteurs de recherche peut être une option. Considérez cela attentivement.

Mieux encore, ces composants devraient être inaccessibles pour les utilisateurs déconnectés.

Les enjeux augmentent considérablement à mesure que l’échelle augmente

Alors que le SEO est souvent perçu comme une source de trafic « gratuite », cela est quelque peu trompeur. Il en coûte de l’argent pour héberger et diffuser du contenu.

Les coûts peuvent être négligeables par URL, mais une fois que l’échelle atteint des centaines de millions ou des milliards de pages, les centimes commencent à s’additionner pour devenir des chiffres réels.

Bien que le retour sur investissement du référencement soit difficile à mesurer, un sou économisé est un sou gagné, et les économies de coûts grâce à l’exploration et à l’indexation gérées devraient être un facteur lors de l’examen des stratégies d’indexation pour les grands sites.

Une approche pragmatique du référencement – avec une exploration et une indexation bien gérées, guidées par des données, des règles et une automatisation – peut protéger les grands sites Web contre des erreurs coûteuses.

Les opinions exprimées dans cet article sont celles de l’auteur invité et pas nécessairement Search Engine Land. Les auteurs du personnel sont répertoriés ici.

Comment améliorer l’efficacité de l’exploration et de l’indexation au niveau de l’entreprise