Comprendre et résoudre 'Découvert - actuellement non indexé'

Si tu vois « Découvert – actuellement non indexé » dans Google Search Console, cela signifie que Google connaît l’URL, mais ne l’a pas encore explorée et indexée.

Cela ne signifie pas nécessairement que la page ne sera jamais traitée. Comme leur documentation le dit, ils peuvent y revenir plus tard sans aucun effort supplémentaire de votre part.

Mais d’autres facteurs pourraient empêcher Google d’explorer et d’indexer la page, notamment :

Problèmes de serveur et problèmes techniques sur site limitant ou empêchant la capacité d’exploration de Google.
Problèmes liés à la page elle-même, tels que la qualité.

Vous pouvez également utiliser l’API d’inspection de la console de recherche Google pour mettre en file d’attente les URL pour leur coverageState statut (ainsi que d’autres points de données utiles) en masse.

Demander l’indexation via Google Search Console

C’est une solution évidente et pour la majorité des cas, cela résoudra le problème.

Parfois, Google est tout simplement lent à explorer de nouvelles URL – cela arrive. Mais d’autres fois, les problèmes sous-jacents sont le coupable.

Lorsque vous demandez l’indexation, l’une des deux choses suivantes peut se produire :

L’URL devient « Crawlé – actuellement non indexé »
Indexation temporaire

Les deux sont des symptômes de problèmes sous-jacents.

La seconde se produit parce que la demande d’indexation donne parfois à votre URL un « boost de fraîcheur » temporaire qui peut amener l’URL au-dessus du seuil de qualité requis et, à son tour, conduire à une indexation temporaire.

Recevez la newsletter quotidienne sur laquelle les spécialistes du marketing de recherche comptent.

Problèmes de qualité des pages

C’est là que le vocabulaire peut devenir déroutant. On m’a demandé : « Comment Google peut-il déterminer la qualité d’une page si elle n’a pas encore été explorée ? »

C’est une bonne question, et la réponse est que ce n’est pas possible.

Google émet une hypothèse sur la qualité de la page en se basant sur d’autres pages du domaine. Leurs classifications sont également basées sur les modèles d’URL et l’architecture du site Web.

Par conséquent, le déplacement de ces pages de la « conscience » vers la file d’attente d’exploration peut être dépriorisé en fonction du manque de qualité qu’ils ont trouvé sur des pages similaires.

Il est possible que les pages sur des modèles d’URL similaires ou celles situées dans des zones similaires de l’architecture du site aient une proposition de faible valeur par rapport à d’autres éléments de contenu ciblant les mêmes intentions d’utilisateur et les mêmes mots-clés.

Les causes possibles incluent :

La profondeur du contenu principal.
Présentation.
Niveau de contenu de support.
Unicité du contenu et des perspectives offertes.
Ou encore plus de problèmes de manipulation (c’est-à-dire que le contenu est de mauvaise qualité et généré automatiquement, tourné ou duplique directement le contenu déjà établi).

Travailler à l’amélioration de la qualité du contenu au sein du cluster de sites et des pages spécifiques peut avoir un impact positif sur la relance de l’intérêt de Google pour l’exploration de votre contenu avec un plus grand objectif.

Vous pouvez également ne pas indexer d’autres pages du site Web dont vous reconnaissez qu’elles ne sont pas de la plus haute qualité afin d’améliorer le rapport entre les pages de bonne qualité et les pages de mauvaise qualité sur le site.

Budget et efficacité du crawl

Le budget de crawl est un mécanisme souvent mal compris en SEO.

La majorité des sites Web n’ont pas à s’en soucier. En fait, Gary Illyes de Google a déclaré publiquement que probablement 90% des sites Web n’avez pas besoin de penser au budget de crawl. Il est souvent considéré comme un problème pour les sites Web d’entreprise.

L’efficacité du crawl, en revanche, peut affecter les sites Web de toutes tailles. Négligé, cela peut entraîner des problèmes sur la façon dont Google explore et traite le site Web.

Pour illustrer, si votre site Web :

Duplique les URL avec des paramètres.
Résout avec et sans barres obliques finales.
Est disponible sur HTTP et HTTPS.
Diffuse le contenu de plusieurs sous-domaines (par exemple, https://website.com et https://www.website.com).

… alors vous pourriez avoir des problèmes de duplication qui ont un impact sur les hypothèses de Google sur la priorité d’exploration en fonction d’hypothèses de site plus larges.

Vous risquez de zapper le budget d’exploration de Google avec des URL et des requêtes inutiles. Étant donné que Googlebot explore les sites Web par portions, cela peut empêcher les ressources de Google de s’étendre suffisamment pour découvrir toutes les URL nouvellement publiées aussi rapidement que vous le souhaitez.

Vous souhaitez explorer régulièrement votre site Web et vous assurer que :

Les pages se résolvent en un seul sous-domaine (comme vous le souhaitez).
Les pages se résolvent en un seul protocole HTTP.
Les URL avec paramètres sont canonisées à la racine (comme souhaité).
Les liens internes n’utilisent pas de redirections inutilement.

Si votre site Web utilise des paramètres, tels que des filtres de produits de commerce électronique, vous pouvez limiter l’exploration de ces chemins d’URI en les interdisant dans le fichier robots.txt.

Votre serveur peut également jouer un rôle important dans la manière dont Google alloue le budget pour explorer votre site Web.

Si votre serveur est surchargé et répond trop lentement, des problèmes d’exploration peuvent survenir. Dans ce cas, Googlebot ne pourra pas accéder à la page, ce qui empêchera l’exploration de certains de vos contenus.

Par conséquent, Google essaiera de revenir plus tard pour indexer le site Web, mais cela entraînera sans aucun doute un retard dans l’ensemble du processus.

Maillage interne

Lorsque vous avez un site Web, il est important d’avoir des liens internes d’une page à l’autre.

Google accorde généralement moins d’attention aux URL qui n’ont pas ou pas assez de liens internes – et peut même les exclure de son index.

Vous pouvez vérifier le nombre de liens internes vers des pages via des robots tels que Screaming Frog et Sitebulb.

Avoir une structure de site Web organisée et logique avec des liens internes est la meilleure façon d’optimiser votre site Web.

Mais si vous rencontrez des problèmes avec cela, une façon de vous assurer que toutes vos pages internes sont connectées est de « pirater » la profondeur d’exploration à l’aide de sitemaps HTML.

Ceux-ci sont conçus pour les utilisateurs, pas pour les machines. Bien qu’ils puissent être considérés comme des reliques maintenant, ils peuvent toujours être utiles.

De plus, si votre site Web contient de nombreuses URL, il est judicieux de les répartir sur plusieurs pages. Vous ne voulez pas qu’ils soient tous liés à partir d’une seule page.

Les liens internes doivent également utiliser la balise pour les liens internes au lieu de s’appuyer sur des fonctions JavaScript telles que onClick().

Si vous utilisez un framework Jamstack ou JavaScript, étudiez comment celui-ci ou toute bibliothèque associée gère les liens internes. Ceux-ci doivent être présentés sous forme de balises .

Les opinions exprimées dans cet article sont celles de l’auteur invité et pas nécessairement Search Engine Land. Les auteurs du personnel sont répertoriés ici.

Comprendre et résoudre ‘Découvert – actuellement non indexé’

Demander l’indexation via Google Search Console

Problèmes de qualité des pages

Budget et efficacité du crawl

Maillage interne