La structure HTML est-elle importante pour le référencement ?

Au cas où vous auriez manqué le dernier épisode de podcast de Search Off the Record, Gary Ilyes de Google a suscité une certaine controverse lorsqu’il a fait un commentaire sur la structure HTML qui n’avait pas beaucoup d’importance pour le référencement.

Il plus tard clarifié sur Linkedin que « ça n’a pas beaucoup d’importance » ne veut pas dire « ça n’a pas d’importance du tout ». Pourtant, cela n’a pas arrêté la controverse sur le référencement.

Étant incapable d’éviter la controverse, je n’ai pas pu m’empêcher d’intervenir – pour tenter de clarifier quelques points communs et idées fausses que je vois constamment surgir.

Alors, la structure HTML est-elle importante pour le référencement ?

La réponse est : cela dépend.

Lorsqu’Illyes parlait de la structure HTML, il faisait probablement référence à certaines des choses sur lesquelles les référenceurs aiment être obsédés :

Le nombre de balises H1 sur une page.
L’ordre des balises H.
Que quelque chose soit un <b> ou un <strong> étiqueter.
L’utilisation de tableaux par rapport à CSS pour le style.
À quelle hauteur le texte du code source apparaît-il.

Ce sont toutes des choses dont j’ai vu les référenceurs discuter au fil des ans, et même si certaines d’entre elles étaient importantes dans l’ancien temps du référencement, ce n’est plus ainsi que les choses fonctionnent.

Avant de plonger dans la question de savoir quand le HTML est important ou non pour le référencement, nous devons émettre quelques mises en garde.

La structure HTML à 100 % est toujours importante pour l’accessibilité.

L’accessibilité n’est cependant pas un facteur de classement direct, elle sort donc un peu du cadre de cet article.

Je noterai, comme d’autres l’ont souligné sur X, que si votre site n’est pas accessible, il est moins probable que les gens y créent un lien ou cliquent dessus à l’avenir, de sorte que peut affecter potentiellement votre classement SEO.

Le Guide de démarrage Google SEO récemment mis à jour mentionne même spécifiquement les balises de titre et l’accessibilité par rapport au référencement :

« Avoir vos titres dans l’ordre sémantique est fantastique pour les lecteurs d’écran, mais du point de vue de la recherche Google, peu importe si vous les utilisez dans le désordre. Le Web en général n’est pas un HTML valide, la recherche Google peut donc rarement dépendre de significations sémantiques cachées dans la spécification HTML.

Il n’existe pas non plus de nombre magique et idéal de titres qu’une page donnée devrait avoir. Cependant, si vous pensez que c’est trop, c’est probablement le cas.

Mais qu’en est-il du reste de la structure HTML ?

Le principal problème ici est notre modèle mental du fonctionnement des moteurs de recherche. Pour la plupart des gens, ce modèle n’a pas changé depuis les années 90, lorsque les moteurs de recherche étaient essentiellement des recherches lexicales. C’est-à-dire trouver le document comportant le plus de mentions du terme.

Ces moteurs de recherche avaient des fonctions de notation qui donnaient un poids supplémentaire aux occurrences du terme en gras et comptaient un H1 plus qu’un H2, etc.

Malheureusement pour notre modèle mental, la recherche s’est éloignée de l’approche lexicale pour s’orienter davantage vers une approche sémantique.

Dans la recherche sémantique, le contenu est converti en vecteurs et des algorithmes comme BERT, RankBrain, etc., sont utilisés pour interpréter le « sens » de la requête et du contenu, pas seulement pour examiner les mots qu’elle contient. Lors du processus de conversion du contenu en vecteurs, la majeure partie du code HTML est perdue.

Ce ne sont pas seulement les vecteurs qui entrent en jeu ici mais aussi le rendu. Avant que les moteurs de recherche puissent afficher JavaScript et examiner le DOM, ils devaient s’appuyer sur des astuces HTML – mais cette époque est révolue.

Tout comme ils peuvent utiliser des algorithmes comme passage-bert pour identifier l’extrait le plus pertinent de la page, ils peuvent également utiliser divers algorithmes pour déterminer le titre principal – même s’il ne figure pas dans le titre. <h1> étiqueter.

Bien sûr, <h1> est un indice ici – tout comme la taille de la police, l’emplacement pertinent par rapport au contenu et la phrase elle-même. Nous avons tous vu tellement de référenceurs marquer une infime partie de la navigation avec un H1 malgré un texte géant de 30 points au milieu de l’écran qui n’est qu’un simple message. <span> étiqueter.

Autrefois, les moteurs de recherche avaient du mal ici, mais de nos jours, ils peuvent le plus souvent identifier correctement ce géant. <span> balise comme « titre » de la page.

Cela ne signifie pas que vous ne devez pas utiliser les balises H et les éléments imbriqués appropriés. N’oubliez pas que l’accessibilité est toujours importante pour donner un indice aux moteurs de recherche. Ce sera plus propre, plus facile, plus accessible et globalement meilleur si vous le faites. Je dis simplement que les moteurs de recherche ne se contentent pas de se fier au balisage.

Une autre idée fausse concerne les multiples balises H1. C’est l’une de mes plus grandes bêtes noires.

Avec l’introduction du HTML5 et de divers éléments, il est tout à fait normal (et, dans certains cas d’accessibilité, obligatoire) d’avoir plusieurs balises H1 sur une page. Ce n’est pas quelque chose qui affectera vos efforts de référencement. (À moins que vous ne remplissiez de mots clés et que vous marquiez tout comme H1, ce qui pourrait déclencher certains indicateurs de spam.)

Alors, à quoi sert un moteur de recherche ? (Je vais trop simplifier ici car je pourrais approfondir la recherche d’informations et j’adorerais le faire autour de bières à tout moment.)

Tout simplement:

Ils détecteront la balise de titre, les titres clés (qui peuvent ou non être H1, H2, etc.) et le corps du texte.
Ils exécuteront ensuite les deux lexicaux (par exemple, BM25) et sémantique (par exemple, similarité cosinus) mesure pour déterminer la pertinence de ces sections par rapport à la requête avant de les intégrer toutes dans un algorithme d’apprentissage automatique et un classement.

Ce qu’il faut retenir, c’est qu’ils ne se soucient probablement plus vraiment de savoir s’il s’agit d’un H1 ou d’un H2 – mais simplement que leur algorithme l’a identifié comme un « en-tête » de la page.

Il en va de même pour le texte en gras, les balises span et div, etc. Il s’agit de savoir si l’algorithme (par exemple, BERT) indique qu’il est pertinent pour la requête.

Obtenez la newsletter quotidienne sur laquelle les spécialistes du marketing de recherche comptent.

Alors, quelle est l’importance de la structure HTML ?

La structure HTML peut en fait faire ou défaire votre stratégie de référencement dans de nombreux cas. Par exemple, mettre votre balise canonique dans le <body> à la place du <head> ne sera pas vu.

De même, si vous mettez un <div> dans ton <head> balise, alors la version Googlebot de Chrome supposera que vous avez oublié de fermer la tête et de démarrer le corps et de le faire pour vous, déplaçant potentiellement certaines de vos balises SEO importantes dans le corps où elles seront ignorées.

Vous n’imaginez pas combien de fois je vois ça. Il suffit qu’une seule personne colle accidentellement du code au mauvais endroit dans Google Tag Manager pour détruire l’ensemble de votre site. Pour cette seule raison, je dis aux clients de s’assurer que leurs balises SEO sont toutes plus haut dans le classement. <head> que toute autre balise.

D’autres techniques de codage HTML peuvent également nuire au référencement.

Par exemple, si au lieu d’utiliser un <a> taguer avec href attribut, votre site a un <span> avec un onclick= événement, les moteurs de recherche ne compteront pas cela comme un lien, même si les utilisateurs ne feront pas la différence. Il y a aussi des problèmes d’accessibilité, alors arrêtez de faire ça.

Lorsqu’il s’agit d’images, les moteurs de recherche exigent un <img> étiquette avec un src= attribut. Vous seriez surpris du nombre de plugins à chargement paresseux qui omettent le src= en faveur de srcset=qui, d’après mes derniers tests, fonctionne dans les navigateurs modernes mais n’est pas traité comme une « image » par Google pour le classement des images.

Je ne pense pas qu’aucun de ces exemples corresponde à ce qu’Illyes voulait dire lorsqu’il parlait de structure HTML. Je crois qu’il faisait référence aux arguments courants de l’imbrication des titres, des balises grasses, etc.

TL;DR

Dois-je m’inquiéter de mon utilisation des H1, H2, etc. ?

Oui, toujours, mais pas pour le référencement. Marquez les éléments d’une manière accessible et logique pour les utilisateurs. Ne vous inquiétez pas de forcer là-dedans <h1> balise dont le style ressemble à du texte normal.

Dois-je valider mon HTML ?

Oui, mais pas pour les classements SEO. Un code HTML valide n’est pas un facteur de classement, mais il aidera à éviter les problèmes techniques affectant le référencement. et potentiellement réduire votre travail d’accessibilité. Je suis un grand fan du Validateur W3C.

La structure HTML est-elle importante pour le référencement ?

Ça dépend. (Désolé, je n’ai pas pu résister !) Si votre balisage rend des éléments inaccessibles ou invisibles, oui, cela compte énormément. Si vous espérez obtenir un meilleur classement en réorganisant certains titres ou en mettant du texte en gras, cela n’arrivera probablement pas.

Les opinions exprimées dans cet article sont celles de l’auteur invité et ne sont pas nécessairement celles de Search Engine Land. Les auteurs du personnel sont répertoriés ici.