« Presque tout le monde sait que nous utilisons les clics dans les classements. C’est là le débat : « Pourquoi essayez-vous d’obscurcir cette question si tout le monde le sait ? »
Cette citation vient d’Eric Lehman, un ancien employé de Google depuis 17 ans qui a travaillé comme ingénieur logiciel sur la qualité et le classement des recherches. Il a quitté Google en novembre.
Lehman a témoigné mercredi dernier dans le cadre du procès antitrust en cours entre les États-Unis et Google.
Si vous n’avez pas encore entendu cette citation, attendez-vous à l’entendre. Beaucoup.
Mais. Ce n’est pas tout ce que Lehman avait à dire. Les systèmes d’apprentissage automatique de Google, BERT et MUM, deviennent plus importants que les données des utilisateurs, a-t-il déclaré.
- « Dans un sens, il est préférable d’avoir plus de données utilisateur, mais les nouvelles technologies et les systèmes plus récents peuvent utiliser moins de données utilisateur. Cela évolue assez rapidement », a déclaré Lehman, tel que rapporté par Loi360.
Lehman pense que Google s’appuiera davantage sur l’apprentissage automatique pour évaluer le texte que sur les données des utilisateurs, selon un e-mail écrit par Lehman en 2018, tel que rapporté par Fortune:
- « D’énormes quantités de commentaires des utilisateurs peuvent être largement remplacées par l’apprentissage non supervisé du texte brut », écrit-il.
Données utilisateur vs données de formation. Il y avait également une confusion entre les « données utilisateur » et les données de formation » en ce qui concerne BERT. Big Tech on Trial a rapporté :
« La tentative du DOJ de mettre en accusation le témoignage de Lehman a également semblé se retourner contre lui. En réponse à une question du DOJ sur la question de savoir si Google avait un avantage à utiliser BERT par rapport à la concurrence en raison de ses données utilisateur, Lehman a déclaré que le « plus grand avantage de Google dans l’utilisation de BERT » par rapport à ses concurrents était que Google avait inventé BERT. Le DOJ a ensuite organisé une exposition intitulée « Puces à présenter à Sundar ». L’une des puces de cette exposition disait ce qui suit (d’après mes notes) : « Tout concurrent peut utiliser BERT ou des technologies similaires. Heureusement, nos données de formation nous donnent une longueur d’avance. Nous avons la possibilité de maintenir et d’étendre notre avance en utilisant pleinement les données de formation avec BERT et en les mettant à la disposition de nos utilisateurs…’
Cela aurait probablement été une mise en accusation efficace de Lehman si les « données de formation » signifiaient une sorte de données utilisateur. Mais après que le DOJ ait terminé son réexamen, le juge Mehta a demandé à Lehman à quoi faisaient référence les « données de formation ». Lehman a expliqué que c’était différent des données de recherche des utilisateurs.
Sujets sensibles. Lehman a également été interrogé par l’avocate du DOJ, Erin Murdock-Park, à propos d’une diapositive de l’un de ses diaporamas sur des « sujets sensibles » qui demandait aux employés de « ne pas discuter de l’utilisation des clics dans les recherches… ».
Selon un rapport de Big Tech on Trial (via X), Lehman a déclaré : « nous essayons d’éviter de confirmer que nous utilisons les données des utilisateurs dans le classement des résultats de recherche ».
Le journaliste Message X dit « Je n’ai pas obtenu de bonnes notes à ce sujet, mais je pense que la raison avait quelque chose à voir avec le fait de ne pas vouloir que les gens pensent que le référencement pourrait être utilisé pour manipuler les résultats de recherche. »
Google = menteurs ? Depuis qu’ils ont découvert ce témoignage, les référenceurs n’ont pas tardé à utiliser les citations de Lehman comme preuve définitive que Google mentait sur l’utilisation des clics ou du taux de clics depuis 25 ans.
La question de savoir si Google utilise les clics a été la première question posée la semaine dernière lors d’une AMA avec Gary Illyes de Google au Pubcon Pro à Austin. La réponse d’Illyes a été « techniquement, oui », car Google utilise des données de recherche historiques pour son algorithme d’apprentissage automatique RankBrain.
Techniquement oui, traduit du langage Googler, cela signifie Oui. RankBrain a été formé sur les données de recherche des utilisateurs.
Nous le savons parce qu’Illyes nous l’a déjà dit en 2018. Il a déclaré que RankBrain « utilise les données de recherche historiques pour prédire sur quoi un utilisateur serait le plus susceptible de cliquer pour une requête inédite ».
RankBrain a été utilisé pour toutes les recherches, impactant « beaucoup » d’entre elles, à partir de 2016.
La recherche Google suit tout. Mais le fait que Google suive les clics dans la recherche ne signifie pas que les clics sont utilisés comme facteur de classement direct. En d’autres termes, si le site A obtient 100 clics et que le site B obtient 101 clics, alors le site B passe automatiquement à la position 1.
Tout comme la façon dont Google utilise ses collaborateurs pour évaluer la qualité de ses résultats de recherche, Google utilise probablement les clics pour évaluer les résultats des requêtes et former ses systèmes de classement.
Pourquoi nous nous en soucions. Google utilise-t-il les clics ? Oui. Mais encore une fois, probablement pas comme signal de classement (même si, certes, je ne peux pas le dire avec une certitude à 100 % car je ne travaille pas chez Google ni n’ai accès à l’algorithme). Je sais que les clics sont bruyants et faciles à manipuler. Et pour de nombreux sites/requêtes, il n’y aurait tout simplement pas suffisamment de données à évaluer pour en faire un signal de classement utile pour Google.
Creusez plus profondément. Le plus grand mystère de l’algorithme de Google : tout ce qui a été dit sur les clics, le CTR et le taux de rebond