Brevet Microsoft sur les scores de fiabilité des sites Web et du contenu des sites pour le classement Bing Search

Microsoft a publié un brevet nommé Web Content Reliability Classification qui explique comment développer un score de fiabilité pour un site Web ou le contenu d’un site Web. Le brevet semble pouvoir être utilisé par l’équipe de recherche Bing pour un meilleur classement des sites Web et du contenu Web, mais cela ne signifie pas qu’il est actuellement utilisé dans les résultats de recherche Bing.

Le brevet a été publié le 2 novembre 2023 après avoir été déposé le 5 juillet 2023 – vous pouvez lis-le ici.

Points forts. Voici quelques points forts intéressants de cette demande de brevet.

Le score de fiabilité peut être utilisé pour bloquer du contenu, classer le contenu, fournir un avertissement de contenu et sélectionner une source pour répondre à une question, entre autres utilisations.
Les données de trafic peuvent indiquer si une source est populaire, mais populaire n’est pas la même chose que fiable.
Le traitement du langage naturel peut être utilisé pour déterminer si le contenu en ligne est grammatical, mais grammatical n’est pas non plus la même chose que fiable.
La présente technologie identifie un contenu fiable en tirant parti d’une notation d’experts pour une petite quantité de contenu Web en étendant de manière itérative ces scores à d’autres contenus en fonction de la façon dont le contenu Web est lié.
Les interactions des utilisateurs peuvent également être exploitées pour déterminer un score de fiabilité.
Le score de fiabilité élevée est généré en identifiant d’abord un contenu en ligne de haute fiabilité dans un graphique Web.
Ces sites initialement notés peuvent être décrits comme des sites germes.
Les évaluations des sites de départ peuvent être tirées de listes faisant autorité de fournisseurs de contenu fiables et connus.
Le résultat de la technologie est un score de fiabilité élevé et un score de fiabilité faible pour un contenu Web.
Différentes applications peuvent utiliser ce score pour exécuter ou guider différentes fonctions, notamment la recherche, le filtrage, la génération d’avertissements de contenu, etc.

L’abstrait. Voici le résumé du brevet :

La technologie décrite ici attribue un score de fiabilité au contenu Web, tel qu’un site Web ou une partie d’un site Web. Selon un aspect, le résultat de la technologie est un score de fiabilité élevé et un score de fiabilité faible pour un contenu Web. Le score de fiabilité élevé représente la conformité aux sites à haute fiabilité, tandis que le score de fiabilité faible représente la conformité aux sites à faible fiabilité. Le score de fiabilité élevée peut être généré en identifiant d’abord un contenu en ligne de haute fiabilité dans un graphique Web compressé. Dans une première itération, le score de fiabilité élevé des graines est utilisé pour évaluer le contenu en ligne lié aux sites de graines. À un niveau élevé, plus il y a de liens provenant de sources hautement fiables, plus le score de fiabilité du contenu lié est élevé. Le score de faible fiabilité est similaire, mais utilise des liens sortants vers des sites à faible fiabilité au lieu de liens entrants provenant de sites à haute fiabilité.

Pourquoi nous nous en soucions. De nombreux référenceurs aiment lire les documents de brevet des équipes Google et Bing Search. Même si nous savons que le simple fait qu’un brevet ait été déposé ne signifie pas qu’un moteur de recherche utilise la technologie décrite dans le brevet dans les résultats de recherche en direct. Quoi qu’il en soit, il peut être éducatif et utile de comprendre comment ces scientifiques de recherche qui travaillent chez Google et Bing réfléchissent à ces défis de classement et de notation.

Un coup de chapeau à Glenn Gabe pour avoir repéré ce brevet.