Comment accélérer les migrations de sites avec le mappage de redirection basé sur l’IA

La migration d’un grand site Web est toujours intimidante. Un trafic important est en jeu entre de nombreuses pièces mobiles, défis techniques et gestion des parties prenantes.

Historiquement, l’une des tâches les plus ardues d’un plan de migration a été le mappage de redirection. Le processus minutieux de mise en correspondance des URL de votre site actuel avec la version équivalente du nouveau site Web.

Heureusement, cette tâche qui pouvait auparavant impliquer des équipes de personnes parcourant des milliers d’URL peut être considérablement accélérée grâce aux modèles d’IA modernes.

Devriez-vous utiliser l’IA pour le mappage de redirection ?

Le terme « IA » est devenu quelqu’un qui a été confondu avec « ChatGPT » au cours de la dernière année, donc pour être très clair dès le départ, nous ne parlons pas d’utiliser des systèmes génératifs basés sur l’IA/LLM pour effectuer votre mappage de redirection.

Bien qu’il existe certaines tâches pour lesquelles des outils comme ChatGPT peuvent vous aider, comme l’écriture de cette expression régulière délicate pour la logique de redirection, l’élément génératif qui peut provoquer des hallucinations pourrait potentiellement créer des problèmes de précision pour nous.

Avantages de l’utilisation de l’IA pour le mappage de redirection

Vitesse

Le principal avantage de l’utilisation de l’IA pour le mappage de redirection est la vitesse à laquelle cela peut être effectué. Une première carte de 10 000 URL pourrait être produite en quelques minutes et révisée par un humain en quelques heures. Effectuer ce processus manuellement pour une seule personne représenterait généralement des jours de travail.

Évolutivité

Utiliser l’IA pour cartographier les redirections est une méthode que vous pouvez utiliser sur un site comportant 100 URL ou plus de 1 000 000. Les grands sites ont également tendance à être plus programmatiques ou basés sur des modèles, ce qui rend la correspondance de similarité plus précise avec ces outils.

Efficacité

Pour les sites plus grands, un travail impliquant plusieurs personnes peut facilement être géré par une seule personne possédant les connaissances appropriées, libérant ainsi les collègues pour les aider dans d’autres parties de la migration.

Précision

Bien que la méthode automatisée donne lieu à des redirections « fausses », d’après mon expérience, la précision globale des redirections a été plus élevée, car le résultat peut spécifier la similarité de la correspondance, donnant aux examinateurs manuels un guide sur les endroits où leur attention est la plus nécessaire.

Inconvénients de l’utilisation de l’IA pour le mappage de redirection

Excès de confiance

L’utilisation d’outils d’automatisation peut rendre les gens complaisants et trop dépendants du résultat. Avec une tâche aussi importante, un examen humain est toujours nécessaire.

Entraînement

Le script est pré-écrit et le processus est simple. Cependant, ce sera nouveau pour de nombreuses personnes et des environnements tels que Google Colab peuvent être intimidants.

Écart de sortie

Bien que le résultat soit déterministe, les modèles fonctionneront mieux sur certains sites que sur d’autres. Parfois, le résultat peut contenir des erreurs « idiotes », qui sont évidentes à repérer pour un humain mais plus difficiles à repérer pour une machine.

Un guide étape par étape pour le mappage d’URL avec l’IA

À la fin de ce processus, nous visons à produire une feuille de calcul répertoriant les URL « de » et « vers » en mappant les URL d’origine de notre site Web en direct aux URL de destination de notre (nouveau) site Web intermédiaire.

Pour cet exemple, pour simplifier les choses, nous allons simplement mapper nos pages HTML, et non des éléments supplémentaires tels que du CSS ou des images, bien que cela soit également possible.

Outils que nous utiliserons

  • Robot d’exploration de site Web Screaming Frog: Un robot d’exploration de sites Web puissant et flexible, Screaming Frog nous permet de collecter les URL et les métadonnées associées dont nous avons besoin pour la correspondance.
  • Google Colab : Un service cloud gratuit qui utilise un environnement de notebook Jupyter, vous permettant d’exécuter une gamme de langues directement depuis votre navigateur sans avoir à installer quoi que ce soit localement. Google Colab est la façon dont nous allons exécuter nos scripts Python pour effectuer la correspondance d’URL.
  • Matchmaker de redirection automatisé pour les migrations de sites: Le script Python par Daniel Emery que nous exécuterons dans Colab.

Étape 1 : Explorez votre site Web en direct avec Screaming Frog

Vous devrez effectuer une exploration standard sur votre site Web. Selon la façon dont votre site Web est construit, cela peut nécessiter ou non un Analyse JavaScript. L’objectif est de produire une liste du plus grand nombre possible de pages accessibles sur votre site.

Étape 2 : Exportez les pages HTML avec 200 codes d’état

Une fois l’exploration terminée, nous souhaitons exporter toutes les URL HTML trouvées avec un code d’état 200.

Tout d’abord, dans le coin supérieur gauche, nous devons sélectionner « HTML » dans le menu déroulant.

Screaming Frog - Surbrillance - Filtre HTML

Ensuite, cliquez sur l’icône de filtre des curseurs en haut à droite et créez un filtre pour Codes d’état contenant 200.

En surbrillance : options de filtre personnalisées

Enfin, cliquez sur Exporter pour enregistrer ces données au format CSV.

En surbrillance : bouton Exporter

Cela vous fournira une liste de nos URL en direct actuelles et de toutes les métadonnées par défaut que Screaming Frog collecte à leur sujet, telles que les titres et les balises d’en-tête. Enregistrez ce fichier sous origine.csv.

Note importante: Votre plan de migration complet doit prendre en compte des éléments tels que les redirections 301 existantes et les URL susceptibles de générer du trafic sur votre site qui ne sont pas accessibles lors d’une exploration initiale. Ce guide est destiné uniquement à démontrer une partie de ce processus de mappage d’URL, il ne s’agit pas d’un guide exhaustif.

Étape 3 : Répétez les étapes 1 et 2 pour votre site Web intermédiaire

Nous devons maintenant rassembler les mêmes données à partir de notre site Web de préparation, afin d’avoir quelque chose à comparer.

En fonction de la façon dont votre site intermédiaire est sécurisé, vous devrez peut-être utiliser des fonctionnalités telles que Authentification par formulaires de Screaming Frog si protégé par mot de passe.

Une fois l’analyse terminée, vous devez exporter les données et enregistrer ce fichier sous destination.csv.

Facultatif : recherchez et remplacez le domaine ou le sous-domaine de votre site de test pour qu’il corresponde à votre site en ligne

Il est probable que votre site Web intermédiaire se trouve sur un sous-domaine, un TLD ou même un domaine différent qui ne correspondra pas à notre URL de destination réelle. Pour cette raison, j’utiliserai une fonction Rechercher et remplacer sur mon fichier destination.csv pour modifier le chemin afin qu’il corresponde au sous-domaine, domaine ou TLD final du site en direct.

Par exemple:

  • Mon site Web en direct est https://withcandour.co.uk/ (origine.csv)
  • Mon site Web de préparation est https://testing.withcandour.dev/ (destination.csv)
  • Le site reste sur le même domaine ; c’est juste une refonte avec des URL différentes, donc j’ouvrirais destination.csv et trouverais n’importe quelle instance de https://testing.withcandour.dev et remplacez-le par https://withcandour.co.uk.
Rechercher et remplacer dans Excel

Cela signifie également que lorsque la carte de redirection est produite, le résultat est correct et seule la logique de redirection finale doit être écrite.

Étape 4 : Exécutez le script Python de Google Colab

Lorsque vous accéder au script dans votre navigateur, vous verrez qu’il est divisé en plusieurs blocs de code et survoler chacun d’eux vous donnera une icône « lecture ». C’est si vous souhaitez exécuter un bloc de code à la fois.

Cependant, le script fonctionnera parfaitement en exécutant simplement tous les blocs de code, ce que vous pouvez faire en accédant au Durée‘menu et sélection Exécutez tout.

Exécution de Google Colab

Il n’y a aucune condition préalable pour exécuter le script ; cela créera un environnement cloud et lors de la première exécution dans votre instance, il faudra environ une minute pour installer les modules requis.

Chaque bloc de code sera accompagné d’une petite coche verte une fois terminé, mais le troisième bloc de code nécessitera votre saisie pour continuer et il est facile de le manquer car vous devrez probablement faire défiler vers le bas pour voir l’invite.


Obtenez la newsletter quotidienne sur laquelle les spécialistes du marketing de recherche comptent.


Étape 5 : Téléchargez origin.csv et destination.csv

En surbrillance : invite de téléchargement de fichier

Lorsque vous y êtes invité, cliquez sur Choisir des fichiers et accédez à l’endroit où vous avez enregistré votre fichier origin.csv. Une fois que vous avez sélectionné ce fichier, il sera téléchargé et vous serez invité à faire de même pour votre destination.csv.

Étape 6 : Sélectionnez les champs à utiliser pour la correspondance de similarité

Ce qui rend ce script particulièrement puissant est la possibilité d’utiliser plusieurs ensembles de métadonnées pour votre comparaison.

Cela signifie que si vous êtes dans une situation où vous déplacez une architecture où votre adresse URL n’est pas comparable, vous pouvez exécuter l’algorithme de similarité sur d’autres facteurs sous votre contrôle, tels que les titres de page ou les en-têtes.

Jetez un œil aux deux sites et essayez de juger ce que vous pensez être des éléments qui restent assez cohérents entre eux. En général, je conseillerais de commencer simplement et d’ajouter plus de champs si vous n’obtenez pas les résultats souhaités.

Dans mon exemple, nous avons conservé une convention de dénomination d’URL similaire, bien que non identique, et les titres de nos pages restent cohérents lorsque nous copions le contenu.

Sélectionnez les éléments que vous souhaitez utiliser et cliquez sur le bouton Allons-y!

Champs de correspondance de similarité

Étape 7 : Observez la magie

Les principaux composants du script sont entièrement MiniLM-L6-v2 et FAISS, mais que sont-ils et que font-ils ?

all-MiniLM-L6-v2 est un modèle petit et efficace de la série Microsoft de modèles MiniLM conçus pour les tâches de traitement du langage naturel (NLP). MiniLM va convertir les données textuelles que nous lui avons fournies en vecteurs numériques qui capturent leur signification.

Ces vecteurs permettent ensuite la recherche de similarité, effectuée par Facebook AI Similarity Search (FAISS), une bibliothèque développée par Facebook AI Research pour une recherche efficace de similarité et un regroupement de vecteurs denses. Cela permettra de trouver rapidement nos paires de contenus les plus similaires dans l’ensemble de données.

Étape 7 : Téléchargez output.csv et triez par similarity_score

Le fichier output.csv devrait automatiquement être téléchargé depuis votre navigateur. Si vous l’ouvrez, vous devriez avoir trois colonnes : origin_url, matched_url et similarity_score.

Exemple de sortie CSV

Dans votre tableur préféré, je vous recommande de trier par similarité_score.

Excel Trier par score de similarité

Le score de similarité vous donne une idée de la qualité de la correspondance. Un score de similarité de 1 suggère une correspondance exacte.

En vérifiant mon fichier de sortie, j’ai immédiatement constaté qu’environ 95 % de mes URL avaient un score de similarité supérieur à 0,98, il y a donc de fortes chances que j’aie économisé beaucoup de temps.

Étape 8 : Validez humainement vos résultats

Portez une attention particulière aux scores de similarité les plus bas sur votre feuille ; c’est probablement là qu’aucune bonne correspondance ne peut être trouvée.

Output.csv : similitudes les moins bien notées

Dans mon exemple, il y avait quelques mauvaises correspondances sur la page de l’équipe, ce qui m’a amené à découvrir que tous les profils d’équipe n’avaient pas encore été créés sur le site de préparation – une trouvaille vraiment utile.

Le script nous a également donné des recommandations de redirection très utiles pour le contenu de l’ancien blog que nous avons décidé de supprimer et de ne pas inclure sur le nouveau site Web, mais nous avons maintenant une suggestion de redirection si nous voulons transmettre le trafic vers quelque chose de connexe – c’est finalement votre choix.

Étape 9 : Ajustez et répétez

Si vous n’obtenez pas les résultats souhaités, je vérifierais que les champs que vous utilisez pour la correspondance restent aussi cohérents que possible entre les sites. Sinon, essayez un autre champ ou groupe de champs et réexécutez.

Plus d’IA à venir

En général, j’ai mis du temps à adopter l’IA (en particulier l’IA générative) dans le processus de mappage de redirection, car le coût des erreurs peut être élevé et les erreurs d’IA peuvent parfois être difficiles à repérer.

Cependant, d’après mes tests, j’ai trouvé que ces modèles d’IA spécifiques étaient robustes pour cette tâche particulière et cela a fondamentalement changé ma façon d’aborder les migrations de sites.

Le contrôle et la surveillance humaine sont toujours nécessaires, mais le temps gagné grâce à la majeure partie du travail signifie que vous pouvez effectuer une intervention humaine plus approfondie et réfléchie et terminer la tâche plusieurs heures avant l’endroit où vous seriez habituellement.

Dans un avenir pas si lointain, je pense que nous verrons des modèles plus spécifiques qui nous permettront de prendre des mesures supplémentaires, notamment en améliorant la vitesse et l’efficacité de la prochaine étape, la logique de redirection.

Les opinions exprimées dans cet article sont celles de l’auteur invité et ne sont pas nécessairement celles de Search Engine Land. Les auteurs du personnel sont répertoriés ici.

Newsletter

Rejoignez notre newsletter pour des astuces chaque semaine