SEO et IA générative : dans une « relation parasitaire »

Comme les rapports circulent que le laboratoire de recherche sur l’IA OpenAI utilise des reportages de médias comme le Wall Street Journal et CNN pour former son chatbot ChatGPT, un défi encore plus grand émerge : comment les médias conservent-ils le trafic, les revenus et la pertinence à l’ère de l’IA générative ?

Les informations générées par l’IA ont longtemps inspiré la peur parmi les journalistes. En 2016, par exemple, la Press Association du Royaume-Uni a signalé son intention de utiliser l’IA pour certains reportages sportifs et électoraux.

Nous avons vu des exemples plus récents aux États-Unis, comme celui-ci Tour d’horizon de la LNH de l’Associated Press compilé avec la technologie de la société d’automatisation de contenu sportif Data Skrive.

Le PDG de la société de médias Axel Springer, qui possède des titres comme Business Insider et Politico, a récemment dit L’IA a le potentiel de remplacer complètement les journalistes. « Seuls ceux qui créent le meilleur contenu original survivront », aurait écrit Springer dans une lettre aux employés.

« Problèmes de droits d’auteur inconnus »

La question des droits d’auteur – et des problèmes juridiques potentiels, a déjà fait surface en France et Espagne.

« Si OpenAI va améliorer son modèle avec un contenu à jour sans envoyer de trafic [to the original source, it will] susciter un débat [over] qui détient les droits sur le contenu », a déclaré Marcus Tobrevice-président senior des solutions d’entreprise sur la plateforme marketing Semrush.

OpenAI a déjà vu certaines poursuites pour droit d’auteuret Dan Smullenresponsable du référencement de la plate-forme de jeux sportifs Betsperts Media and Technology Group, a déclaré que nous pouvions nous attendre à plus bientôt.

« En fait, même si certains éditeurs ont commencé à adopter du contenu assisté par l’IA dans la salle de rédaction, les équipes éditoriales à qui j’ai parlé ne sont pas à l’aise avec les résultats d’OpenAI en raison de problèmes de droits d’auteur inconnus », a ajouté Smullen.

OpenAI a pris des mesures pour répondre à ces préoccupations, telles que permettre aux éditeurs de refuser que leur contenu soit utilisé, a-t-il noté. Le laboratoire de recherche sur l’IA a également accepté de fournir une attribution lorsque ses algorithmes récupèrent des informations sur des sites d’actualités.

« Pourtant, les référenceurs de l’industrie des médias craignent que ce système ne protège pas adéquatement contre les problèmes de droit d’auteur et de propriété intellectuelle », a ajouté Smullen. « En tant que tels, les organes de presse devraient continuer à surveiller l’utilisation des données d’actualité par OpenAI et s’assurer que leur contenu est utilisé de manière responsable. »

Une solution simple serait d’ajouter des notes de bas de page renvoyant aux sources, comme ce que fait ChatGPT dans Bing.

« Nous nous attendons à quelque chose de similaire avec [Google’s conversational AI service] Barde », a ajouté Smullen.

Recevez la newsletter quotidienne sur laquelle les spécialistes du marketing de recherche comptent.

« Dégradation de la vérité »

En fin de compte, la poussée de l’IA dans les nouvelles menace de bouleverser à nouveau la consommation des médias.

Selon Ben Poultonconsultant en référencement et fondateur de l’agence de référencement Intellar, les entreprises d’intelligence artificielle utilisant des données récupérées « menacent le contrôle organisé que les organes de presse exercent depuis des décennies ».

Le résultat pourrait être dégradation supplémentaire de l’intégrité journalistique.

Smullen a noté que le manque de rémunération des éditeurs pour les données de formation pourrait conduire à un avenir dans lequel les éditeurs bloquent OpenAI et ses homologues, de sorte que les sites d’actualités de haute autorité ne sont pas explorés. Cela, à son tour, pourrait créer un défi encore plus grand avec les fausses nouvelles, y compris une diffusion plus large d’informations inexactes et/ou biaisées déguisées en faits.

En tant que tel, Smullen a appelé à ce que les éditeurs soient indemnisés pour le rôle essentiel qu’ils jouent – et Cameron Conawayun ancien journaliste d’investigation qui dirige une équipe de marketing de croissance chez le géant de la technologie Cisco et enseigne le marketing numérique à l’Université de San Francisco, est d’accord.

« Est-ce que cela pourrait aggraver la décadence de la vérité et la méfiance de la société envers les nouvelles sources légitimes? » Il a demandé. « Quel impact cela pourrait-il avoir sur la démocratie si la plupart des informations sont sans source, et qui (ou quoi) détiendrait alors le pouvoir ? »

« Implications désastreuses »

On craint même qu’OpenAI ne finisse par automatiser complètement la production de nouvelles. Toujours, Barry Adamsconsultant spécialisé en référencement de la société de référencement Polemic Digital, a noté que les systèmes d’IA génératifs ne peuvent pas prédire les nouvelles, il ne prévoit donc aucun problème immédiat.

« L’IA ne remplacera pas le journalisme lorsqu’il s’agit de rapporter l’actualité, d’enquêter sur des histoires et de demander des comptes au pouvoir », a-t-il ajouté.

Là encore, l’IA pourrait reformuler les nouvelles locales sans citation alors qu’elle crache ses propres versions. Cela, à son tour, siphonnerait le trafic et les revenus associés des sites d’actualités, ce qui est particulièrement préjudiciable aux sites d’actualités locaux qui dépendent particulièrement du trafic publicitaire, a déclaré Conaway.

Et la reformulation a le potentiel de changer le sens original du rapport.

« La combinaison de salles de presse locales décousues et financièrement vulnérables, d’un évitement et d’une méfiance généralisés des médias et de la montée de l’IA en tant que source principale pourrait avoir des implications désastreuses », a-t-il ajouté.

Mais ce n’est pas tout – attendez-le – de mauvaises nouvelles.

« Ce qui est positif pour les organisations de presse, c’est que les gens consommeront toujours des informations. C’est juste le média qui change », a déclaré Poulton. « Si ChatGPT peut résumer cinq articles sur le même sujet provenant de cinq points de vente différents en cinq secondes, n’est-ce pas un bon produit ? Peut-être que ChatGPT pourrait être utilisé sur des sites d’actualités pour aider les utilisateurs à décomposer et à trouver rapidement les informations qu’ils recherchent. »

« Une relation parasitaire »

Toutefois, les parties doivent d’abord régler la question du trafic et des recettes.

Adams a déclaré que le manque d’attribution avec les premières itérations de Bing ChatGPT et du modèle linguistique de Google pour les applications de dialogue, ou LaMDA, le préoccupe le plus ici.

« Cela sape un contrat fondamental du Web, où les moteurs de recherche et les sites Web de contenu existent dans un état symbiotique », a-t-il déclaré. « L’IA générative transforme cette symbiose en une relation parasitaire, où les moteurs de recherche prennent tout aux créateurs de contenu (c’est-à-dire le contenu nécessaire pour former [large language models (LLMs)] sur) et ne rien donner en retour. »

Cependant, YouTube, propriété de Google, utilise déjà un modèle plus symbiotique dans lequel les créateurs de contenu partagent les revenus générés par la plate-forme.

« Il n’y a aucune raison pour qu’un modèle similaire ne puisse pas être adopté pour les moteurs de recherche et le Web, sauf qu’il ferait de Google moins une machine à imprimer de l’argent et perdrait de la valeur pour les actionnaires », a ajouté Adams.

Smullen a convenu que la solution consiste à payer les éditeurs pour les données de formation.

« Semblable à Google, il abusera de sa domination jusqu’à ce que les gouvernements interviennent et remettent en question la légalité de son modèle commercial du point de vue du droit d’auteur », a déclaré Smullen. « Il est juste que les éditeurs soient rémunérés pour leur rôle dans la réalisation de la prochaine génération d’IA. »

Adams a convenu qu’il est peu probable que Google réduise volontairement ses propres bénéfices.

« Ils ne se soucieront pas d’avoir utilisé les connaissances combinées de l’humanité partagées sur le Web pour construire ces systèmes d’IA génératifs et rejettent maintenant ces créateurs sans attribution », a-t-il ajouté. « S’ils peuvent s’en tirer, ils le feront. »

« Restez vigilant »

Certains organes de presse ont déjà répondu par des accords de licence plus stricts, des règles renforcées de collecte et d’utilisation des données et l’utilisation de logiciels de protection des droits d’auteur, selon Julien Scottstratège de contenu à l’outil de gestion et d’automatisation des médias sociaux Socialbu.

« Cependant, ces mesures peuvent ne pas être suffisantes pour empêcher pleinement leur contenu d’être utilisé sans attribution », a-t-il ajouté.

Les référenceurs de l’industrie des médias demandent de meilleurs outils dans le modèle d’OpenAI, ce qui garantirait un crédit approprié, a noté Daniel ChabertPDG et fondateur de l’agence de développement Web et logiciel PurpleFire.

« Ils espèrent qu’OpenAI augmentera sa transparence concernant l’utilisation des données d’actualités et sera plus proactif pour alerter les auteurs et les éditeurs lorsque leur contenu est utilisé », a-t-il ajouté.

Pendant ce temps, les organes de presse seraient avisés d’investir dans de meilleurs systèmes de surveillance pour détecter les erreurs ou les biais dans les données générées par les modèles d’OpenAI.

« Les organes de presse doivent rester vigilants quant à l’utilisation des données d’actualité par OpenAI et prendre les mesures nécessaires pour protéger leur contenu et garantir l’exactitude et la qualité », a ajouté Chabert.

« Une première destination »

Il existe également une tactique de marketing en ligne éprouvée, qui est particulièrement pertinente ici.

Adams a noté que les sites Web doivent commencer à penser à un « avenir post-Google » et créer des marques fortes qui lient directement leur public à eux.

« Certains éditeurs réussissent assez bien dans ce domaine et ont construit des marques qui sont presque à l’abri des caprices des moteurs de recherche », a-t-il ajouté. « L’objectif est de devenir une première destination pour votre public, avec des lecteurs visitant directement votre site Web sans l’intermédiaire d’un Google ou d’un Facebook. »

À mesure que l’incitation à cliquer sur les sources originales diminue, Matt Greenwoodresponsable SEO de l’agence de recherche Reflect Digital, a convenu que les sites Web devraient « chercher à fournir des informations et des expériences qui sont plus précieuses que celles qui peuvent être condensées en quelques lignes de texte généré automatiquement, pour donner aux consommateurs une raison de continuer à visiter nos sites et à lire notre contenu original. »

Les opinions exprimées dans cet article sont celles de l’auteur invité et pas nécessairement Search Engine Land. Les auteurs du personnel sont répertoriés ici.