"35% des mots sont incompréhensibles": La formation avec les traductions à ordures Wikipedia est un drame pour les langues minoritaires

Lorsque Kenneth Wehr a repris la version Wikipedia à Groenlandes il y a quatre ans, sa première mesure a été drastique: effacer presque tout. C'était, selon lui, le seul moyen pour le projet d'avoir une certaine possibilité de survivre. Wehr, un allemand de 26 ans obsédé par le Groenland, a découvert que Wikipedia dans cette langue, parlée par quelque 57 000 personnes, était un mirage.

Mais cela se produit également dans des paradis authentiques tels que Hawaï, où Noah Ha'alilio Salomon souligne qu'environ 35% des paroles de certaines pages de Wikipedia hawaïenne sont incompréhensibles. Bien que ce soit quelque chose qui a son explication.

Faux traducteurs. Malgré environ 1 500 articles dans cette langue, la grande majorité avait été créée par des personnes qui ne parlaient pas la langue, en utilisant des traducteurs automatiques. Le résultat, comme indiqué dans la revue de la technologie MIT, a été une catastrophe: des articles avec des erreurs grammaticales de base, des mots dénués de sens et même des données absurdes, comme une entrée qui indiquait que le Canada n'avait que 41 habitants.

« Les phrases n'ont fait aucun sens ou contenaient des erreurs évidentes », a déploré Wehr. « Les traducteurs de l'IA sont vraiment mauvais à Groenlandais. »

Basé sur la prédiction. Les grands modèles de l'intelligence artificielle, de Google Translate en Chatgpt, apprennent à « parler » de nouvelles langues analysant des quantités massives de texte extrait d'Internet. Pour de nombreuses langues minoritaires, avec peu de présence numérique, Wikipedia est souvent la plus grande, sinon la seule, source de données linguistiques disponibles. Et c'est là que commence la grande destruction linguistique.

Et à la fin, tout commence par des utilisateurs bien intentionnés (ou pas tant) qui utilisent des outils de traduction automatique pour créer des articles dans Wikipedia dans des langues minoritaires. Mais logiquement, ils ne pensent pas que ces traducteurs ne sont pas bien formés pour ces langues en raison des quelques ressources qui sont en soi sur le réseau.

Cyclique. Avec toutes ces informations générées avec des traducteurs automatiques, le matériel avec lequel les futurs modèles d'IA fonctionneront également, car ils utiliseront les informations sur le réseau. De cette façon, les nouveaux modèles d'IA apprennent de ces textes «à ordures», perpétuant et amplifiant les erreurs qui ont été faites auparavant.

Maintenant, les nouveaux outils de traduction qui découlent sont générés à partir des traductions d'autres IA, puis les erreurs sont accumulées les unes sur les autres. Et à la fin, ce que nous espérons avoir est une catastrophe authentique.

Ça va plus. Des bénévoles qui travaillent dans quatre langues africaines estimées à Revue de la technologie du MIT Que entre 40% et 60% des articles de leurs éditions Wikipedia étaient des traductions automatiques de Corogle des Nations Unies. Un audit de l'édition inuktitut (une langue indigène du Canada) a révélé que plus des deux tiers des pages contenaient des fragments générés de cette manière.

La dépendance. Déjà en 2020, on estimait que Wikipedia constituait plus de la moitié des données de formation pour l'IA dans les langues parlées par des millions de personnes en Afrique, comme Malgache, Yoruba et Shona. En 2022, une équipe de recherche allemande a découvert que pour 27 langues à faible revenu, Wikipedia était la seule source de données linguistiques facilement accessibles sur Internet.

« Ces modèles sont basés sur des données brutes », explique Kevin Scannell, un informaticien qui développe un logiciel pour Danger. « Il n'y a pas de livres de grammaire. Il n'y a pas de dictionnaires. Il n'y a rien de plus que le texte qui est introduit. »

Les ravisseurs. Trond Trosterud, linguiste informatique de l'Université de Tromsø, avertit ce phénomène depuis des années. Il a inventé le terme « kidnappeurs de Wikipedia » pour décrire un sous-ensemble d'utilisateurs qui, soit par ingéniosité, soit pour un empressement à « aider » à inonder ces petites éditions avec un contenu de faible qualité. Plus précisément, cela indique que ces utilisateurs sont « armés de Google Translate », qui catégorise le principal problème.

Autrefois, c'était quelque chose d'impensable, car nous n'avions qu'une série de dictionnaires entre deux langues et traduire à la fin nécessitait beaucoup de temps. Mais à la fin, un contenu très long «copie et coller» peut être généré.

Ils vous donnent les outils. Wikipedia elle-même offre aujourd'hui aux utilisateurs cet outil appelé «Contenu Translate». Cela vous permet de traduire l'article dans une langue à une autre en conservant le format d'origine. Cependant, en fonction des moteurs externes logiquement, les erreurs ont commencé à émerger et les inexactitudes étaient des majuscules.

Il a été atteint à un point tel que la version anglaise de Wikipedia a cessé de montrer dans une large mesure le contenu généré avec cet outil de traduction s'il ne passait pas par un critique humain. Tout cela parce qu'ils n'ont pas respecté la norme de qualité minimale qui a été demandée. Mais dans les plus petites éditions de Wikipedia, il n'y a pas d'armée d'éditeurs humains qui peuvent corriger les erreurs commises par les traducteurs de l'IA.

Un exemple de ceci est dans Yuet Man Lee, un professeur canadien, qui a admis avoir utilisé Chatgpt et Google Translate pour créer des articles dans Inuktitut. Une décision de l'UE prise après avoir vu « l'arrogance du grand wikipedia », car c'est qu'en anglais il y a beaucoup de contenu, mais dans les langues minoritaires. Mais c'est quelque chose qu'il a fait confiance à quelqu'un qui viendrait plus tard pour le corriger, bien que la réalité soit que personne n'a touché les articles depuis lors.

Les conséquences. Dans le nord du Nigéria, Abdulkadir Abdulkadir consacre trois heures par jour à modifier Wikipedia à Fula, une langue parlée par des bergers et des agriculteurs. Il le voit comme un outil vital pour transporter les connaissances de l'agriculteur vers des villages éloignés. Mais si les informations sont traduites, il peut évidemment y avoir de grands dommages aux cultures des personnes qui ont fait confiance à cette entrée.

Il met plusieurs exemples pour pouvoir l'illustrer. Spécifie spécifiquement que les traducteurs automatiques confondent le mot Fula pour « récolte » avec « fièvre » ou « bien-être ». Bien qu'il raconte également comment il a dû corriger un article sur Caupí, une culture fondamentale en Afrique, car elle était pratiquement illisible. Il estime que 60% des articles de Fula sont des traductions automatiques des Corgognes de l'ONU.

De l'autre côté du pays, Lucy Iwuala, rédactrice en chef d'Igbo, est encore plus franc. « Les dégâts sont déjà faits », dit-il, tout en vérifiant les éléments nouvellement créés qui contiennent des lettres qui n'existent même pas dans l'alphabet Igbo. Il souligne que cette édition des entrées de Wikipedia pour elle est une forme de lutte culturelle, car elle se sent identifiée à ces entrées.

Images | Oberon Copeland