On sait déjà ce qui a provoqué le crash d'AWS qui a déclenché le chaos sur Internet : un échec de l'automatisation, le pari total d'Amazon

lundi dernier nous découvrons On rappelle rapidement les inconvénients d'un Internet décentralisé : Amazon Web Services a subi un crash et comme un effet domino, des centaines de services et sites web ont cessé de fonctionner correctement pendant plusieurs heures. D'Alexa à Perplexity ou Canvas en passant par Roblox et le New York Times… et oui, cela a également empêché de dormir (littéralement) ceux qui possédaient ces luxueux lits intelligents à 5 000 euros.

Nous n'avons pas eu à attendre trop longtemps pour qu'Amazon révèle la cause de la panne du service AWS : une erreur dans le logiciel d'automatisation qui s'est glissée et s'est développée comme une boule de neige. Une chaîne d’événements en cascade qui a mis fin à cette chute massive.

Dans le rapport détaillé documentant l'incident, Amazon explique que les clients AWS n'ont pas pu se connecter au système de base de données où leurs données sont stockées (appelé DynamoDB) pendant un 'vice caché du système automatisé 'Service de gestion DNS'.

Un échec de l’automatisation qui s’est développé comme une boule de neige jusqu’à l’avalanche mondiale

Sous le capot. DynamoDB gère des centaines de milliers d'enregistrements DNS, en utilisant l'automatisation pour surveiller le système et garantir que les enregistrements sont mis à jour fréquemment, en ajoutant de la capacité si nécessaire, en gérant les pannes matérielles et en distribuant efficacement le trafic. Apparemment, il y avait un enregistrement DNS vide dans la région du centre de données US-East-1 en Virginie, mais l'erreur n'a pas été automatiquement corrigée, les opérateurs ont donc dû intervenir pour la corriger manuellement.

Ainsi, AWS a globalement désactivé son planificateur et son exécuteur DNS DynamoDB tout en corrigeant les conditions qui ont conduit à la panne et en ajoutant des protections supplémentaires, explique-t-il. De plus, le problème a également provoqué des plantages dans d'autres outils AWS. Bien que l'incident ait duré quelques heures, étant donné qu'Amazon Web Service est le plus grand fournisseur de cloud avec une part de 30 %, son impact sur l'Internet mondial a été considérable.

Il convient de rappeler que l’automatisation chez Amazon franchit des étapes historiques, avec un million de robots dans ses entrepôts. À tel point que dans les entrepôts, le nombre de robots est en passe de dépasser celui des humains. Cet été, le PDG d'Amazon a souligné l'impact de l'IA, assurant que si tout se passe bien, cela entraînera tôt ou tard davantage de licenciements dans l'entreprise (on estime que ce chiffre atteindra 27 000 à partir de 2022).

The Guardian recueille les déclarations du professeur d'informatique et de systèmes d'information à l'Université de Melbourne et du Dr Suelette Dreyfus, qui résument les conséquences de la décision et comment elle s'oppose à la raison de l'existence d'Internet : «Internet a été conçu pour être résilient ; Il existait de nombreux autres canaux pour rediriger le trafic en cas de problèmes ou d'attaques, mais nous avons perdu une partie de cette résilience en dépendant autant d'une poignée de géants de la technologie qui non seulement stockent les données, mais hébergent également les services qui les gèrent..'

Couverture | Xataka

Newsletter

Rejoignez notre newsletter pour des astuces chaque semaine