De la résilience à la capacité de survie : comment l’IA force à repenser la continuité des activités

L’intelligence artificielle oblige les entreprises à modifier presque tous les aspects de leur activité. Des opérations à l’embauche en passant par les ventes et la formation, le changement se produit plus rapidement que jamais. Un aspect de ce changement qui est passé inaperçu est la nécessité pour les entreprises de repenser leurs plans de continuité des activités.

L’IA pousse les entreprises à aller au-delà des idées traditionnelles de résilience et à se tourner vers des architectures et des modèles opérationnels qui supposent des perturbations systémiques continues – et qui peuvent malgré tout permettre à l’entreprise de continuer à fonctionner. Pour les responsables des technologies de l’information, cela signifie que la continuité des activités passe d’un exercice de récupération de documents et de sinistre à une discipline opérationnelle.

Equinix Inc. annonce récente, « La résilience ne suffit pas : les nouvelles règles de continuité des activités », fait valoir que la redondance et le basculement ne suffisent plus à mesure que les perturbations deviennent systémiques. La société met en avant des recherches indiquant que les entreprises du Global 2000 subissent désormais environ 400 milliards de dollars de temps d'arrêt par an, avec un coût moyen d'environ 540 000 dollars par heure, soulignant à quel point le problème de continuité s'est étendu à l'ensemble de l'entreprise. Je m’attends à ce qu’à mesure que l’IA soit de plus en plus intégrée aux organisations et que la productivité augmente, le coût des temps d’arrêt augmentera également.

Le message définit la « survivabilité opérationnelle » et présente Zscaler Inc.Business Continuity Cloud de , fonctionnant sur l'infrastructure Equinix, comme exemple d'« indépendance architecturale ». Cet environnement parallèle isolé des pannes dispose de pipelines de déploiement, de chemins réseau, de domaines et de routage distincts, et est conçu pour rester opérationnel lorsque la pile principale ne le peut pas. Il ne se positionne pas comme une sauvegarde à froid ou une région secondaire, mais comme un plan de contrôle et de données logiquement séparé, fonctionnant en continu, qui préserve les politiques de confiance zéro, l'expérience utilisateur et la conformité même lorsque les environnements ou les équipes principaux sont dégradés.

Pourquoi l'IA change la conversation sur la continuité

L’article d’Equinix qualifie l’IA de « multiplicateur de force » pour le risque de continuité. À mesure que les entreprises font passer l’IA du stade pilote à la production, les charges de travail deviennent de plus en plus distribuées, sensibles à la latence et profondément intégrées aux opérations en temps réel. Lorsque les services d’IA échouent, les organisations ne perdent pas seulement du calcul ; ils perdent les systèmes de décision qui pilotent désormais la logistique, la détection des fraudes, l'expérience client et les processus critiques pour les revenus.

Au-delà, plusieurs tendances convergent :

Les charges de travail d’IA sont hautement interconnectées. La formation et l'inférence de modèles s'étendent généralement sur plusieurs cloud, magasins de données et réseaux, ce qui augmente la probabilité de dépendances partagées cachées.
L’IA augmente les enjeux en matière de latence. Les charges de travail génératives et analytiques se situent de plus en plus dans le chemin des transactions, de sorte que la dégradation se traduit directement par un impact visible par l'utilisateur, et non seulement par des rapports plus lents.
L’IA remodèle le paysage des menaces. Les adversaires utilisent l'IA pour automatiser et étendre les attaques, accélérer la découverte de mauvaises configurations et générer une ingénierie sociale plus convaincante, augmentant ainsi la fréquence et la complexité des incidents auxquels les services informatiques doivent répondre.

Dans cet environnement, la continuité et la résilience doivent tenir compte de l’IA dans deux directions : protéger l’IA en tant que dépendance critique et utiliser l’IA pour créer des capacités de continuité plus adaptatives.

De la résilience à l’indépendance architecturale

Traditionnellement, la résilience signifiait construire des systèmes robustes avec une redondance améliorée, un clustering, des centres de données de sauvegarde et des processus de reprise après sinistre pour restaurer le service après une panne. La réalité est que cela est nécessaire mais pas suffisant, car les environnements principal et de sauvegarde partagent souvent des dépendances invisibles, telles que les régions cloud, les fournisseurs d'identité, les plans de contrôle ou les équipes opérationnelles.

L’idée de « l’indépendance architecturale » pousse la continuité encore plus loin :

Rayons de souffle séparés : les environnements parallèles sont conçus de manière à ce que les pannes d'une pile ne se propagent pas automatiquement à l'autre, en utilisant des empreintes d'infrastructure, des chemins réseau et des domaines distincts.
Indépendance à plusieurs niveaux : bien que l'infrastructure physique soit importante, les pipelines de déploiement, les fenêtres de changement, les systèmes de support et même les équipes opérationnelles le sont aussi. Ceux-ci peuvent être découplés pour éviter une défaillance en mode commun.
Posture toujours actif : au lieu d'un environnement de veille attendant le basculement, des environnements indépendants s'exécutent simultanément, ce qui rend le basculement transparent pour les utilisateurs et les points finaux et évite une reconfiguration manuelle risquée. Cela présente des avantages économiques évidents par rapport à un système parallèle en « veille » continue.

En pratique, cela signifie que les responsables informatiques doivent dépasser la pensée traditionnelle « N+1 dans le même cloud » et prendre en compte l'indépendance par fournisseur, par plate-forme et même par contrôle organisationnel.

L’IA comme moteur de risque et de résilience

L'IA n'est pas simplement une charge de travail parmi d'autres que vous devez protéger, mais c'est également un outil permettant de transformer la façon dont la continuité est gérée.

Facteurs de risque

Nouvelles dépendances : les plates-formes d'IA hébergées dans le cloud, les modèles tiers et les flux de données externes introduisent de nouveaux risques en matière de chaîne d'approvisionnement et de concentration, en particulier lorsque plusieurs processus critiques dépendent du même fournisseur.
Intégrité des modèles et des données : les hallucinations de modèles, les données d'entraînement corrompues ou les attaques d'empoisonnement peuvent transformer les décisions basées sur l'IA en un risque de continuité, en particulier dans les opérations automatisées.
Incertitude réglementaire : les réglementations émergentes en matière d’IA peuvent imposer des changements opérationnels rapides, affectant les modèles et les données pouvant être utilisés et l’endroit où ils peuvent être exécutés.

Opportunités

Continuité prédictive : les systèmes d'IA peuvent analyser la télémétrie et les signaux externes, tels que les mesures d'infrastructure, la météo, les événements géopolitiques et les données de la chaîne d'approvisionnement, pour prévoir les perturbations avant qu'elles ne surviennent.
Opérations d'auto-réparation : l'IA agentique peut lier directement la détection des anomalies à la correction automatisée, permettant ainsi une infrastructure capable de reconfigurer, de mettre à l'échelle ou d'isoler les composants de manière autonome.
Tests plus intelligents : l'ingénierie et la simulation du chaos basées sur l'IA permettent aux équipes d'explorer un ensemble beaucoup plus large de scénarios de défaillance, y compris ceux spécifiques à l'IA, que ne le permettent les exercices manuels sur table.

Cela implique que les stratégies de continuité qui ignorent l’IA, soit en tant qu’atout, soit en tant que source de risque, sont déjà obsolètes.

Conseils destinés aux responsables informatiques et opérationnels

Pour un public informatique qui vit cela au quotidien, la question est de savoir comment transformer ces idées en prochaines étapes tangibles. Plusieurs leçons peuvent être tirées de l'annonce d'Equinix et du travail plus large de l'industrie autour de la résilience axée sur l'IA :

Cartographiez le rayon d'explosion de l'ère de l'IA

L’indépendance architecturale ne peut se construire si l’on ne sait pas où se concentrent les dépendances.

Inventoriez les services métiers critiques basés sur l'IA, y compris l'endroit où les modèles s'exécutent, les données qu'ils consomment et les cloud, sites de colocation et réseaux qu'ils traversent.
Identifiez les dépendances partagées entre les chemins « principaux » et « de secours » : fournisseurs d'identité, DNS, plans de contrôle, piles d'observabilité, pipelines CI/CD et équipes opérationnelles.

Utilisez cette carte pour identifier les endroits où une mauvaise configuration, une panne régionale ou un problème de fournisseur pourrait nuire aux deux côtés de votre conception actuelle de reprise après sinistre.

Concevoir pour l'indépendance, pas seulement pour la redondance

Une fois que vous avez compris les dépendances partagées, refactorisez les architectures de continuité pour donner la priorité à l'indépendance.

Séparez les plans de contrôle et de données lorsque cela est possible et envisagez d'utiliser une infrastructure d'interconnexion neutre pour dissocier la connectivité du sort de tout cloud unique.
Lorsque vous dépendez fortement d'un seul fournisseur de sécurité ou de connectivité, explorez des environnements parallèles continus, similaires dans leur esprit au Business Continuity Cloud de Zscaler, qui s'exécutent sur des infrastructures et des chemins réseau distincts.

Cela ne signifie pas tout dupliquer ; cela signifie faire des choix délibérés quant aux couches qui doivent être indépendantes pour une véritable capacité de survie.

Intégrez l’IA à votre boîte à outils de continuité

L’IA devrait faire partie intégrante de votre stratégie de continuité au même titre que la sauvegarde et la surveillance.

Créez ou adoptez une détection des anomalies basée sur l'IA dans la télémétrie de l'infrastructure, du réseau, des applications et de la sécurité pour détecter plus tôt les précurseurs des pannes.
Commencez par une automatisation « humaine dans la boucle », laissant l'IA recommander des actions correctives et passez progressivement à des runbooks entièrement automatisés où le risque est faible et les modèles sont bien compris.

L’objectif est de raccourcir le chemin entre la détection et l’action, tout en gardant les humains fermement responsables des décisions à fort impact.

Traitez l’IA elle-même comme un domaine de risque pour la continuité

Les professionnels de la continuité des activités doivent ajouter l’IA à leurs analyses d’impact et à leurs exercices théoriques.

Incluez les défaillances de la plateforme d'IA et des modèles dans les évaluations d'impact sur l'entreprise : que se passe-t-il si les points de terminaison principaux de votre modèle sont indisponibles pendant une heure, un jour ou une semaine ?
Évaluez les fournisseurs d’IA tiers selon la même optique de continuité et de résilience que celle que vous appliquez aux principaux logiciels en tant que service et aux services cloud, y compris leurs propres capacités de sauvegarde, de basculement et de réponse aux incidents.
Établissez une gouvernance claire pour l’utilisation de l’IA dans les processus de continuité, y compris la validation des modèles, les contrôles de qualité des données et les voies de remontée d’informations lorsque les résultats de l’IA entrent en conflit avec le jugement des experts.

Ceci est particulièrement important dans la mesure où davantage de décisions opérationnelles dans des domaines tels que la sécurité, la logistique et les opérations informatiques sont déléguées aux systèmes d’IA.

Faire évoluer le modèle opérationnel pour la résilience autonome

Enfin, la continuité dans un monde axé sur l’IA est autant un défi de modèle opérationnel que de technologie.

Créez une infrastructure d'observabilité unifiée afin que l'IA dispose des données dont elle a besoin pour raisonner dans les domaines des applications, de l'infrastructure, du réseau et de la sécurité.
Faites passer les équipes d'une réponse manuelle aux incidents à l'ingénierie de garde-fous et de comportements de récupération autonomes, en mesurant le succès en fonction du temps moyen de détection, d'atténuation et d'apprentissage, et non seulement en fonction des mesures de disponibilité traditionnelles.
Intégrez les considérations de continuité dans les équipes d’ingénierie de plateforme et de plateforme d’IA afin que les propriétés de résilience soient conçues dès le départ, et non ajoutées plus tard.

L'accent mis par Equinix sur la « survivabilité opérationnelle » reflète le changement de mentalité : assumez les perturbations, assumez l'IA à la fois comme dépendance et comme outil, et concevez votre environnement pour que l'entreprise continue de fonctionner malgré tout.

Zeus Kerravala est analyste principal chez ZK Research, une division de Kerravala Consulting. Il a écrit cet article pour SiliconANGLE.