Des opérations réactives à l’infrastructure autonome : ce que les responsables informatiques doivent faire ensuite

Alors que les agents d’intelligence artificielle commencent à proliférer dans l’infrastructure informatique, les responsables informatiques ne se posent plus la question : « Comment pouvons-nous surveiller chaque alerte ? » à « Comment concevoir une infrastructure capable de résoudre ses propres problèmes ? »

Les équipes opérationnelles peuvent désormais déployer des agents pour trier les alertes, corréler les données opérationnelles et automatiser certaines étapes correctives sans surveillance constante. La possibilité de libérer du temps pour un travail plus significatif et stratégique pourrait constituer un changement monumental dans la façon dont l’informatique est gérée.

Le modèle opérationnel repose depuis toujours sur des mesures réactives, ce qui signifie que les équipes doivent être disponibles 24 heures sur 24. La crise opérationnelle causée par la prolifération des outils, la pénurie de talents et l’épuisement professionnel a rendu ce scénario intenable. L’informatique autonome peut être la réponse.

Mais même si l’enthousiasme est manifeste, seuls 5 % des professionnels de l’informatique que nous avons récemment interrogés déclarent que l’IA est actuellement au cœur de leurs opérations. Compte tenu de cet écart entre l’ambition et l’exécution de l’IA, que faudra-t-il pour construire l’infrastructure nécessaire à l’autonomie dans les années à venir ?

Plus que de la technologie

Passer de flux de travail assistés par l’IA à des opérations autonomes nécessite plus que des modèles sophistiqués ; cela dépend d’une visibilité unifiée et d’un accès fiable aux données opérationnelles dans l’ensemble de l’environnement informatique. Après tout, les systèmes autonomes ne peuvent pas gérer ce qu’ils ne peuvent pas voir.

Dans de nombreux cas, le problème ne réside pas dans le manque de données. Les organisations utilisent déjà des piles d'observabilité complexes pour surveiller les alertes, la télémétrie, les journaux et les signaux de performances. Le problème est que ces systèmes fonctionnent souvent de manière isolée. Lorsque le contexte opérationnel est fragmenté, les décisions sont souvent prises avec une visibilité partielle. L’autonomie peut en fait amplifier ces angles morts.

Les normes et intégrations de données sont devenues des éléments mobiles essentiels dans le calendrier de transformation autonome. Ils donnent aux agents la structure nécessaire pour interpréter et corréler les données entre les systèmes, permettant ainsi des flux de travail plus autonomes. Le protocole de contexte de modèle open source d'Anthropic PBC a contribué à standardiser la façon dont l'IA se connecte à des données disparates entre les applications, les outils de développement et les flux de travail. En permettant aux systèmes d'exposer des données ou des actions pertinentes via une interface commune, MCP aide l'informatique à passer de flux de travail agentiques isolés à des opérations autonomes fondées sur une compréhension plus complète de l'environnement.

Les organisations s'appuient désormais sur ces avancées pour concevoir une infrastructure d'IA qui va bien au-delà des simples commandes « si-alors » vers des agents capables de comprendre et de résoudre les problèmes de manière indépendante. Toutefois, la connectivité ne constitue qu’un élément de la préparation. Les données doivent toujours être exactes, cohérentes et à jour pour étayer des décisions fiables.

Construire une fondation de données

Voici ce que les responsables informatiques doivent cocher sur leurs listes avant d'étendre les agents aux flux de travail opérationnels :

Maintenir un inventaire à jour. Utilisez la découverte automatisée pour conserver une vue précise des appareils, des applications, des ressources cloud, des identités et des configurations dans l'ensemble de l'environnement informatique.
Normalisez les données sur lesquelles s’appuient les agents. Standardisez les formats et les champs, depuis les dates et horodatages jusqu'aux identifiants d'actifs et aux attributs de télémétrie, tout en supprimant les doublons et les incohérences.
Alignez les métadonnées sur tous les systèmes. Remplacez le balisage de forme libre par des champs approuvés, des vocabulaires contrôlés et des structures de balises hiérarchiques cohérentes afin que les agents puissent interpréter le contexte de manière fiable sur tous les systèmes.
Validez en permanence la qualité des données. Signalez les enregistrements périmés, les champs manquants, les sources contradictoires, les classifications incohérentes et les erreurs potentielles de saisie manuelle pour maintenir les données opérationnelles à jour, complètes et utilisables.

L’élimination des silos de données ne se limite pas à améliorer l’accès ; il s'agit de créer une source unique et cohérente de vérité à partir de laquelle les agents peuvent raisonner de manière fiable.

Tâches à faible risque et à grande valeur

Le succès d’une infrastructure informatique autonome dépendra également du réalisme et de la solidité des responsables informatiques en matière de retour sur investissement et d’exigences humaines. Cela signifie évaluer quels cas d’utilisation de l’automatisation apportent une valeur mesurable et lesquels ajoutent des coûts ou de la complexité, sans pour autant améliorer les résultats.

Équilibrez ambition et discipline. Cela commence par identifier les tâches répétitives et bien établies où l'automatisation peut apporter une valeur claire sans introduire de risques inutiles. Les exemples sont :

Correction des points de terminaison. L'IA peut analyser les tickets, l'état des appareils, les journaux d'applications, les modifications de politique et les incidents connus pour identifier les causes probables et exécuter les étapes correctives approuvées, telles que la suppression des caches, la réparation des configurations ou la réapplication des politiques des appareils.
Réponse aux anomalies du réseau. Les agents peuvent corréler les alertes réseau, les données topologiques et les informations sur les appareils pour déterminer la source des anomalies et évaluer les actifs concernés. Ils peuvent ensuite prendre des mesures de confinement prédéfinies, telles que la désactivation des ports d'accès non critiques ou la transmission du problème à l'approbation humaine lorsque l'impact commercial est incertain ou que l'action présente un risque élevé.
Tâches de routine du cycle de vie des informations d’identification. Des éléments tels que les rotations d’accréditations ou les renouvellements de certificats suivent des étapes déterministes et constituent des candidats idéaux pour l’automatisation. L’IA peut ajouter de la valeur en détectant quand ces actions peuvent être nécessaires en dehors des cycles normaux de rotation ou de renouvellement, par exemple en identifiant une utilisation anormale des informations d’identification.

Les responsables informatiques doivent être pragmatiques à l’égard des systèmes en boucle fermée et des coûts boule de neige associés au déploiement d’agents à grande échelle. Les outils agents peuvent désormais résoudre des tickets et des demandes simples, mais le jugement humain reste nécessaire pour les problèmes et décisions informatiques à enjeux plus élevés. Des incidents récents tels que la panne de service impliquant l'outil de codage Kiro d'Amazon Web Services Inc. soulignent ce besoin. La réponse d'Amazon a été d'ajouter un examen obligatoire par les pairs pour l'accès à la production, soulignant ainsi l'importance de garder les humains au courant.

Doug Murray est PDG de la société de surveillance et de gestion des infrastructures Auvik Networks Inc. Il a écrit cet article pour SiliconANGLE.