Amélioration de l'agilité DevOps et protection du pipeline de déploiement :

Avec des solutions de Business Assurance conçues pour l'ère digitale

Vue d'ensemble

À l'ère du numérique, les services numériques sont au cœur de l'innovation disruptive. L'agilité de la planification, de la livraison, de l'intégration, des tests et du déploiement continus des applications et services marque la différence entre les gagnants et les perdants dans cet environnement hautement concurrentiel. Bien que l'automatisation de ces processus offre des avantages considérables pour la diffusion continue, elle déplace les contraintes vers l'environnement de production, qui oriente désormais le flux global du courant de valeur vers les clients. Malheureusement, la télémétrie au niveau des applications utilisée par les équipes des DevOps pour la boucle de feedback est inefficace, car la plupart des contraintes se trouvent au niveau du système. Celles-ci incluent tous les sous-systèmes architecturaux associés à la prestation de services et à l'application. Les capacités de visibilité, de télémétrie et de triage de NETSCOUT basées sur la surveillance et l'analyse continues du trafic IP permettent aux organisations DevOps de devenir plus agiles et efficaces et d'aider leurs entreprises à obtenir un avantage concurrentiel sur le champ de bataille numérique.

Les principaux défis auxquels sont confrontées les équipes DevOps et la solution NETSCOUT respective décrite sur cette page sont résumés dans le tableau 1 ci-dessous.

Tableau 1 : Relever les défis DevOps

Défis du DevOps

Proposition de valeur NETSCOUT

Devenir plus productif et agile en fournissant des services plus rapidement et avec moins de ressources Permettre à DevOps d'accomplir davantage avec moins de ressources grâce à une plate-forme de télémétrie de niveau de service et une connaissance de la situation commune
Limiter au minimum l'impact de la disruption Réduire la valeur MTTR (durée moyenne de réparation)
Analyser en permanence la capacité des ressources informatiques mondiales et la préparation au déploiement de nouveaux services Boucle de feedback efficace basée sur une surveillance et une analyse en temps réel et en continu de la capacité globale des ressources de prestation de services
Assurer la qualité, la sécurité et la disponibilité du service Solutions de Business Assurance pour limiter les risques liés à la qualité, à la sécurité et à la disponibilité du service

 

Le dilemme de l'agilité DevOps


Le DevOps est à l’épicentre de cette innovation de rupture et ses performances sont directement liées aux résultats de l’entreprise. Malheureusement, plus le pipeline de déploiement accélère, plus il rencontre de résistance face au « chaos » croissant créé par la vitesse accrue des opérations. Bien que l'automatisation et l'adoption de principes d'opération agiles aident à maîtriser ce chaos pour la livraison continue, cela augmente également le chaos dans l'environnement de production. En conséquence, les équipes des opérations risquent de devenir le prochain frein qui limite le flux global de la chaîne de valeur vers les clients. La première étape que l'équipe des opérations doit entreprendre pour relever ce défi consiste à obtenir une visibilité continue et en temps réel basée sur une télémétrie au niveau système. L'équipe des opérations doit utiliser cet insight pour réduire la durée moyenne de réparation (MTTR) et établir une boucle de feedback efficace avec les équipes Dev, QA, Sec et Ops. Cet objectif est extrêmement difficile, voire impossible, à accomplir avec les technologies traditionnelles de gestion des performances applicatives (APM), telles que les agents et l'instrumentation bytecode. La raison en est que ce que les outils APM révèlent est seulement la télémétrie au niveau de l'application, par opposition à la télémétrie de bout en bout au niveau du système entier. Les solutions NETSCOUT Business Assurance (BA) utilisent des technologies basées sur le trafic IP pour relever ce défi et aider le DevOps à obtenir une visibilité au niveau système pour protéger le pipeline de déploiement à une vitesse d'opération accrue. Comme l'illustre la Figure 1 ci-dessous, cette approche est plus agile et plus efficace puisque n'importe quel point d'instrumentation du trafic IP offre un aperçu de toutes les applications et de leurs paramètres respectifs sans qu'il soit nécessaire de recourir à l'instrumentation bytecode pour chaque application individuelle.

Assurer le déploiement DevOps
Figure 1: assurer le pipeline de déploiement avec une visibilité au niveau système

Voir la lune entière [1]


Les solutions NETSCOUT Business Assurance (BA) permettent aux organisations DevOps de « voir la lune entière » en surveillant en permanence le trafic IP qui traverse l'infrastructure de prestation de services, en détectant de manière proactive les dégradations de services et en fournissant des informations exploitables sur toutes les interdépendances de services nécessaires pour réduire la durée moyenne de rétablissement (MTTR) et résoudre les problèmes avant que les utilisateurs ne soient affectés.

Cette visibilité de bout en bout au niveau système comprend la télémétrie de la charge, de la latence et des paramètres de défaillance pour tous les systèmes de prestation de services et les interdépendances entre le réseau, le serveur, les facilitateurs de service, les bases de données et les applications. Ces informations permettent non seulement d'améliorer la rapidité de la planification, du développement, de la livraison, de l'intégration, des tests et du déploiement continus, mais optimisent également l'efficacité des opérations et procurent un avantage concurrentiel.

Optimiser l'efficacité opérationnel de DevOps


La communication parfaite entre les équipes du développement (Dev) et des opérations (Ops) est un prérequis nécessaire mais non suffisant pour l'augmentation de la productivité DevOps. Même si, en théorie, l’équipe DevOps pouvait parvenir à une connaissance de la situation commune et totalement transparente au sein des équipes de développement (Dev) et des opérations (Ops), une analyse précise de la « situation » influencerait l’efficacité de cette prise de conscience commune. Si l'analyse de la situation pouvait rapidement identifier la cause fondamentale au niveau système dans tous les systèmes informatiques pertinents et dans l'application, non seulement elle réduirait considérablement la durée moyenne de rétablissement (MTTR), mais elle servirait aussi de multiplicateur de force qui permettrait aux équipes DevOps d'accomplir plus de travail avec moins de ressources. En outre, il serait beaucoup plus efficace de réaliser cette réduction de la durée moyenne de rétablissement (MTTR) sans que l’équipe de développement (Dev) n’ait à effectuer l’instrumentation bytecode pour chaque application.

Par exemple, puisqu'une partie seulement des problèmes de prestation de services est liée à une application spécifique, la productivité des développeurs est optimisée s'ils ne sont engagés que lorsque la cause première est liée à leur application spécifique. En revanche, avec une visibilité au niveau application, l’équipe de développement ne pourrait pas savoir si la cause première d’un problème de performances d’une application est liée à son code d’application ou à un autre système informatique. Cela entraînera une perte de temps précieux pour l'équipe de développement qui doit aider à résoudre des problèmes non liés à l'application. L'équipe Ops finirait également par consacrer plus de temps au dépannage de la cause première en raison du manque de visibilité sur les interdépendances entre les systèmes informatiques et les applications. Cela se traduit par la création de « zones d’inefficacité » à la fois pour les équipes de développement (Dev) et des opérations (Ops) en raison du temps et des efforts perdus, comme l'illustre la figure 2 ci-dessous.

Étapes de la télémétrie APM
Figure 2 : les avantages de la migration vers la télémétrie au niveau système : haute agilité et efficacité améliorée

L'approche de télémétrie au niveau système utilise un triage efficace du système basé sur une visibilité de bout en bout de toutes les interdépendances de la prestation de services pour identifier rapidement la cause profonde des problèmes de service. Le temps moyen nécessaire à une organisation informatique pour mener à bien le processus de triage s'appelle la durée moyenne de détection des problèmes (MTTK) et, selon ZK Research, la durée MTTK représente 90 % de la durée moyenne de rétablissement (MTTR) suite à un problème de performance de service.

L'approche de télémétrie au niveau système repose sur des mesures de performance sur l'ensemble de l'infrastructure de prestation de services qui couvre les infrastructures physiques et virtuelles, dans les locaux et hors site et dans les cloud privés et publics. Elle offre une capacité unique d’analyse des performances, des indicateurs de trafic, de la charge et des défaillances, ainsi que des flux de travail contextuels permettant de trier rapidement et de trouver la cause première des problèmes à l’origine de la dégradation des performances des applications. Un triage efficace des services peut accélérer de manière significative la durée moyenne de rétablissement (MTTR) de 80 %, ce qui permet aux équipes de développement de consacrer la plus grande partie de leur temps et de leurs efforts à la livraison de nouvelles applications et de réduire les coûts liés aux opérations associées aux activités de réparation. Cela comprend la réduction du temps passé dans la cellule de crise et la réduction des opérations, ainsi que le coût et la complexité des tâches d'assistance. L'essentiel est qu'avec une télémétrie au niveau système, les organisations DevOps peuvent « voir la lune entière », [2] améliorer la vitesse et optimiser l'efficacité.

Base de la télémétrie au niveau système Smart Data et analytique supérieure

Smart Data


Bien que l'obtention d'une visibilité au niveau système pour toutes les applications et tous les systèmes de prestation de services et leurs interdépendances puisse sembler être un défi de taille, elle est réalisable avec des Smart Data et une analytique de qualité supérieure. Les données de trafic IP constituent la base des Smart Data et sont utilisées pour générer des métadonnées hautement évolutives qui fournissent une télémétrie en temps réel et historique de tous les composants du système, y compris les réseaux physiques et virtuels, les applications de niveau n, les charges de travail, les protocoles, les serveurs, les bases de données, les utilisateurs et les dispositifs. Les principaux avantages de l'utilisation des données de trafic IP sont les suivants :

  • Télémétrie système et en temps réel - étant donné que chaque action et transaction est encapsulée dans des paquets IP qui traversent l'infrastructure physique et virtuelle, les données de trafic IP offrent le meilleur point de vue pour une visibilité de bout en bout
  • Des informations actionnables - Le trafic IP contient toutes les données [3] nécessaire pour acquérir une compréhension profonde des problèmes de gestion des applications et des performances du système
  • Informations indépendantes de l'application - Les données de trafic IP peuvent être utilisées pour surveiller toute application traditionnelle, mobile, personnalisée ou standard, indépendamment du code source, sans nécessiter d’agents ou d’instrumentation bytecode.
  • Scalabilité la plus élevée - La technologie IP normalisée est bien structurée et convient donc parfaitement au triage de systèmes scalables, qui nécessite de collecter, normaliser, corréler, organiser et analyser en permanence des volumes importants de données de manière contextuelle

Combinaison de données intelligentes avec une analytique supérieure


Figure 3 : télémétrie au niveau système Fondements : combiner des Smart Data avec une analytique supérieure

 

Analytique supérieure


Lorsque les Smart Data sont combinées à une analytique supérieure, elles peuvent révéler des insights importants sur les mesures de performance des applications et des services, telles que les volumes de trafic applicatif, les temps de réponse des serveurs d'applications, les débits des serveurs, le nombre total d'erreurs et les codes d'erreur spécifiques aux serveurs et domaines des applications. De plus, les Smart Data peuvent révéler toutes les dépendances applicatives et prendre en charge la transition contextuelle entre plusieurs couches d'analyses, facilitant ainsi le transfert efficace des tâches d'intervention en cas d'incident entre les différents groupes fonctionnels informatiques tout au long du processus de tri des causes premières. En tant que tel, le transfert vers l'équipe de développement respective devient nécessaire uniquement si la cause première est associée à l'application spécifique fournie.

L'étape finale de l'optimisation DevOps peut être réalisée avec une analyse prédictive qui détecte de manière proactive les dégradations du service avant que plusieurs utilisateurs ne soient affectés. En établissant automatiquement des lignes de base de performance, les alertes peuvent être générées en fonction de seuils prédéfinis ou d'écarts de base. Les écarts comprennent l'utilisation croissante et décroissante des liens, les taux d'échec des transactions applicatives et la réactivité. Le moteur d'analyse doit également ajuster automatiquement les configurations de base au fil du temps pour s'adapter aux modifications progressives de l'utilisation des services tout en fournissant des alertes ponctuelles sur les anomalies de performance. En utilisant ces analyses prédictives, les organisations DevOps peuvent obtenir une visibilité sur les problèmes émergents de performance des services avant qu'ils n'affectent plusieurs utilisateurs, et trier et analyser contextuellement les données d'alerte et leurs causes sous-jacentes. Le résultat global de l'utilisation de Smart Data et d'une analytique supérieure est une réduction drastique de la durée moyenne de détection des problèmes (MTTK) et de la durée moyenne de rétablissement (MTTR) comme l'illustre la Figure 4 ci-dessous.

Réduction de MTTR
Figure 4: système de tri efficace utilisant la télémétrie au niveau système et une analytique supérieure

Parmi les autres avantages de la télémétrie et du triage au niveau système, mentionnons l'amélioration de la disponibilité des services et de l'expérience de l'utilisateur, ainsi que la capacité d'adapter les services pour prendre en charge des millions d'utilisateurs dans un environnement de production.

Solutions NETSCOUT répondant aux besoins DevOps

Solutions d'efficacité opérationnelle
La plate-forme NETSCOUT nGeniusONE Service Assurance réduit considérablement la durée moyenne de détection des problèmes (MTTK) et la durée moyenne de rétablissement (MTTR), et sert de multiplicateur de force pour permettre aux équipes Ops d’accomplir davantage avec moins de ressources en réduisant au minimum le travail non planifié. Cette capacité optimise également la productivité des développeurs en réduisant les coûts de résolution des problèmes liés aux autres systèmes informatiques. Avec nGeniusONE, les gains d'efficacité fondamentaux sont réalisés de la façon suivante :

  • Détection proactive des dégradations du service en fonction des écarts par rapport aux références de performance ou des seuils prédéfinis
  • Prise en charge de flux de travail intuitifs de triage des systèmes descendants qui réduisent efficacement la durée moyenne de détection des problèmes (MTTK) en détectant la cause première sur l'ensemble du système, y compris les nombreuses applications à n-niveaux, les systèmes d'infrastructure informatiques et toutes leurs interdépendances respectives
  • Supervision des applications et des systèmes d'infrastructure existants et nouveaux

Solutions de déploiement continu agiles
La plate-forme NETSCOUT nGeniusONE offre une télémétrie en temps réel et d'analyse de tendance [4] ainsi que l'analyse pour fournir une boucle de fedback qui protège le pipeline de déploiement et augmente l'agilité des équipes DevOps. Les fonctionnalités sont les suivantes :

  • Aperçu détaillé de tous les systèmes de prestation de services et de l'analyse des causes premières en prenant en compte toutes les interdépendances entre les applications et sur les infrastructures sur site et dans le cloud.
    • La technologie Adaptive Service Intelligence (ASI) Plus fonctionnant sur les appliances InfiniStreamNG offre une visibilité en temps réel sur les systèmes DevOps et les interdépendances, y compris les réseaux physiques et virtuels, les applications de n-niveau, les charges de travail, les protocoles, les serveurs, les bases de données, les utilisateurs et les appareils.
    • La technologie ASI Plus utilise le trafic IP comme source de Smart Data, idéale pour surveiller les micro-services et les environnements complexes sur site ou dans le cloud
    • ASI eXtender (ASI-X) permet d'instrumenter et de surveiller rapidement toute application personnalisée
  • Des tableaux de bord, des rapports et des cartes de dépendance des services personnalisables aident à établir une connaissance de la situation commune entre les équipes Dev, QA et Ops et à rationaliser la boucle de feedback
  • nGeniusPULSE complète les capacités de nGeniusONE avec une visibilité en vue de la garantie des services applicatifs à travers les diverses combinaisons d'architectures privées, hybrides, SaaS et de cloud public que les entreprises déploient aujourd'hui et qui sont donc critiques pour le pipeline de déploiement.

Planification DevOps
La plate-forme nGeniusONE permet aux équipes Ops de réduire le risque de fiabilité de l'infrastructure de prestation de services associé au déploiement continu :

  • Analyse en temps réel et en continu de la capacité globale des ressources de prestation de services, avant que l'équipe Ops n'accepte le travail des équipes de développement.
  • Cela inclut une carte automatisée des dépendances de service qui donne un aperçu de la charge, de la latence et des pannes sur l'ensemble de l'infrastructure de prestation de services ainsi que de la capacité de l'infrastructure au niveau du réseau, des liens et des serveurs.
  • L'ajout de nGeniusPULSE avec sa capacité à tester la disponibilité, la réactivité et le respect des niveaux de service des services basés sur le cloud permet à la fonction DevOps de connaître les risques de fiabilité associés au déploiement continu.

Atténuation des risques métier
Les solutions NETSCOUT Business Assurance (BA) aident à réduire les risques métier et à atteindre les résultats souhaités. Ceci est accompli avec :

  • Une suite de solutions de garantie de service basées sur nGeniusONE et ASI qui aident à réduire la durée moyenne de rétablissement (MTTR) et à améliorer la qualité et la disponibilité du service.
  • Arbor Networks, la division sécurité de NETSCOUT, aide à protéger l'intégrité et la disponibilité des services grâce aux solutions de lutte contre les attaques par déni de service distribué (DDoS) et les menaces persistantes avancées (APT).

Résumé

À l'ère du numérique, l'organisation DevOps peut faire la différence entre le succès et l'échec d'une entreprise. Les principaux facteurs de réussite des équipes DevOps sont l'agilité, l'efficacité opérationnelle et la capacité à réduire les risques métier susceptibles d'empêcher l'entreprise d'atteindre les résultats escomptés. Alors que l'automatisation et la mise en œuvre des principes agiles par DevOps ont permis d'améliorer la rapidité et l'efficacité de la livraison continue, l'environnement de production est devenu la nouvelle contrainte dans le flux de la chaîne de valeur pour les clients. Cette contrainte ne peut pas être assouplie efficacement par les équipes Ops qui s'appuient sur la visibilité au niveau de l'application et sur les équipes Dev qui doivent effectuer une instrumentation bytecode pour chaque application. Les capacités de visibilité, de télémétrie et de triage de NETSCOUT basées sur la surveillance et l'analyse continues du trafic IP permettent aux organisations DevOps de devenir plus agiles et efficaces et d'aider leurs entreprises à obtenir un avantage concurrentiel sur le champ de bataille numérique.

RESSOURCES

Voix du client -

Fiches techniques
Aperçus rapides

[1] Paroles de la chanson The Whole of the Moon - The Waterboys
[2] Paroles de la chanson The Whole of the Moon - The Waterboys
[3] Couches du modèle d'interconnexion des systèmes ouverts (OSI) 2 à 7.
[4]La télémétrie est la terminologie utilisée par les équipes DevOps et comprend les métriques d'entreprise, d'application et d'infrastructure nécessaires pour surveiller le fonctionnement des systèmes dans les environnements de production.