L'observabilité pour renforcer la supervision des infrastructures

Pour créer sa plateforme de monitoring, Observe a choisi de s'appuyer sur le data warehouse de Snowflake pour stocker et analyser les logs et les métriques des applications de ses clients. (Crédit Observe)

Ne parlons plus de surveillance, mais d'observabilité. Mais quelle est la différence entre les deux termes ? D'un côté, on surveille en récoltant des données sur les systèmes, ce qui permet aux équipes IT internes de réagir rapidement en cas d'erreurs et de problèmes. Bref, la supervision répond parfaitement à la présence éventuelle de défaillances connues ou prévisibles. De l'autre côté, on observe en dotant les systèmes d'outils et/ou de composants pour récolter des données vérifiables et exploitables, ce qui permet par la suite toujours aux mêmes équipes de savoir quand l'incident va se produire et de comprendre aussi pourquoi. En clair, l'observabilité permet aux entreprises de corriger proactivement les problèmes. Elle serait d'autant plus efficace pour les architectures complexes et distribuées reposant sur des centaines voire des milliers de microservices, là où il devient presque impossible de prévoir toutes les défaillances. D'ailleurs, selon Gartner, d'ici 2024, 30 % des entreprises mettant en oeuvre des architectures de systèmes distribués auront adopté des techniques d'observabilité pour améliorer les performances des services des entreprises numériques, contre moins de 10 % en 2020.

Pour Gartner, cette observabilité est performante, car elle élève l'importance stratégique des bonnes données au bon moment pour une action rapide basée sur les actions confirmées des parties prenantes, plutôt que sur les intentions. Lorsqu'elle est planifiée stratégiquement et exécutée avec succès, l'observabilité appliquée est la source la plus puissante de prise de décision basée sur les données. Ainsi, pour être efficace, l'observabilité s'alimente de données (métriques, logs et traces), souvent gérées et pilotées par de l'IA, permettant ainsi d'identifier des patterns pas nécessairement connus, des variations de comportements qui peuvent engendrer des incidents et dont il est nécessaire de trouver l'origine. L'observabilité prend tout son sens surtout lorsque l'on constate le coût très élevé des temps d'indisponibilité du SI. Ce dernier est estimé, en moyenne par Gartner, à 5 600 dollars par minute. D'après leur sondage, le coût d'une heure d'indisponibilité varie entre 100 000 $ et 5 millions de dollars suivant les entreprises et leur activité. Comme la supervision, l'observabilité nécessite de mettre en place des méthodologies et un outillage adapté. Cela passe entre autres par une cartographie des services, une surveillance des métriques clés, la mise en oeuvre de plateforme d'intégration/d'interconnexion et de solutions AIOps. Et pour une observabilité efficace, il faut surtout adopter des normes et des pratiques communes.