Navigation

Dans le but de surveiller l’activité de l’infrastructure, il a été décidé de mettre en place une infrastructure de monitoring. Il existe plusieurs manières de faire du monitoring :

collecter des informations sur l’état des serveurs (Est-ce que les machine sont connectées au réseau ? Le CPU est il surchargé ?, etc.)
collecter des informations sur les services (temps de réponse d’une application par exemple)
collecter des données sur l’utilisation des services (nombre de comptes, personnes connectées, etc.)
collecter des données sur les erreurs qui surviennent sur les machines (messages de logs système)
collecter des données sur les erreurs qui surviennent dans l’exécution des services (messages de logs des services)

Bien entendu, tout ceci est complémentaire. Chaque type de données listé ici permet de fournir des informations d’un type particulier sur l’infrastructure. C’est la combinaison de tout ou partie de ces données qui forme le monitoring. Comme ces données sont de types différents, les manières de les collecter, analyser et restituer sont différentes. On distingue de ce fait 2 grands axes dans le monitoring : la métrologie et le logging.

La métrologie est la partie du monitoring qui va se charger de mesurer l’infrastructure. À intervalle réguliers (quelques secondes ou minutes), on effectue des mesures de différentes valeurs : charge du CPU, nombre de compte crées sur un service, espace disque restant, etc. Toutes ces mesures seront stockées, avec la date exacte de la mesure. Les mesures successives vont ainsi permettre de tracer une évolution dans le temps de la valeur qui est mesurée.
En multipliant les valeurs mesurées, on obtient ainsi une vision complète de l’état de fonctionnement de l’infrastructure et des services, mais aussi un historique pour analyser l’évolution de son état.

En métrologie (dans le contexte du monitoring d’infrastructure informatique), la succession des mesures de chaque type de sonde (par exemple “la charge CPU”) s’appelle une timeserie (une série dans le temps donc). La succession des mesures pour une sonde très précise (par exemple “la charge CPU sur le serveur pica01) s’appelle une métrique.

Picasoft a mis en place, au fil du temps, une stack de métrologie complète pour mesurer ses serveurs et ses services. Le détail est proposé dans la section dédiée.

L’alerting, ou supervision, est la partie du monitoring qui se charge d’évaluer des règles à intervalles réguliers pour détecter des situations que l’on considère comme problématiques (disque plein, CPU trop élevé, trop de code d’erreurs HTTP, etc). Quand une règle est évaluée positivement, le système d’alerte décide que faire. En général, il s’agit de transmettre l’information à l’équipe technique en étant le plus parcimonieux possible pour ne pas surcharger.

Le logging est la partie du monitoring qui se charge de collecter, traiter, et restituer les messages de logs produits par l’infrastructure (logs systèmes et applicatifs). Les logs permettent de détecter lorsqu’un évènement se produit dans une application ou au niveau d’une machine, le traitement de ces messages permet donc de tracer la succession d’évènements qui se sont produits, en particulier les erreurs.

À ce jour, de nombreux essais (en particulier des TX en P17 et P20) de mettre en place une solution de logging ont été menés à Picasoft. Cependant aucune solution n’a pour le moment été réellement déployée et mise en utilisation.