technique:adminsys:monitoring:alerting:grafana

Configurer les alertes sur Grafana

Grafana permet de surveiller certaines métriques et de déclencher une alerte automatiquement quand un niveau d’alerte est atteint. La notification peut être envoyée par mail ou sur un canal Mattermost par exemple.

Il faut commencer par se rendre sur le Grafana de Picasoft et s’y connecter à l’aide des identifiants du pass de l’association disponible sur Gitlab.

Il faut commencer par indiquer à Grafana comment communiquer les alertes, cela se fait au moyen d’un canal d’alerte. Ici on s’attardera sur le cas de Mattermost mais ça peut être par mail par exemple.

Il faut d’abord se rendre dans la page des canaux de notifications comme dans cette image

Puis on clique sur Add channel :

Un formulaire demande de renseigner quelques informations, il faut donner un nom au canal puis on sélectionne le type Slack pour Mattermost (il y a compatibilité). On peut aussi définir ce canal comme canal par défaut. Enfin on renseigne le nom d’utilisateur à afficher sur Mattermost et l’URL du webhook (voir la documentation de Mattermost).

Le canal est maintenant fonctionnel !

Les alertes fonctionnent par graphe. On peut créer une alerte sur un graphe, il faut alors aller dans la page d’édition du graphe et cliquer sur l’ongler Alert. Un formulaire apparaît.

Il est alors possible de configurer l’intervalle entre deux évaluations de l’alerte et les conditions de déclenchement de l’alerte ainsi que le canal par lequel l’alerte passe. On peut définir une condition sur le minimum, le maximum, la moyenne, … le niveau du seuil et si l’alerte se déclenche quand on est au dessus ou en dessous.

Si on choisit un canal configuré pour Mattermost, un message formaté sera envoyé au canal, avec une description de l’alerte.

Actuellement, les métriques systèmes (usage du CPU…) sont remontées dans la base Victoria Metrics, et accessible au format “Prometheus” par Grafana. Le dashboard que nous utilisons permet de choisir quelle machine visualiser grâce un menu déroulant. Cette machine est une variable utilisée dans la requête pour interroger VM en PromQL.

Le souci est que Grafana ne supporte pas l’alerting pour les requêtes template, c’est-à-dire avec ce genre de paramètre variable. Un message du style Template variables are not supported in alert queries apparaît.

Il faudra donc trouver une autre solution si on veut ajouter de l’alerting sur les métriques (séparer les dashboards avec une machine statique, par exemple ?).

  • technique/adminsys/monitoring/alerting/grafana.txt
  • de qduchemi