Redémarrages Imprévus de BOB [en cours]
Depuis l’été 2023, bob redémarre inopinément le mardi matin pour une raison inconnue. Ce problème, toujours en cours d’investigation, est documenté sur cette page.
Symptômes
En général, ce qui attire notre attention sur un redémarrage est le bot mattermost se plaignant de problèmes de backup sur alertes techniques. Cela est causé par l’arrêt de la machine au milieu d’un cycle de backup, ce qui laisse le lock d’autorestic dans un état incohérent.
Note:
La rustine dans ce cas est de réinitialiser le lock avec la commande suivante :
- snippet.sh
sudo sed -i 's/running: true/running: false/g' /DATA/docker/backups/pica02/.autorestic.lock.yml
Question:
Comment sait-on que c’est bien un reboot qui cause ça ?
La commande last reboot
donne au moment de l’écriture
reboot system boot 5.15.104-1-pve Tue Nov 28 09:37 still running reboot system boot 5.15.104-1-pve Tue Nov 21 09:15 still running reboot system boot 5.15.104-1-pve Tue Nov 14 08:54 still running reboot system boot 5.15.104-1-pve Tue Nov 7 08:33 still running reboot system boot 5.15.104-1-pve Tue Oct 31 08:11 still running reboot system boot 5.15.104-1-pve Tue Oct 17 08:29 still running reboot system boot 5.15.104-1-pve Tue Oct 10 08:07 still running reboot system boot 5.15.104-1-pve Tue Oct 3 07:46 still running reboot system boot 5.15.104-1-pve Tue Sep 26 07:25 still running reboot system boot 5.15.104-1-pve Wed Sep 20 18:06 still running reboot system boot 5.15.104-1-pve Wed Aug 23 16:41 still running reboot system boot 5.15.104-1-pve Wed Jul 5 14:11 still running reboot system boot 5.15.104-1-pve Wed Jun 28 17:02 still running reboot system boot 5.15.104-1-pve Wed Jun 21 15:36 - 16:44 (7+01:07) reboot system boot 5.15.104-1-pve Wed Jun 14 15:15 - 16:44 (14+01:29) reboot system boot 5.15.104-1-pve Wed May 17 13:49 - 16:44 (42+02:54) reboot system boot 5.15.104-1-pve Thu Apr 20 22:01 - 16:44 (68+18:43) reboot system boot 5.4.203-1-pve Thu Apr 20 21:15 - 21:54 (00:38) reboot system boot 5.4.78-2-pve Wed Mar 22 09:59 - 21:08 (29+10:09) reboot system boot 5.4.78-2-pve Wed Mar 1 12:27 - 21:08 (50+07:40) reboot system boot 5.4.78-2-pve Wed Jan 4 09:37 - 21:08 (106+10:30) reboot system boot 5.4.78-2-pve Wed Dec 14 08:33 - 21:08 (127+11:34) reboot system boot 5.4.78-2-pve Wed Dec 7 08:12 - 21:08 (134+11:55) reboot system boot 5.4.78-2-pve Wed Dec 23 23:11 - 21:08 (847+20:57)
On peut ainsi comparer les spams du bot aux reboots depuis Septembre.
Pistes
D’après la commande last reboot
précedente, il est évident que le problème est périodique, plus ou moins toutes les semaines le mardi matin. On détaille ici les pistes étudiées.
Matériel
Une panne matériel (RAM défectueuse, alimentation faiblarde) pourrait mener à ce genre de redémarrage. Cependant, deux éléments tendent à penser que cela ne peut pas être la cause :
- une panne matérielle est par nature erratique, la périodicité du phénomène ne présage donc pas d’un événement aléatoire
- les graphiques d’utilisation des ressources sont normaux juste avant les reboot. Pas de pics significatif n’est à déplorer. L’hypothèse de la surcharge menant l’alimentation à bout ne semble donc pas la bonne
Logiciel
D’un autre côté, les problèmes logiciels peuvent également entrainer des reboots. Cependant, les logs de journalctl
et proxmox ne laissent rien présage : il ne se passe rien de particulier avant ces redémarrages.
Une autre piste est celle du kernel panic, le noyau qui planterai au bout d’un certain temps pour une raison ou pour une autre. Le soucis avec cette piste est que dans ces cas là, il est impossible pour le kernel de logger ce qu’il lui arrive. La solution habituelle est de faire un core-dump pour l’analyser plus tard mais cela nécessite une intervention physique sur la machine.