technique:incidents:bob-redemarrages

Redémarrages Imprévus de BOB [en cours]

Depuis l’été 2023, bob redémarre inopinément le mardi matin pour une raison inconnue. Ce problème, toujours en cours d’investigation, est documenté sur cette page.

En général, ce qui attire notre attention sur un redémarrage est le bot mattermost se plaignant de problèmes de backup sur alertes techniques. Cela est causé par l’arrêt de la machine au milieu d’un cycle de backup, ce qui laisse le lock d’autorestic dans un état incohérent.

Note:

La rustine dans ce cas est de réinitialiser le lock avec la commande suivante :

snippet.sh
sudo sed -i 's/running: true/running: false/g' /DATA/docker/backups/pica02/.autorestic.lock.yml

Question:

Comment sait-on que c’est bien un reboot qui cause ça ?

La commande last reboot donne au moment de l’écriture

reboot   system boot  5.15.104-1-pve   Tue Nov 28 09:37   still running
reboot   system boot  5.15.104-1-pve   Tue Nov 21 09:15   still running
reboot   system boot  5.15.104-1-pve   Tue Nov 14 08:54   still running
reboot   system boot  5.15.104-1-pve   Tue Nov  7 08:33   still running
reboot   system boot  5.15.104-1-pve   Tue Oct 31 08:11   still running
reboot   system boot  5.15.104-1-pve   Tue Oct 17 08:29   still running
reboot   system boot  5.15.104-1-pve   Tue Oct 10 08:07   still running
reboot   system boot  5.15.104-1-pve   Tue Oct  3 07:46   still running
reboot   system boot  5.15.104-1-pve   Tue Sep 26 07:25   still running
reboot   system boot  5.15.104-1-pve   Wed Sep 20 18:06   still running
reboot   system boot  5.15.104-1-pve   Wed Aug 23 16:41   still running
reboot   system boot  5.15.104-1-pve   Wed Jul  5 14:11   still running
reboot   system boot  5.15.104-1-pve   Wed Jun 28 17:02   still running
reboot   system boot  5.15.104-1-pve   Wed Jun 21 15:36 - 16:44 (7+01:07)
reboot   system boot  5.15.104-1-pve   Wed Jun 14 15:15 - 16:44 (14+01:29)
reboot   system boot  5.15.104-1-pve   Wed May 17 13:49 - 16:44 (42+02:54)
reboot   system boot  5.15.104-1-pve   Thu Apr 20 22:01 - 16:44 (68+18:43)
reboot   system boot  5.4.203-1-pve    Thu Apr 20 21:15 - 21:54  (00:38)
reboot   system boot  5.4.78-2-pve     Wed Mar 22 09:59 - 21:08 (29+10:09)
reboot   system boot  5.4.78-2-pve     Wed Mar  1 12:27 - 21:08 (50+07:40)
reboot   system boot  5.4.78-2-pve     Wed Jan  4 09:37 - 21:08 (106+10:30)
reboot   system boot  5.4.78-2-pve     Wed Dec 14 08:33 - 21:08 (127+11:34)
reboot   system boot  5.4.78-2-pve     Wed Dec  7 08:12 - 21:08 (134+11:55)
reboot   system boot  5.4.78-2-pve     Wed Dec 23 23:11 - 21:08 (847+20:57)

On peut ainsi comparer les spams du bot aux reboots depuis Septembre.

D’après la commande last reboot précedente, il est évident que le problème est périodique, plus ou moins toutes les semaines le mardi matin. On détaille ici les pistes étudiées.

Une panne matériel (RAM défectueuse, alimentation faiblarde) pourrait mener à ce genre de redémarrage. Cependant, deux éléments tendent à penser que cela ne peut pas être la cause :

  • une panne matérielle est par nature erratique, la périodicité du phénomène ne présage donc pas d’un événement aléatoire
  • les graphiques d’utilisation des ressources sont normaux juste avant les reboot. Pas de pics significatif n’est à déplorer. L’hypothèse de la surcharge menant l’alimentation à bout ne semble donc pas la bonne

D’un autre côté, les problèmes logiciels peuvent également entrainer des reboots. Cependant, les logs de journalctl et proxmox ne laissent rien présage : il ne se passe rien de particulier avant ces redémarrages.

Une autre piste est celle du kernel panic, le noyau qui planterai au bout d’un certain temps pour une raison ou pour une autre. Le soucis avec cette piste est que dans ces cas là, il est impossible pour le kernel de logger ce qu’il lui arrive. La solution habituelle est de faire un core-dump pour l’analyser plus tard mais cela nécessite une intervention physique sur la machine.

  • technique/incidents/bob-redemarrages.txt
  • de limaanto