technique:incidents:incident-12-10-2020

2020/10/12 : mise à jour vers Proxmox 6

21h10 : On met à jour les machines virtuelles sur Alice (pica01, pica01-test, stph1) puis on les éteint.

21h20 : Mise à jour de Proxmox 5 à Proxmox 6 sur Alice, en suivant les instructions officielles : https://pve.proxmox.com/wiki/Upgrade_from_5.x_to_6.0 ; tout se passe bien. On notera tout de même que le /boot était plein et que le nouveau kernel n’a pas pu s’installer. En effet, avant Proxmox 6.0, les vieux kernels n’étaient pas supprimés automatiquement. Depuis Proxmox 6.0 :

Note:

Old kernel images are not longer marked as NeverAutoRemove - preventing problems when /boot is mounted on a small partition.

Pour le reste aucun souci, les fichiers de configurations qui en ont besoin sont remplacés, la génération de l’initramfs se passe bien.

21h40 : Redémarrage d’Alice (reboot). Alice ne redémarre pas.

21h45 : On essaye l'accès d'urgence aux machines. On arrive bien sur l’interface AMT, mais impossible de se connecter. Le mot de passe habituel ne fonctionne pas.

Le mot de passe ne fonctionne ni sur Bob, ni sur Alice. Ce n’est donc pas un problème lié à la mise à jour d’Alice ; il semblerait que le mot de passe AMT ait changé “tout seul”, ce qui est vraiment étrange dans la mesure où personne n’a touché à la configuration ni mis à jour le BIOS, etc.

En revanche, l’accès VNC sur Bob fonctionne toujours ; écran noir sur Alice.

Les symptômes sont exactement les mêmes que lors des précédents incidents, par exemple celui du 24 octobre 2019.

Il semblerait qu’Alice se brique à chaque redémarrage software.

Le 14 octobre, à 12h25, Hugo de Tetaneutral redémarre Alice physiquement. Tout remonte, la mise à jour s’était bien passée, c’est encore et toujours le même problème.

  • Penser à externaliser les backups des services directement avant la mise à jour : actuellement on a que les backups des VM du matin, ce qui fait qu’on ne peut pas fournir les données des pads aux personnes qui le demandent sans avoir une dizaine d’heure de perte de données, en attendant que ça remonte.
  • Ne jamais redémarrer Alice sans un bénévole de Tetaneutral dans la salle TLS00 pour pouvoir redémarrer physiquement la machine. Pour en avoir le coeur net, on pourra tenter un “simple” redémarrage, sans modification du kernel.
  • Réserver Alice pour des services non-critiques
  • technique/incidents/incident-12-10-2020.txt
  • de qduchemi