technique:incidents:incident-12-10-2020

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
technique:incidents:incident-12-10-2020 [2020/10/12 22:24] – créée qduchemitechnique:incidents:incident-12-10-2020 [2021/11/22 23:09] (Version actuelle) – ↷ Liens modifiés en raison d'un déplacement. 91.224.148.61
Ligne 1: Ligne 1:
-# 2020/10/12+# 2020/10/12 : mise à jour vers Proxmox 6
  
 ## Contexte ## Contexte
  
-**21h10** : On met à jour les machines virtuelles sur Alice (`pica01`, `pica01-test`, `stph1`) puis ont les éteint.+**21h10** : On met à jour les machines virtuelles sur Alice (`pica01`, `pica01-test`, `stph1`) puis on les éteint.
  
 **21h20** : Mise à jour de Proxmox 5 à Proxmox 6 sur Alice, en suivant les instructions officielles : https://pve.proxmox.com/wiki/Upgrade_from_5.x_to_6.0 ; tout se passe bien. On notera tout de même que le `/boot` était plein et que le nouveau kernel n'a pas pu s'installer. En effet, [avant Proxmox 6.0](https://pve.proxmox.com/wiki/Roadmap#Proxmox_VE_6.0), les vieux kernels n'étaient pas supprimés automatiquement. Depuis Proxmox 6.0 : **21h20** : Mise à jour de Proxmox 5 à Proxmox 6 sur Alice, en suivant les instructions officielles : https://pve.proxmox.com/wiki/Upgrade_from_5.x_to_6.0 ; tout se passe bien. On notera tout de même que le `/boot` était plein et que le nouveau kernel n'a pas pu s'installer. En effet, [avant Proxmox 6.0](https://pve.proxmox.com/wiki/Roadmap#Proxmox_VE_6.0), les vieux kernels n'étaient pas supprimés automatiquement. Depuis Proxmox 6.0 :
Ligne 13: Ligne 13:
 **21h40** : Redémarrage d'Alice (`reboot`). Alice ne redémarre pas. **21h40** : Redémarrage d'Alice (`reboot`). Alice ne redémarre pas.
  
-**21h45** : On essaye [[technique:infrastructure:hyperviseurs:tetaneutral:urgence|l'accès d'urgence aux machines]]. On arrive bien sur l'interface AMT, mais impossible de se connecter. Le mot de passe habituel ne fonctionne pas.+**21h45** : On essaye [[technique:infrastructure:urgence|l'accès d'urgence aux machines]]. On arrive bien sur l'interface AMT, mais impossible de se connecter. Le mot de passe habituel ne fonctionne pas.
  
 ## Résolution ## Résolution
Ligne 25: Ligne 25:
 Il semblerait qu'Alice **se brique à chaque redémarrage software**.  Il semblerait qu'Alice **se brique à chaque redémarrage software**. 
  
-À suivre...+Le 14 octobre, à **12h25**, Hugo de Tetaneutral redémarre Alice physiquementTout remonte, la mise à jour s'était bien passée, c'est encore et toujours le même problème.
  
 ## Pour la prochaine fois ## Pour la prochaine fois
Ligne 31: Ligne 31:
 * Penser à externaliser les backups des services directement avant la mise à jour : actuellement on a que les backups des VM du matin, ce qui fait qu'on ne peut pas fournir les données des pads aux personnes qui le demandent sans avoir une dizaine d'heure de perte de données, en attendant que ça remonte. * Penser à externaliser les backups des services directement avant la mise à jour : actuellement on a que les backups des VM du matin, ce qui fait qu'on ne peut pas fournir les données des pads aux personnes qui le demandent sans avoir une dizaine d'heure de perte de données, en attendant que ça remonte.
 * Ne jamais redémarrer Alice sans un bénévole de Tetaneutral dans la salle TLS00 pour pouvoir redémarrer physiquement la machine. Pour en avoir le coeur net, on pourra tenter un "simple" redémarrage, sans modification du kernel. * Ne jamais redémarrer Alice sans un bénévole de Tetaneutral dans la salle TLS00 pour pouvoir redémarrer physiquement la machine. Pour en avoir le coeur net, on pourra tenter un "simple" redémarrage, sans modification du kernel.
 +* Réserver Alice pour des services non-critiques
  • technique/incidents/incident-12-10-2020.1602534277.txt.gz
  • de qduchemi