Proxmoxien(ne)s,

J’ai 2 Proxmox en cluster (7.1.11, Coro 3.1.5-pve2) qui me font régulièrement 
(au moins une fois par jour) ceci:

Jun 12 03:04:41 prox1-1 corosync[4379]:   [KNET  ] link: host: 2 link: 0 is down
Jun 12 03:04:41 prox1-1 corosync[4379]:   [KNET  ] host: host: 2 (passive) best 
link: 0 (pri: 1)
Jun 12 03:04:41 prox1-1 corosync[4379]:   [KNET  ] host: host: 2 has no active 
links
Jun 12 03:04:43 prox1-1 corosync[4379]:   [KNET  ] rx: host: 2 link: 0 is up
Jun 12 03:04:43 prox1-1 corosync[4379]:   [KNET  ] host: host: 2 (passive) best 
link: 0 (pri: 1)
Jun 12 03:04:43 prox1-1 corosync[4379]:   [TOTEM ] Token has not been received 
in 2250 ms

Soit l’un, soit l’autre.

Je continue de chercher mais difficile d'isoler ce cas de figure précis en 
cherchant sur Google, étant donné le flou artistique des logs.
Evidemment, aucune perte de lien, ils sont connectés en 10G sur des Nexus, 
c’est l’unique uplink 10G qui sert pour Coro aussi pour le moment mais il est 
largement sous-utilisé.
Je me demandais donc si je dois quand même chercher du côté d’un problème de 
transmission (donc perte d’un keepalive de temps en temps), ou si Coro peut 
avoir un petit bug dans ma version actuelle.

Note: j’ai la même chose sur un autre cluster en 6.2.12 qui passe par les mêmes 
switch, sauf que sur ceux-là, j’ai aussi un message:
Jun  3 09:24:07 vh2-1 corosync[3385]:   [TOTEM ] A processor failed, forming 
new configuration.

Aucun impact opérationnel à priori.

Si quelqu’un a un pointeur sur une bonne doc de debug de Corosync….

Merci

_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/

Répondre à