J’explore plusieurs possibilités. Mes clusters sont bien time-synced (un avec timesyncd, l’autre avec chrony), donc je suis enclin à écarter cette piste.
Je prends une trace du traffic corosync (port 5405) pour tenter de détecter un raté. Merci > Le 13 juin 2022 à 12:52, Francois Romieu <rom...@fr.zoreil.com> a écrit : > > Bonjour, > > David Ponzone <david.ponz...@gmail.com> : > [...] >> Je me demandais donc si je dois quand même chercher du côté d’un problème de >> transmission (donc perte d’un keepalive de temps en temps), ou si Coro peut >> avoir un petit bug dans ma version actuelle. > > Perte, retard, fluctuation de la synchro horaire ou latence de traitement. > > Je n'ai rien remarqué de ressemblant dans l'historique git disponible via > https://github.com/corosync/corosync.git que ce soit entre la v3.1.5 et > la v3.1.6 ou entre la v3.1.5 et la branche courante. > > Je n'ai pas assez examiné les sources pour te dire si la log d'état de > lien reflète effectivement un changement de lien tel qu'il pourrait être > observé via netlink ou bien s'il traduit l'absence de retour de > communication dans les temps avec une entité distante mais la log totem > indique quand même un peu un hors-temps. > > Ca ne me choquerait pas de commencer par un 'timeout 86400 tcpdump -w blah' > dans les hôtes impliqués pour voir si le traffic (udp ?) est effectivement > perturbé lorsque l'incident est signalé. > > -- > Ueimor _______________________________________________ Liste de diffusion du %(real_name)s http://www.frsag.org/