J’explore plusieurs possibilités.

Mes clusters sont bien time-synced (un avec timesyncd, l’autre avec chrony), 
donc je suis enclin à écarter cette piste.

Je prends une trace du traffic corosync (port 5405) pour tenter de détecter un 
raté.

Merci

> Le 13 juin 2022 à 12:52, Francois Romieu <rom...@fr.zoreil.com> a écrit :
> 
> Bonjour,
> 
> David Ponzone <david.ponz...@gmail.com> :
> [...]
>> Je me demandais donc si je dois quand même chercher du côté d’un problème de 
>> transmission (donc perte d’un keepalive de temps en temps), ou si Coro peut 
>> avoir un petit bug dans ma version actuelle.
> 
> Perte, retard, fluctuation de la synchro horaire ou latence de traitement.
> 
> Je n'ai rien remarqué de ressemblant dans l'historique git disponible via
> https://github.com/corosync/corosync.git que ce soit entre la v3.1.5 et
> la v3.1.6 ou entre la v3.1.5 et la branche courante.
> 
> Je n'ai pas assez examiné les sources pour te dire si la log d'état de
> lien reflète effectivement un changement de lien tel qu'il pourrait être
> observé via netlink ou bien s'il traduit l'absence de retour de
> communication dans les temps avec une entité distante mais la log totem
> indique quand même un peu un hors-temps.
> 
> Ca ne me choquerait pas de commencer par un 'timeout 86400 tcpdump -w blah'
> dans les hôtes impliqués pour voir si le traffic (udp ?) est effectivement
> perturbé lorsque l'incident est signalé.
> 
> -- 
> Ueimor

_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/

Répondre à