Le 05/05/2017 à 17:03, Dominique Rousseau a écrit :
> Le Fri, May 05, 2017 at 04:55:16PM +0200, Julien Escario [esca...@azylog.net] 
> a écrit:
> [...]
>>
>> En revanche, en terme de symptômes, je n'ai aucun retour de pvdisplay,
>> lvdisplay, vgdisplay ou lvs.
> 
> Tu dois avec un (ou plusieurs) device qui amene tes pv* / lv* a
> rencontrer une i/o bloquante
> ( ces comandes font un scan de differents /dev/* )
> 
> Regardes ce que tu as comme file-descriptor en cours sur un des process
> bloqués :
> ls -l /proc/[le-pid]/fd/
> (ou avec lsof)
> 
> Autre piste, lancer l'une des commandes qui se bloque aves strace
> 
> Si c'est un /dev/dm-* ou /dev/mapper/* tu peux peut-etre regler le
> probleme a grands coups de dmsetup

Ah, merci, ca me fait avancer :

# ls -l /proc/8165/fd/
total 0
lr-x------ 1 root root 64 May  5 17:44 0 -> /dev/null
l-wx------ 1 root root 64 May  5 17:44 1 -> pipe:[885312848]
lrwx------ 1 root root 64 May  5 17:44 2 -> socket:[3855574]
lrwx------ 1 root root 64 May  5 17:44 3 -> /run/lock/lvm/V_drbdpool
lrwx------ 1 root root 64 May  5 17:44 4 -> /dev/mapper/control
lr-x------ 1 root root 64 May  5 17:44 5 -> /dev/sdb1
lr-x------ 1 root root 64 May  5 17:44 6 -> /dev/drbd106

(le PID d'un vgdisplay lancé dans la matinée).

Et un strace bloque sur :
stat("/dev/drbd106", {st_mode=S_IFBLK|0660, st_rdev=makedev(147, 106), ...}) = 0
open("/dev/drbd106", O_RDONLY|O_DIRECT|O_NOATIME) = 4
fstat(4, {st_mode=S_IFBLK|0660, st_rdev=makedev(147, 106), ...}) = 0
ioctl(4, BLKBSZGET, 4096)               = 0
ioctl(4, BLKPBSZGET, 512)               = 0
lseek(4, 171798626304, SEEK_SET)        = 171798626304
read(4,

On comment gentillement à pointer du doigt /dev/drbd106 qui est justement la
ressource qui à déclencher le truc.

Au départ, j'ai fait un assign de cette ressource sur cette machine. Ca a bien
démarré puis planté :
> exists device name:vm-210-disk-1 volume:0 minor:106 disk:Inconsistent 
> size:167772160 read:0 written:267956 al-writes:116 bm-writes:0 
> upper-pending:6 lower-pending:2 al-suspended:no blocked:no

donc /dev/drbd106 = vm-210-disk-1

et :
# drbdadm status
vm-210-disk-1 role:Secondary
  disk:Inconsistent
  vm4 role:Secondary
    replication:SyncTarget peer-disk:UpToDate done:0.11
  vm7 role:Primary
    replication:PausedSyncT peer-disk:UpToDate done:0.10

Donc l'affichage des outils LVM plantent parce qu'il y a une I/O bloquante sur
/dev/drbd106. Du coup, c'est plutôt un soucis avec DRBD.
Je précise que sur les nodes vm7 et vm4, tout va bien, la ressource est synchro.
Il y a un stuck avec DRBD là.

Je vais descendre dans DRBD avec du plus low level que drbdmanage et tenter de
faire oublier cette ressource à DRBD sur ce node.

DRBD serait la cause et LVM le symptôme dans ce cas.

Merci pour la piste !

Julien


Attachment: smime.p7s
Description: Signature cryptographique S/MIME

_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à