Le 30/06/2017 à 12:34, David Ponzone a écrit :
> Hmm c’est en tout cas une évolution intéressante pour migrer de LVM/iSCSI et 
> Qcows2/NFS.
> Reste que d’après ce que je lis, c’est pas sec-archisec, donc ça mérite peut 
> -être d’attendre encore 1 ou 2 ans.

On a déjà eu un ou deux moments ... intéressants ;-)

Le plus gros : le stack DRBD qui ne communique plus avec le management : à
priori, un lock sur une I/O quelconque qui n'a jamais rendu la main, reboot du
nœud indispensable. Résolu depuis d'après Linbit, à voir, je n'ai pas encore
fait la montée de version.

En fait, en prod, ca marche. Linbit, quand ils parlent de not production ready,
c'est notamment parce qu'ils incluent encore des changements non
retro-compatibles avant la version finale. Du coup, mon upgrade à venir va être
assez fun semble t'il. L'été, c'est fait pour ça ;-) (sérieux, qualité, toussa).

Sinon, c'est surtout des pertes de synchro sur une ressource ici et là, sans
qu'on sache pourquoi. Avec un bon monitoring, un simple unassign/assign résoud
le problème. On doit le faire 3 fois par mois pour ~ 80 VMs sur ce cluster.

On a aussi un cluster marrant pour un client avec deux machines réparties dans
deux DCs et un VPN entre les deux (tincd sur ... ipv6).
Ben figure toi, que ça marche nickel ! Peut être pas des perfs monstrueuses mais
ca fait le job.

En fait, on fait du RAID1 (parce qu'on est riches) avec du LVM-thin (ZFS ferait
le boulot aussi) et DRBD créé un LV par image de VM dans le vg thin.
Dans l'absolu, le RAID1 soft est un peu excessif puisque la redondance est faite
au dessus. On peut se permettre de perdre un disque sans downtime.

En revanche, mercredi, on a voulu restaurer une VM suite à une upgrade qui a
très mal tourné et on a plafonné à 15Mo/s, même avec la synchro DRBD coupée
(ressource mono-nœud). Je pense plutôt à une merde avec le format VMA introduit
dans Proxmox. Pas mal de râleries là dessus sur le forum (si quelqu'un a des
infos, je prends).

> Question subsidiaire: ça supporte comment un freeze du switch 10G ?

Ben, les VMs vont continuer à tourner tranquillement et le secondary récupèrera
les diff des blocs écrits entre temps au moment où il repassera en connected.
Sur une petite coupure, on resync entre 5 et 10% des blocs.
Idem si un nœud reboote complètement.

En revanche, il y a des setups bien plus touchys que ceux qu'on fait nous : avec
du RDMA en IPoIB par exemple. Linbit a pas mal bossé là dessus semble t'il et
quand les perfs comptent vraiment, ça doit pouvoir suivre (d'après la comm de
Linbit, hein !).

La vache, chuis trop bavard et j'ai faim.

Julien

Attachment: smime.p7s
Description: Signature cryptographique S/MIME

_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à