Restando valido tutto quanto discusso nello scambio di mail precedente,
ma non è che il problema sia ad un altro livello? Che sia l'approccio
sbagliato? Forse sto chiedendo troppo a questo server?
Questa macchina esporta via Tgt dei volumi gestiti da LVM che a suo
volta si appoggia ad un raid5 software.
Si tratta di una ventina di volumi, ognuno ha 3 snapshot (backup 1
giorno prima, 2 giorni prima, ecc.), quindi l'IO su disco è
effettivamente elevato.
I volumi esportati via iscsi (tgt) passano per due reti in fibra 10Gb
verso i server hypervisor che fanno girare le macchine virtuali.
Di tutte le macchine virtuali si pianta solo una dove c'è un database.
Effetivamente i database usano molti i dischi.
Questa macchina che funge da NAS/SAN ha una macchina fisica secondaria
configurata in modo simile, ogni giorno i volumi vengono replicati sulla
secondaria. Ho già provato ad eliminare questo passaggio per alleggerire
il lavoro, ma non cambia, ci sono comunque eventi di qualche disco che
si ferma, e a cascata fino a iscsi e si ferma per un istante. Poi
riparte subito e da solo, ma l'Hypervisor che usa i dischi via iscsi non
accetta "pause" e la macchina virtuale del database si blocca.
Vedete qualcosa di sbagliato?
Qualche idea?
Grazie