Salut Mi se intampla si mie chestia asta cateodata. Depinde mult cum ai partitiile. De exemplu cand aveam totul pe un controller RAID (adica swap, /, /var etc...) si se sugea controllerul (din motive obscure) normal ca facea exact cum descrii tu mai jos (adica sistemul merge dar nu mai putea sa faca nimic I/O). Daca in schimb mi-am pus un disk separat pt swap, /, /var in afara de un /mnt/data (care a ramas pe RAID pt ca avea datele multe si importante) nu a mai facut chestia.
De curand am iar problema pe alt server de data asta chiar daca am swap, /, /var separat. Atunci am dezvoltat o metoda de investigare. Montez un tmpfs (ramdisk on steroids) undeva, pun in el un schelet de sistem, inluzand sshd, ps, dmesg, etc... si in care montez proc, pornesc sshd-ul chrooted acolo ascultand pe alt port decat cel normal. Apoi cand iar se suge intru frumos pe acel chroot care e complet in ramdisk si vad ce se intampla (de fapt de cand am pus acel ramdisk, culmea nu a mai facut faza asta, a facut altele si oricum mi-a folosit acel ramdisk/chroot). Deci vezi cum ai distributia partitiilor, daca exista un I/O "SPOF" (single point of failure) si care ar putea fi acela (de exemplu daca folosesti acelasi FS pe toate partitiile desi le ai pe diskuri separate e posibil sa se suga ceva in kernel la nivel de FS code) etc... In orice caz ar fi un chroot ramdisk in care sa ai /proc si comenzile de baza ajuta foarte mult pt debugging :) On Fri, 20 Jun 2003, Dan Andrei Nestor wrote: > Salutare! > > Mi se intampla urmatoarea situatie ciudata: pe un server cu RedHat Adv. > Server 2.1, discuri interne si externe (prin fiber channel, qlc2300), din > cand in cand, fara nici un semn sau mesaj de eroare, serverul ramane > blocat. In timp ce este blocat, comportamentul este urmatorul: pe consola > ramane promptul de login, serverul raspunde pe retea la ping. Pe ssh, se > stabileste conexiunea tcp, dar mai departe nu merge. In loguri, din cate > m-am uitat eu, nici un fel de mesaj. Este ca o gaura neagra, din momentul > in care se blocheaza si pana cand isi revine. De revenit isi revine singur, > dupa un oarecare timp, sau dupa un reboot. (nu raspunde nici la > ctrl+alt+del, rebootul trebuie facut hard, apasand "f13" :)))) > > Vreo idee? > > 10x, > d. > > > > ---------------------------- Mihai RUSU Disclaimer: Any views or opinions presented within this e-mail are solely those of the author and do not necessarily represent those of any company, unless otherwise specifically stated.
