Salut

Mi se intampla si mie chestia asta cateodata. Depinde mult cum ai
partitiile. De exemplu cand aveam totul pe un controller RAID (adica swap,
/, /var etc...) si se sugea controllerul (din motive obscure) normal ca
facea exact cum descrii tu mai jos (adica sistemul merge dar nu mai putea
sa faca nimic I/O). Daca in schimb mi-am pus un disk separat pt swap, /,
/var in afara de un /mnt/data (care a ramas pe RAID pt ca avea datele
multe si importante) nu a mai facut chestia.

De curand am iar problema pe alt server de data asta chiar daca am swap,
/, /var separat. Atunci am dezvoltat o metoda de investigare. Montez un
tmpfs (ramdisk on steroids) undeva, pun in el un schelet de sistem,
inluzand sshd, ps, dmesg, etc... si in care montez proc, pornesc sshd-ul
chrooted acolo ascultand pe alt port decat cel normal. Apoi cand iar se
suge intru frumos pe acel chroot care e complet in ramdisk si vad ce se
intampla (de fapt de cand am pus acel ramdisk, culmea nu a mai facut faza
asta, a facut altele si oricum mi-a folosit acel ramdisk/chroot).

Deci vezi cum ai distributia partitiilor, daca exista un I/O "SPOF"
(single point of failure) si care ar putea fi acela (de exemplu daca
folosesti acelasi FS pe toate partitiile desi le ai pe diskuri separate e
posibil sa se suga ceva in kernel la nivel de FS code) etc... In orice caz
ar fi un chroot ramdisk in care sa ai /proc si comenzile de baza ajuta
foarte mult pt debugging :)

On Fri, 20 Jun 2003, Dan Andrei Nestor wrote:

> Salutare!
>
> Mi se intampla urmatoarea situatie ciudata: pe un server cu RedHat Adv.
> Server 2.1, discuri interne si externe (prin fiber channel, qlc2300), din
> cand in cand, fara nici un semn sau mesaj de eroare, serverul ramane
> blocat. In timp ce este blocat, comportamentul este urmatorul: pe consola
> ramane promptul de login, serverul raspunde pe retea la ping. Pe ssh, se
> stabileste conexiunea tcp, dar mai departe nu merge. In loguri, din cate
> m-am uitat eu, nici un fel de mesaj. Este ca o gaura neagra, din momentul
> in care se blocheaza si pana cand isi revine. De revenit isi revine singur,
> dupa un oarecare timp, sau dupa un reboot. (nu raspunde nici la
> ctrl+alt+del, rebootul trebuie facut hard, apasand "f13" :))))
>
> Vreo idee?
>
> 10x,
> d.
>
>
>
>

----------------------------
Mihai RUSU

Disclaimer: Any views or opinions presented within this e-mail are solely
those of the author and do not necessarily represent those of any company,
unless otherwise specifically stated.


Raspunde prin e-mail lui