Witajcie, > od 2 dni mam co kilka godzin chwilowe load average > od 100 do 250. > doslownie na kilka sekund. > jak wylapac przyczyne ? > w logach nic nadzwyczajnego...
witaj w klubie - ja mam podobnei na razie na jednym serwerze, tyle ze z bardzo duza liczba userow. podejrzewam poki co : slaby zasilacz, cos z karta sieciowa, samba ma nieznaleziona dziure (2.2.8a), programik TC (HTB patched), rrdtool, dizura w kernelu [2.4.24]. w podanej kolejnosci od najbardziej podejrzanego. spora lista. zrodlo ? windows pewnie jakis w LANie :] load average gigantyczne, po wyjsciu ponad 15 serwer przestaje odpowiadac nawet na pingi. po jakims czasie (srednio okolo 20 min) wraca do pracy. zapodalem skrypta jak ponizej. w logach widzialem ze samba cos plula, wylaczylem, ale nadal to samo. uptime 15 a psaux procesy nie zajuma wiecej jak 2% czasu cpu chyba jakis bug w kernelu sie szykuje... [mam troche kombinatorow w sieciach] za wiele oceniac nie moge bo do serwera mam kilkadziesiat kilometrow. co ciekawe jak udalo mi sie - cudem - zalogowac na serwer przy LA=10 i dalem ifconfig eth0 down od razu wyszstko bylo normalnie. po podniesieniu eth0 (LAN) po 2 sekundach zerwalo polaczenie. swoja droga jak to jest mozliwe ze LA jest 15 a suma %CPU mnie wychodzi ponad 0,2 ? -- Pozdrawiam, Marcin. ==sux_psaux.sh odapalony z roota w tlo============================= #!/bin/sh kat=`date +%Y%m%d_%H`; suf=`date +%M-%S` sleep 1; mkdir $kat 2> /dev/null; uptime > $kat/psaux_${kat}-${suf} & ps aux 2>&1 | sort -k 3 -r >> $kat/psaux_${kat}-${suf} & sleep 5; cat /proc/meminfo >> $kat/psaux_${kat}-${suf} & /usr/sbin/tcpdump -n -l -v -p -i eth0 -c 100 >> $kat/psaux_${kat}-${suf}_tcpdump_eth0 & /usr/sbin/tcpdump -n -l -v -p -i eth1 -c 100 >> $kat/psaux_${kat}-${suf}_tcpdump_eth1 & if [ -e "./LOCK_STOP" ] ; then echo "stop istnieje"; exit; fi; # echo "uruchamiam ponownie" sleep 30 . ./$0 &