Re: load average: 250

m Wed, 18 Feb 2004 18:28:08 -0600

Witajcie,

> od 2 dni mam co kilka godzin chwilowe load average
> od 100 do 250.
> doslownie na kilka sekund.
> jak wylapac przyczyne ?
> w logach nic nadzwyczajnego...


witaj w klubie - ja mam podobnei na razie na jednym serwerze,
tyle ze z bardzo duza liczba userow.
podejrzewam poki co : slaby zasilacz, cos z karta sieciowa, samba ma
nieznaleziona dziure (2.2.8a), programik TC (HTB patched), rrdtool,
dizura w kernelu [2.4.24].
w podanej kolejnosci od najbardziej podejrzanego.
spora lista.

zrodlo ? windows pewnie jakis w LANie :]

load average gigantyczne, po wyjsciu ponad 15 serwer przestaje odpowiadac nawet 
na
pingi. po jakims czasie (srednio okolo 20 min) wraca do pracy.
zapodalem skrypta jak ponizej. w logach widzialem ze samba cos plula,
wylaczylem, ale nadal to samo.
uptime 15 a psaux procesy nie zajuma wiecej jak 2% czasu cpu
chyba jakis bug w kernelu sie szykuje... [mam troche kombinatorow w
sieciach]
za wiele oceniac nie moge bo do serwera mam kilkadziesiat kilometrow.

co ciekawe jak udalo mi sie - cudem - zalogowac na serwer przy LA=10 i
dalem ifconfig eth0 down od razu wyszstko bylo normalnie. po
podniesieniu eth0 (LAN) po 2 sekundach zerwalo polaczenie.

swoja droga jak to jest mozliwe ze LA jest 15 a suma %CPU mnie
wychodzi ponad 0,2 ?


-- 
Pozdrawiam,
Marcin.

==sux_psaux.sh odapalony z roota w tlo=============================
#!/bin/sh

kat=`date +%Y%m%d_%H`;
suf=`date +%M-%S`

sleep 1;
mkdir $kat 2> /dev/null;

uptime > $kat/psaux_${kat}-${suf}  &
ps aux 2>&1 | sort -k 3 -r >> $kat/psaux_${kat}-${suf}  &
sleep 5;
cat /proc/meminfo >> $kat/psaux_${kat}-${suf}  &
/usr/sbin/tcpdump -n -l -v -p -i eth0 -c 100 >> 
$kat/psaux_${kat}-${suf}_tcpdump_eth0 &
/usr/sbin/tcpdump -n -l -v -p -i eth1 -c 100 >> 
$kat/psaux_${kat}-${suf}_tcpdump_eth1 &

 if [ -e "./LOCK_STOP" ] ; then
  echo  "stop istnieje";
  exit;
 fi;

# echo "uruchamiam ponownie"

sleep 30
. ./$0 &

Re: load average: 250

Odpowiedź listem elektroniczym