kernel-oops bei Prozessen mit pipe & grossen Datenmengen

2003-02-14 Thread Juergen Descher
Hallo zusammen,

Ich habe hier ein Problem mit "unkillbaren" Prozessen und der pipe.
Es gibt zwei Prozesse mit dem Status "D" also down. Den ersten habe
ich gestern, bzw. heute ganz früh :), schon zu killen versucht. Da
selbst kill -9 nicht half. Habe ich ihm die aufrufende shell
gestohlen. Half aber auch nicht.

Nun sagt man ps:
 PROCESS STATE CODES
 D   uninterruptible sleep (usually IO)

Hm, ist kein Zombie aber killen kann ich ihn nicht?

Jetzt kommt aber noch etwas hinzu. Der tägliche anachron hat einen
ähnliches Problem erzeugt. Dort ist "find" auf einmal "down". Bevor
ich nun auch die Prozesse einzeln abschieße -find wird sich wohl auch
beständig wiedersetzen- wollte ich einmal fragen, ob es vielleicht
doch eine Möglichkeit gibt die Prozesse zu killen. Oder muss ein reboot
her? (Der Prozess fdupes dürfte IMHO durch die Beendigung von X, da er
in einem xterm gestartet wurde, zu erledigen sein.)

fdupes sollte ein großes Verzeichnis durchsuchen. Auch diesen Prozess
habe ich in eine Pipe geschickt:
$ fdupes -rsqn .|tee $outfile
Wobei ich "tee" auch schon gekillt habe, das ging. Übrigens ist im
$outfile nie ein bit angekommen.

"load average" ist IMHO seit/durch anachron so hoch, s.u.
Netsaint hat's verraten, ich kann leider keine Auskunft über die
vorhergehenden Werte geben.
  Date/Time: Fri Feb 14 08:04:04 CET 2003
  Additional Info:
  load average: 2.18, 2.21, 2.02 WARNING


Früher ist es schon einmal passiert das der Rechner morgens stehen
geblieben ist. (anachron?) Es gab keine log-Einträge.  Seid dem habe
ich einen neuen kernel und die swap (3 Partitionen) vergrößert. Ob da
Zusammenhänge bestehen?

Einzige Veränderung an Rechner zum Vortag (uptime 5d):
Gestern habe ich /user/local eine eigene Partition gegönnt - läuft
problemlos.

Ich habe wohl ein Problem mit der pipe. Arrgh! Jetzt sehe ich in
/var/log/kern.log Meldungen von den Zeitpunkten der ausgestiegenen
Prozese. Ich hänge sie unten an. Kann jemand damit etwas anfangen?

Wenn jemand eine mögliche Erklärung in seiner Glaskugel findet warum
die Prozesse ausgestiegen sind, wie ich sie los werde ...
Ich bin allen Erläuterungen aufgeschlossen :)

cu
Juergen



Jetzt kommen die Infos, vielleicht kann ja jemand damit etwas
anfangen:

# r! ps ax -lfj|head -1;ps ax -lfj|egrep "^[0-9]{3} D"
  F S   PID  PPID  PGID   SID PRI  NI  SZ WCHAN  STIME  TIME CMD
000 D 20954 1 20954  8956  69   0 809 down   00:04  0:01 fdupes
100 D 30370 30360 29371 29371  75  10 374 down   07:36  0:05 find

# r! ps -lfj -g 29371
  F S   PID  PPID  PGID   SID PRI  NI  SZ WCHAN  STIME  TIME CMD
040 S 29371 1 29371 29371  69   0 350 rt_sig 07:30  00:00:00 anacron
000 S 29750 29371 29371 29371  74  10 316 select 07:35  00:00:00 run-parts
000 S 30306 29750 29371 29371  75  10 508 wait4  07:36  00:00:00 /bin/sh
000 S 30308 30306 29371 29371  75  10 314 nanosl 07:36  00:00:00 lockfile-touch
000 S 30360 30306 29371 29371  75  10 508 wait4  07:36  00:00:00 /bin/sh
100 D 30370 30360 29371 29371  75  10 374 down   07:36  00:00:05 find
000 S 30371 30360 29371 29371  75  10 584 pipe_w 07:36  00:00:00 sort

TTY  ist ?
UID  ist root außer bei fdupes
Cist 0
ADDR ist -


* Prozesse mit Parametern:
CMD
fdupes -rsqn .
anacron -s
run-parts --report /etc/cron.daily
/bin/sh /etc/cron.daily/standard
lockfile-touch /var/lock/cron.daily
/bin/sh /usr/sbin/checksecurity
find / /boot /var /usr /home /opt /xmnt/data \
-xdev ( -false ) -prune -o \
( -type f -perm +06000 \
 -o ( ( -type b -o -type c ) -a -not ( -false ) ) \
) \
-printf %8i %5m %3n %-10u %-10g %9s %t %h/%f?n


# r! uname -a
Linux marvin 2.4.20-k6 #1 Mon Jan 13 14:22:34 EST 2003 i586 unknown


# r!free
 total   used   free sharedbuffers cached
Mem:192652 181580  11072  0  17724  53384
-/+ buffers/cache: 110472  82180
Swap:   651148 116092 535056


* cut&past von top (BTW: geht das auch anders?) :
 11:06:45 up 4 days,  2:11,  8 users,  load average: 2.15, 2.12, 2.09
148 processes: 147 sleeping, 1 running, 0 zombie, 0 stopped
CPU states:   8.3% user,   5.8% system,   0.4% nice,  85.6% idle
Mem:192652K total,   183124K used, 9528K free,17804K buffers
Swap:   651148K total,   116092K used,   535056K free,53960K cached


* /var/log/kern.log
** Aufruf von fdupes
14 00:03:35 kernel: Unable to handle kernel paging request at virtual address 6c656848
14 00:03:35 kernel:  printing eip:
14 00:03:35 kernel: c0142ee0
14 00:03:35 kernel: *pde = 
14 00:03:35 kernel: Oops: 
14 00:03:35 kernel: CPU:0
14 00:03:35 kernel: EIP:0010:[find_inode+28/72]Not tainted
14 00:03:35 kernel: EFLAGS: 00210a97
14 00:03:35 kernel: eax:    ebx: 6c656820   ecx: 000e   edx: cbd0
14 00:03:35 kernel: esi: 6c656820   edi:    ebp: 4b7c   esp: cb6f5ec4
14 00:03:35 kernel: ds: 0018   es: 0018   ss: 00

Re: kernel-oops bei Prozessen mit pipe & grossen Datenmengen

2003-02-16 Thread Thomas Reiß
Hallo Juergen Descher, am Fri, Feb 14, 2003 at 12:03:10PM +0100 hast du folgendes 
geschrieben:
> 
> 
> Früher ist es schon einmal passiert das der Rechner morgens stehen
> geblieben ist. (anachron?) Es gab keine log-Einträge.  Seid dem habe
> ich einen neuen kernel und die swap (3 Partitionen) vergrößert. Ob da
> Zusammenhänge bestehen?
> 
Wie hast du den swap Erweitert ?
Eine neue Partition als swap deklariert und mit swapon aktiviert ?
Steht in /proc/swaps die Partition drin ?
Hast du mal deine Filesysteme (welche, ext2,ext3,reiserfs,xfs) checken lassen ?

Es sieht für mich eher so aus als ob beim Zugriff auf die Platten
irgendwas nicht stimmt.

Oder ist ein Filesystem read only gemountet o.ä.?

Gruß
Thomas


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)