----- Mensaje original ---- De: Victor Hugo dos Santos <[EMAIL PROTECTED]> Para: Discusion de Linux en Castellano <linux@listas.inf.utfsm.cl> Enviado: jueves, 10 de julio, 2008 9:58:16 Asunto: EDAC mensajes de alerta
Estimados, hace unas 2 semanas se mostraba en los logs algunas lineas sobre "EDAC e752x".. busque en google y "aparentemente" era algo referente a la memoria... reinicie el servidor y ejecute memtest durante unas 18 horas y no presento ninguna variación/error. hoy, revisando los logs, me encuentro con las mismas lineas en los registros: ========================= Jul 10 08:59:22 bacula kernel: [828050.517836] EDAC e752x: Non-Fatal Error DRAM Controler Jul 10 08:59:22 bacula kernel: [828050.517844] EDAC e752x: Non-Fatal Error DRAM Controler Jul 10 08:59:22 bacula kernel: [828050.517849] EDAC e752x: Test row 1 Table 0 255 2 255 4 255 6 255 Jul 10 08:59:22 bacula kernel: [828050.517855] EDAC e752x: Test computed row 8 Jul 10 08:59:22 bacula kernel: [828050.517857] EDAC e752x MC0: row 1 not found in remap table Jul 10 08:59:22 bacula kernel: [828050.517863] EDAC MC0: CE page 0x3272, offset 0xd40, grain 0, syndrome 0x400, row 1, channel 1, label "": e752x CE Jul 10 08:59:22 bacula kernel: [828050.517868] EDAC e752x: Test row 1 Table 0 255 2 255 4 255 6 255 Jul 10 08:59:22 bacula kernel: [828050.517871] EDAC e752x: Test computed row 8 Jul 10 08:59:22 bacula kernel: [828050.517876] EDAC e752x MC0: row 1 not found in remap table Jul 10 08:59:22 bacula kernel: [828050.517880] EDAC MC0: CE page 0x3272, offset 0xd40, grain 0, syndrome 0x500, row 1, channel 1, label "": e752x CE Jul 10 08:59:45 bacula kernel: [828073.499505] EDAC e752x: Non-Fatal Error DRAM Controler Jul 10 08:59:45 bacula kernel: [828073.499513] EDAC e752x: Non-Fatal Error DRAM Controler Jul 10 08:59:45 bacula kernel: [828073.499519] EDAC e752x: Test row 1 Table 0 255 2 255 4 255 6 255 Jul 10 08:59:45 bacula kernel: [828073.499524] EDAC e752x: Test computed row 8 Jul 10 08:59:45 bacula kernel: [828073.499527] EDAC e752x MC0: row 1 not found in remap table Jul 10 08:59:45 bacula kernel: [828073.499533] EDAC MC0: CE page 0x103f92, offset 0x100, grain 0, syndrome 0x500, row 1, channel 1, label "": e752x CE Jul 10 08:59:45 bacula kernel: [828073.499538] EDAC e752x: Test row 1 Table 0 255 2 255 4 255 6 255 Jul 10 08:59:45 bacula kernel: [828073.499541] EDAC e752x: Test computed row 8 Jul 10 08:59:45 bacula kernel: [828073.499545] EDAC e752x MC0: row 1 not found in remap table Jul 10 08:59:45 bacula kernel: [828073.499549] EDAC MC0: CE page 0x103f92, offset 0x100, grain 0, syndrome 0x500, row 1, channel 1, label "": e752x CE ========================= mmmm... alguna idea ??? la parte del "Non-Fatal" me tranquiliza un poco, pero no me gusta para nada que aparezcan estes mensajes asi de la nada. el servidor es un SuperMicro (SUPER SERVER SYS-7044H-TRB 4U) con 8G de RAM y este es el estado actual: ========================= $ free total used free shared buffers cached Mem: 8311148 8018752 292396 0 64544 7779780 -/+ buffers/cache: 174428 8136720 Swap: 1048568 360 1048208 ========================= top - 09:27:21 up 9 days, 14:44, 2 users, load average: 0.00, 0.01, 0.00 Tasks: 72 total, 1 running, 71 sleeping, 0 stopped, 0 zombie Cpu(s): 0.0%us, 0.2%sy, 0.0%ni, 99.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st Mem: 8311148k total, 8018776k used, 292372k free, 64524k buffers Swap: 1048568k total, 360k used, 1048208k free, 7779776k cached PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 4862 postgres 20 0 38760 25m 25m S 0 0.3 0:30.05 postgres: writer process 505 root 20 0 11136 4696 2932 S 0 0.1 0:00.14 sshd: victor [priv] 3825 root 20 0 11136 4696 2932 S 0 0.1 0:00.14 sshd: victor [priv] 4859 postgres 20 0 38632 4496 3964 S 0 0.1 0:03.06 /usr/lib/postgresql/8.2/bin/postgres -D /var/lib/postgresql/8.2/main -c config_file=/etc/postgr 5006 bacula 20 0 51784 4436 2680 S 0 0.1 1:07.06 /usr/sbin/bacula-dir -c /etc/bacula/bacula-dir.conf -u bacula -g bacula 4879 snmp 20 0 8788 4124 2440 S 0 0.0 2:06.51 /usr/sbin/snmpd -Lsd -Lf /dev/null -u snmp -I -smux -p /var/run/snmpd.pid 0.0.0.0 4744 root 20 0 109m 3548 1820 S 0 0.0 0:01.64 /usr/sbin/nscd [...] ========================= $ uname -a Linux bacula 2.6.24-18-server #1 SMP Wed May 28 21:25:52 UTC 2008 i686 GNU/Linux ========================= y el sistema tiene todos los parches al dia .. bueno.. bueno.. hoy acabo de instalar la version 2.6.24.19 del kernel !!! pero estuve mirando los cambios de versión y ninguno hace referencia a memoria o algo relacioando !!! -------------- Estimado No soy muy entendido en estos temas de hardware, pero de lo que haz puesto me parece que el error se esta dando a nivel de verificacion de paridad en las memorias. que tipo de test hiciste? se verifico o es posible que el test haga chequeo de paridad y de correccion de errores? Como comente no soy muy entendido en estos temas, pero entre todos algo podremos sacar de esto, no? Saludos Christian Montero H. Red Hat Certified Engineer (RHCE) 805008759430301 __________________________________________________ Correo Yahoo! Espacio para todos tus mensajes, antivirus y antispam ¡gratis! Regístrate ya - http://correo.espanol.yahoo.com/