Re: [OT] Duda con "bad magic number in superblock"
El Thu, 12 May 2016 09:34:53 -0300, Walter O. Dari escribió: > El 11/05/16 a las 10:40, Camaleón escribió: (...) >> Los RAID tienen muchos falsos positivos, desgraciadamente... pero si >> fuera un error del disco duro no se podrÃa reconstruir el RAID o >> estarÃa continuamente cayéndose. De todas formas, pasa el test SMART >> a ese disco y asà descartas cualquier problema mayor. > > Pasan cosas curiosas... > > Luego de varias horas de poner a sincronizar el disco en cuestión, > vuelvo al servidor y veo que daba un problema con /dev/sdc (en el raid > estaba activo /dev/sda y había puesto a sincronizar /dev/sdb -el del > "bad magic number"-): > > end_request: I/O error, dev sdc, sector 798725936 > > ... y muchísimas líneas más donde se refería a otros números de > sectores. > > Por este motivo, reemplacé el disco en cuestión, volví a instalar Jessie > y puse a sincronizar nuevamente el disco sdb en el raid. > > Luego de unas horas, otra vez el mismo mensaje respecto a /dev/sdb... > > end_request: I/O error, dev sdc, sector n > > Volví a reemplazar el disco, esta vez por uno nuevo, puse a sincronizar > el raid y luego de varias horas... > > end_request: I/O error, dev sdc, sector n > > A esta altura ya tengo ganas de revolear todo por la ventana. Teorías: 1/ Si el sistema de archivos está dañado, al tener los discos en raid es posible que estés "replicando" los bloques defectuosos en el resto de los discos duros que conforman la matriz. 2/ Se trata de un falso positivo de md, quizá debido a algún problema con los puertos donde tienes contactados los discos. 3/ Están fallando varios discos al mismo tiempo. > Antes de comenzar hice un smartctl -a /dev/sdc y le corrí el test > rápido, no arroja errores ni anomalías. > > En cambio el disco que intentaba sincronizar (/dev/sdb) si tiene > problemas -estaba convencido que era de 2 Tb y era de 1,5 Tb-, el > resultado "recortado" de smartctl -a, es... (...) > === START OF READ SMART DATA SECTION === > SMART overall-health self-assessment test result: PASSED Eso es buena señal. (...) > SMART Attributes Data Structure revision number: 16 Vendor Specific > SMART Attributes with Thresholds: > ID# ATTRIBUTE_NAMEVALUE WORST THRESH RAW_VALUE 5 > Reallocated_Sector_Ct 193 193140145 197 > Current_Pending_Sector 196 195000 1023 198 > Offline_Uncorrectable 199 195000457 (...) > Estos son los tres atributos que no están bien. Concuerdo, son 3 atributos clave y los valores son muy elevados. > Lo que me extraña es el mensaje que termina dando siempre de /dev/sdc > que mencionaba al principio. Ya que tres discos tengan problemas me > resulta demasiado extraño. > > Algo que noté, es que si uso el equipo sin intentar sincronizar > /dev/sdb, en ningún momento da problemas con /dev/sdc. Solamente los da > cuando intentaba sincronizar sin éxito el disco que, por lo que dice > smart, evidentemente tiene problemas. > > Bueno, quería comentar esto porque me resultó raro. > > Ahora tendré que gastar unos cuantos pesos y comprar 2 discos para poner > nuevamente el servidor en marcha con hardware seguro. Pasa el test smart del fabricante a todos los discos duros que tengas, suele venir en formato ISO para grabar en CD e iniciar desde ahí. Si detecta algún sector defectuoso lo corregirá y lo marcará para que no te dé problemas pero si esos 3 valores siguen aumentando vete pensando en reemplazar el disco (o discos) afectados. Saludos, -- Camaleón
Re: [OT] Duda con "bad magic number in superblock"
Hola: El 11/05/16 a las 10:40, Camaleón escribió: El Wed, 11 May 2016 05:26:07 -0300, Walter O. Dari escribió: Este error implica un daño fÃsico en la unidad de disco o un problema de partición ? Problema con el sistema de archivos pero puede ser debido a un error fÃsico del disco duro, claro. Uno de los discos del raid1 (con mdadm) dejó de sincronizar y daba este error. Intenté cambiando el super bloque por alguna de las copias que obtenÃa con... mke2fs -n /dev/sdb y luego... e2fsck -b num_supblk /dev/sdb y no tuve resultados. Borré la partición del disco y la volvà a crear. Luego puse a sincronizar y hasta ahora va sin problemas (un poco lento porque son 2 discos de 2 Tb). Por eso la pregunta inicial, porque si fuera un problema fÃsico reemplazarÃa el disco directamente. Los RAID tienen muchos falsos positivos, desgraciadamente... pero si fuera un error del disco duro no se podrÃa reconstruir el RAID o estarÃa continuamente cayéndose. De todas formas, pasa el test SMART a ese disco y asà descartas cualquier problema mayor. Pasan cosas curiosas... Luego de varias horas de poner a sincronizar el disco en cuestión, vuelvo al servidor y veo que daba un problema con /dev/sdc (en el raid estaba activo /dev/sda y había puesto a sincronizar /dev/sdb -el del "bad magic number"-): end_request: I/O error, dev sdc, sector 798725936 ... y muchísimas líneas más donde se refería a otros números de sectores. Por este motivo, reemplacé el disco en cuestión, volví a instalar Jessie y puse a sincronizar nuevamente el disco sdb en el raid. Luego de unas horas, otra vez el mismo mensaje respecto a /dev/sdb... end_request: I/O error, dev sdc, sector n Volví a reemplazar el disco, esta vez por uno nuevo, puse a sincronizar el raid y luego de varias horas... end_request: I/O error, dev sdc, sector n A esta altura ya tengo ganas de revolear todo por la ventana. Antes de comenzar hice un smartctl -a /dev/sdc y le corrí el test rápido, no arroja errores ni anomalías. En cambio el disco que intentaba sincronizar (/dev/sdb) si tiene problemas -estaba convencido que era de 2 Tb y era de 1,5 Tb-, el resultado "recortado" de smartctl -a, es... root@svrsw1:~# smartctl -a /dev/sdb smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Western Digital Caviar Green (AF) Device Model: WDC WD15EARS-00MVWB0 Serial Number: WD-WMAZA1121920 LU WWN Device Id: 5 0014ee 655ecf287 Firmware Version: 51.0AB51 User Capacity: 1.500.301.910.016 bytes [1,50 TB] Sector Size: 512 bytes logical/physical Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS (minor revision not indicated) SATA Version is: SATA 2.6, 3.0 Gb/s Local Time is: Thu May 12 08:51:04 2016 ART SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x85) Offline data collection activity was aborted by an interrupting command from host. Auto Offline Data Collection: Enabled. Self-test execution status: ( 113) The previous self-test completed having the read element of the test failed. Total time to complete Offline data collection: (38580) seconds. Offline data collection capabilities:(0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 372) minutes. Conveyance self-test routine recommended polling time: ( 5) minutes. SCT capabilities: (0x3035) SCT Status supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAMEVALUE WORST THRESH RAW_VALUE 5 Reallocated_Sector_Ct 193 193140145 197 Current_Pending_Sector 196 195000 1023 198 Offline_Uncorrectable 199 195000457 SMART Error Log Version: 1 No Errors Logged Estos son los tres atributos que no están bien. Lo que me extraña es el mensaje que termina dando siempre de /dev/sdc que mencionaba al principio. Ya que tres discos tengan problemas me resulta demasiado extraño. Algo q
Re: [OT] Duda con "bad magic number in superblock"
Walter Omar Dari http://swcomputacion.com/ https://facebook.com/swcomputacion/ Skype: waomda (desde el móvil) El 11/05/2016 10:45, "Camaleón" escribió: > > El Wed, 11 May 2016 05:26:07 -0300, Walter O. Dari escribió: > > > Este error implica un daño físico en la unidad de disco o un problema de > > partición ? > > Problema con el sistema de archivos pero puede ser debido a un error > físico del disco duro, claro. > > > Uno de los discos del raid1 (con mdadm) dejó de sincronizar y daba este > > error. > > > > Intenté cambiando el super bloque por alguna de las copias que obtenía > > con... > > > > mke2fs -n /dev/sdb > > > > y luego... > > > > e2fsck -b num_supblk /dev/sdb > > > > y no tuve resultados. > > > > Borré la partición del disco y la volví a crear. Luego puse a > > sincronizar y hasta ahora va sin problemas (un poco lento porque son 2 > > discos de 2 Tb). > > > > Por eso la pregunta inicial, porque si fuera un problema físico > > reemplazaría el disco directamente. > > Los RAID tienen muchos falsos positivos, desgraciadamente... pero si > fuera un error del disco duro no se podría reconstruir el RAID o estaría > continuamente cayéndose. De todas formas, pasa el test SMART a ese disco > y así descartas cualquier problema mayor. Ni bien termine la sincronización lo voy a hacer. Gracias y saludos, > > Saludos, > > -- > Camaleón > Walter Omar Dari http://swcomputacion.com/ https://facebook.com/swcomputacion/ Skype: waomda (desde el móvil)
Re: [OT] Duda con "bad magic number in superblock"
El Wed, 11 May 2016 05:26:07 -0300, Walter O. Dari escribió: > Este error implica un daño físico en la unidad de disco o un problema de > partición ? Problema con el sistema de archivos pero puede ser debido a un error físico del disco duro, claro. > Uno de los discos del raid1 (con mdadm) dejó de sincronizar y daba este > error. > > Intenté cambiando el super bloque por alguna de las copias que obtenía > con... > > mke2fs -n /dev/sdb > > y luego... > > e2fsck -b num_supblk /dev/sdb > > y no tuve resultados. > > Borré la partición del disco y la volví a crear. Luego puse a > sincronizar y hasta ahora va sin problemas (un poco lento porque son 2 > discos de 2 Tb). > > Por eso la pregunta inicial, porque si fuera un problema físico > reemplazaría el disco directamente. Los RAID tienen muchos falsos positivos, desgraciadamente... pero si fuera un error del disco duro no se podría reconstruir el RAID o estaría continuamente cayéndose. De todas formas, pasa el test SMART a ese disco y así descartas cualquier problema mayor. Saludos, -- Camaleón
[OT] Duda con "bad magic number in superblock"
Buenas: Este error implica un daño físico en la unidad de disco o un problema de partición ? Uno de los discos del raid1 (con mdadm) dejó de sincronizar y daba este error. Intenté cambiando el super bloque por alguna de las copias que obtenía con... mke2fs -n /dev/sdb y luego... e2fsck -b num_supblk /dev/sdb y no tuve resultados. Borré la partición del disco y la volví a crear. Luego puse a sincronizar y hasta ahora va sin problemas (un poco lento porque son 2 discos de 2 Tb). Por eso la pregunta inicial, porque si fuera un problema físico reemplazaría el disco directamente. Gracias y saludos, -- Walter O. Dari http://swcomputacion.com/ http://swcomputacion.com/sistemas/ https://facebook.com/swcomputacion/ https://facebook.com/sistemasSW/ skype: waomda