On Sun, 21 Feb 2021 at 10:18, Toni Mas Soler <antomas...@protonmail.com> wrote:
> Hola. A veure si algú m'aporta la llum. > Molt sovint em trobo amb aquest problema: > > [539698.662250] ata2.00: exception Emask 0x10 SAct 0x0 SErr 0x1950000 > action 0xe frozen > [539698.662369] ata2: SError: { PHYRdyChg CommWake Dispar LinkSeq > TrStaTrns } > [539698.662466] ata2.00: failed command: READ DMA EXT > [539698.662542] ata2.00: cmd 25/00:00:00:88:b1/00:01:0a:01:00/e0 tag 0 dma > 131072 in > res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask > 0x14 (ATA bus error) > [539698.662747] ata2.00: status: { DRDY } > [539698.662808] ata2: hard resetting link > [539698.662811] ata2: nv: skipping hardreset on occupied port > [539699.534259] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) > [539699.557332] ata2.00: configured for UDMA/133 > [539699.557365] sd 1:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK > driverbyte=DRIVER_SENSE > [539699.557370] sd 1:0:0:0: [sdb] tag#0 Sense Key : Illegal Request > [current] > [539699.557376] sd 1:0:0:0: [sdb] tag#0 Add. Sense: Unaligned write command > [539699.557383] sd 1:0:0:0: [sdb] tag#0 CDB: Read(16) 88 00 00 00 00 01 0a > b1 88 00 00 00 01 00 00 00 > [539699.557387] print_req_error: I/O error, dev sdb, sector 4474374144 > [539699.557529] ata2: EH complete > > Tinc 2 discos muntats amb RAID1 amb mdadm. > El cas és que m'ha començat a aparèixer des que l'altre disc va haver-hi > una falla general (suposadament tampoc culpa del disc ja que canviat el > cable SATA l'altre disc va tornar a funcionar com sempre). > > Després del canvi de cable he provat de permutar i substituir cables i > permutar ports i no hi ha manera que desapareguin els missatges (més > freqüents com més feina se li exigeix al dsic). > > Teniu alguna idea (abans de canviar el disc)? > > Informació del SMART: > 1 > 2 smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-13-amd64] (local > build) > 3 Copyright (C) 2002-17, Bruce Allen, Christian Franke, > www.smartmontools.org > 4 > 5 === START OF INFORMATION SECTION === > 6 Model Family: Seagate IronWolf > 7 Device Model: ST3000VN007-2AH16M > 8 Serial Number: ZDH7AQZ6 > 9 LU WWN Device Id: 5 000c50 0b69174f5 > 10 Firmware Version: SC60 > 11 User Capacity: 3.000.592.982.016 bytes [3,00 TB] > 12 Sector Sizes: 512 bytes logical, 4096 bytes physical > 13 Rotation Rate: 5980 rpm > 14 Form Factor: 3.5 inches > 15 Device is: In smartctl database [for details use: -P show] > 16 ATA Version is: ACS-3 T13/2161-D revision 5 > 17 SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s) > 18 Local Time is: Thu Jan 28 10:00:01 2021 CET > 19 SMART support is: Available - device has SMART capability. > 20 SMART support is: Enabled > 21 > 22 === START OF READ SMART DATA SECTION === > 23 SMART overall-health self-assessment test result: PASSED > 24 > 25 General SMART Values: > 26 Offline data collection status: (0x00) Offline data collection activity > 27 was never started. > 28 Auto Offline Data Collection: > Disabled. > 29 Self-test execution status: ( 0) The previous self-test routine > completed > 30 without error or no self-test > has ever > 31 been run. > 32 Total time to complete Offline > 33 data collection: ( 591) seconds. > 34 Offline data collection > 35 capabilities: (0x73) SMART execute Offline immediate. > 36 Auto Offline data collection > on/off support. > 37 Suspend Offline collection upon > new > 38 command. > 39 No Offline surface scan > supported. > 40 Self-test supported. > 41 Conveyance Self-test supported. > 42 Selective Self-test supported. > 43 SMART capabilities: (0x0003) Saves SMART data before entering > 44 power-saving mode. > 45 Supports SMART auto save timer. > 46 Error logging capability: (0x01) Error logging supported. > 47 General Purpose Logging > supported. > 48 Short self-test routine > 49 recommended polling time: ( 1) minutes. > 50 Extended self-test routine > 51 recommended polling time: ( 502) minutes. > 52 Conveyance self-test routine > 53 recommended polling time: ( 2) minutes. > 54 SCT capabilities: (0x50bd) SCT Status supported. > 55 SCT Error Recovery Control > supported. > 56 SCT Feature Control supported. > 57 SCT Data Table supported. > 58 > 59 SMART Attributes Data Structure revision number: 10 > 60 Vendor Specific SMART Attributes with Thresholds: > 61 ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE > UPDATED WHEN_FAILED RAW_VALUE > 62 1 Raw_Read_Error_Rate 0x000f 080 064 044 Pre-fail > Always - 97510545 > 63 3 Spin_Up_Time 0x0003 097 095 000 Pre-fail > Always - 0 > 64 4 Start_Stop_Count 0x0032 100 100 020 Old_age > Always - 68 > 65 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail > Always - 0 > 66 7 Seek_Error_Rate 0x000f 090 060 045 Pre-fail > Always - 946331866 > 67 9 Power_On_Hours 0x0032 089 089 000 Old_age > Always - 9819 (198 153 0) > 68 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail > Always - 0 > 69 12 Power_Cycle_Count 0x0032 100 100 020 Old_age > Always - 26 > 70 184 End-to-End_Error 0x0032 100 100 099 Old_age > Always - 0 > 71 187 Reported_Uncorrect 0x0032 100 100 000 Old_age > Always - 0 > 72 188 Command_Timeout 0x0032 100 100 000 Old_age > Always - 0 > 73 189 High_Fly_Writes 0x003a 100 100 000 Old_age > Always - 0 > 74 190 Airflow_Temperature_Cel 0x0022 066 056 040 Old_age > Always - 34 (Min/Max 34/35) > 75 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age > Always - 0 > 76 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age > Always - 10 > 77 193 Load_Cycle_Count 0x0032 097 097 000 Old_age > Always - 6137 > 78 194 Temperature_Celsius 0x0022 034 044 000 Old_age > Always - 34 (0 20 0 0 0) > 79 197 Current_Pending_Sector 0x0012 100 100 000 Old_age > Always - 0 > 80 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age > Offline - 0 > 81 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age > Always - 0 > 82 240 Head_Flying_Hours 0x0000 100 253 000 Old_age > Offline - 9739 (200 43 0) > 83 241 Total_LBAs_Written 0x0000 100 253 000 Old_age > Offline - 10045062934 > 84 242 Total_LBAs_Read 0x0000 100 253 000 Old_age > Offline - 77949777828 > 85 > 86 SMART Error Log Version: 1 > 87 No Errors Logged > 88 > 89 SMART Self-test log structure revision number 1 > 90 Num Test_Description Status Remaining > LifeTime(hours) LBA_of_first_error > 91 # 1 Extended offline Completed without error 00% > 9490 - > 92 # 2 Extended offline Completed without error 00% > 8748 - > 93 # 3 Extended offline Completed without error 00% > 8027 - > 94 # 4 Extended offline Completed without error 00% > 7310 - > 95 # 5 Extended offline Completed without error 00% > 6646 - > 96 # 6 Extended offline Completed without error 00% > 5903 - > 97 # 7 Extended offline Completed without error 00% > 5159 - > 98 # 8 Extended offline Completed without error 00% > 4439 - > 99 # 9 Extended offline Completed without error 00% > 3697 - > 100 #10 Extended offline Completed without error 00% > 2982 - > 101 #11 Extended offline Completed without error 00% > 2249 - > 102 #12 Extended offline Interrupted (host reset) 00% > 1547 - > 103 #13 Extended offline Completed without error 00% > 809 - > 104 #14 Extended offline Completed without error 00% > 83 - > 105 > 106 SMART Selective self-test log data structure revision number 1 > 107 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS > 108 1 0 0 Not_testing > 109 2 0 0 Not_testing > 110 3 0 0 Not_testing > 111 4 0 0 Not_testing > 112 5 0 0 Not_testing > 113 Selective self-test flags (0x0): > 114 After scanning selected spans, do NOT read-scan remainder of disk. > 115 If Selective self-test is pending on power-up, resume after 0 minute > delay. > > Toni Mas > GPG 3F42A21D84D7E950 > > Sent with ProtonMail Secure Email. > > ‐‐‐‐‐‐‐ Original Message ‐‐‐‐‐‐‐ > En divendres 12 de febrer de 2021 a les 10:10, Josep Lladonosa < > jllad...@gmail.com> va escriure: > > > On Fri, 12 Feb 2021 at 09:49, Joan <arboc...@calbasi.net> wrote: > > > > > El Sun, 3 Jan 2021 09:29:35 +0100 > > > Josep Lladonosa <jllad...@gmail.com> va escriure: > > > > > > > Hola, Joan, > > > > > > > > > > > > Que no sigui cosa del cable SATA. > > > > A la feina hem tingut experiències similars i canviant-lo s'ha > resolt. > > > > > > Per cert, després de canviar el cable SATA ja no ha tornat a succeir la > > > "corrupció"... O sigui, dono per bona l'explicació que era el cable > > > SATA. > > > > > > I t'agraeixo molt, Josep, que apuntessis en aquesta direcció... > > > > > > Pd.: sembla mentida que el que pugui fallar sigui un element estàtic > > > com un cbale... O que aquest comenci a fallar "un bon dia"... > > > > Bé, els cables en si no acostumen a fallar si no hi ha una interrupció > en el coure. > > Per diverses experiències el que puc dir és que són els connectors entre > cable i altres elements (placa base, disc dur) que fallen. El plàstic es > degrada per la calor... i molt més en cas de pujades de temperatura i > refredaments. Tot això afecta a la interconnexió del coure del connector > del mateix cable i l'altre element on resta connectat. Si l'ambient on es > troba la màquina és "brut", també hi pot haver tema de brutícia (greix, > pols) entre coures... > > > > També s'aplica als ventiladors, per exemple. > > > > És llei de vida dels materials: metall i plàstic no són flors i violes. > ;-) > > > > > > > > > > > > La fiabilitat dels discs durs és poca, sempre és recomanable tenir > > > > còpies de seguretat i fer-los treballar per parelles, en raid 1, per > > > > exemple. > > > > > > > > Cada fabricant indica la seva garantia. > > > > Per a mi, els pitjors, Seagate. Els millors, Hitachi (HGST que crec > > > > que és de Western Digital, ara, i que també està bé). > > > > > > > > Bon any, > > > > Josep > > > > > > > > El dg., 3 de gen. 2021, 9:01, Joan <arboc...@calbasi.net> va > escriure: > > > > > > > > > El problema que tinc m'ha passat dugues vegades en dugues setmanes, > > > > > i tinc dubtes de si és un tema físic del disc (un disc SATA de 4Tb) > > > > > no massa vell, de potser un parell d'anys, o un problema del soft > > > > > que "desgabella" el disc > > > > > > > > > > És un disc secundari (el sistema el tinc en un SSD) a on guardo > > > > > videos, fotos, etc. Un dels meus sospitosos com a causa de tot > > > > > plegat podria ser l'amule. > > > > > > > > > > Bé, la qüestió és que quan arrenco el sistema la cosa va malament, > i > > > > > queda en mode d'emergència, perquè detecta un error: > > > > > > > > > > de gen. 02 16:21:12 pc2019 systemd-fsck[502]: magatzem: Inode > > > > > 38666373 has an invalid extent node (blk 154697780, lblk 0) de gen. > > > > > 02 16:21:12 pc2019 systemd-fsck[502]: magatzem: UNEXPECTED > > > > > INCONSISTENCY; RUN fsck MANUALLY. de gen. 02 16:21:12 pc2019 > > > > > systemd-fsck[502]: (i.e., without -a or -p options) de gen. > > > > > 02 16:21:12 pc2019 systemd-fsck[430]: fsck failed with exit status > > > > > 4. de gen. 02 16:21:12 pc2019 systemd-fsck[430]: Running request > > > > > emergency.target/start/replace de gen. 02 16:21:12 pc2019 > > > > > systemd[1]: systemd-fsck@dev-disk-by > > > > > \x2duuid-eabfd9a3\x2d1b1f\x2d4144\x2da9d3\x2dd514566fa3fb.service: > > > > > Main process exited, code=exited, status=1/FAILURE de gen. 02 > > > > > 16:21:12 pc2019 systemd[1]: > > > > > systemd-fsck@dev-disk-by > > > > > \x2duuid-eabfd9a3\x2d1b1f\x2d4144\x2da9d3\x2dd514566fa3fb.service: > > > > > Failed with result 'exit-code'. de gen. 02 16:21:12 pc2019 > > > > > systemd[1]: Failed to start File System Check on > > > > > /dev/disk/by-uuid/eabfd9a3-1b1f-4144-a9d3-d514566fa3fb. de gen. 02 > > > > > 16:21:12 pc2019 systemd[1]: Dependency failed for /media/magatzem. > > > > > de gen. 02 16:21:12 pc2019 systemd[1]: Dependency failed for Local > > > > > File Systems. de gen. 02 16:21:12 pc2019 systemd[1]: > > > > > local-fs.target: Job local-fs.target/start failed with result > > > > > 'dependency'. de gen. 02 16:21:12 pc2019 systemd[1]: > > > > > local-fs.target: Triggering OnFailure= dependencies. de gen. 02 > > > > > 16:21:12 pc2019 systemd[1]: media-magatzem.mount: Job > > > > > media-magatzem.mount/start failed with result 'dependency'. > > > > > > > > > > I a mi em mostra aquesta pantalla: > > > > > > > > > > > > > > > > https://upload.disroot.org/r/APnYtXLB#NArCJjbVYVzxd9Hui4K9xb9xhkHzk9i1vE++Qf8BQQA= > > > > > > > > > > Llavors jo per sol·lucionar-ho gaig un e2fsck -c /dev/sdb1 > > > > > > > > > > Que em dona aquestes pantalles (les resumeixo, perquè bàsicament > > > > > son 20 minuts de anar dient "yes" a tot el que em proposa, després > > > > > de la revisió que dura unes 8 hores o més: > > > > > > > > > > > > > > > > https://upload.disroot.org/r/kRLsL2RX#bF9doWYguCMHAvj3APaJNb+GbUBq9zCX2mdrkLJhMAQ= > > > > > > > > > > > https://upload.disroot.org/r/sYqhJfcy#Wv3pVBo0OuvfosT/i1LfCRx+6sTWwSkpWGDJIl4uTkI= > > > > > > > > > > > https://upload.disroot.org/r/UTbxj19F#u5TA97h7ykB7KFj58OSPhgFLqwqFBSv00nHAQ8FoPpU= > > > > > > > > > > Llavors, les meves preguntes: > > > > > > > > > > 1) Us sembla que és un fallo de hard (el disc comença a fer el > > > > > tonto, amb només 15 mesos), i ja em puc espabilar a comprar-ne un > > > > > altra i fer-li un clonezilla? > > > > > > > > > > 2) Podria ser un problema originat pel software? (en aquest sentit > > > > > no sé si actualitzar la meva Debian Testing, que no actualitzo en > > > > > general de cop, sinó a bocinets). > > > > > > > > > > 3) No sé si al disc secundari és fa un fsck (o com es digui). Allò > > > > > que es fa al primari cada nosequantes arrencades. Diria que no, i > > > > > que és una opció configurable al fstab. El meu fstab és aquest: > > > > > > > > > > UUID=... / ext4 errors=remount-ro 0 1 > > > > > # /home was on /dev/sdb6 during installation > > > > > UUID=... /home ext4 defaults 0 2 > > > > > # swap was on /dev/sdb5 during installation > > > > > UUID=... swap sw 0 0 > > > > > # Segon disc dur 4Tb > > > > > UUID=e... /media/magatzem ext4 defaults 0 > > > > > 2 > > > > > > > > > > (de fet, ara que hi penso, no sé si es fa el fsck a la partició > > > > > /home, tampoc). Diria que això te a veure amb el darrer nombre de > > > > > la columna, però ara he vist que systemd s'ho munta diferent i > > > > > només distingeix el valor zero (o buit), i la resta: > > > > > > > > > > https://unix.stackexchange.com/a/248578 > > > > > > > > > > I per tant ja no sé quan ni com es fan el txequejos. > > > > > > > > > > 4) Un colega em va comentar que ell força un test SMART via script, > > > > > no sé si a l'arrencar... No sé si això és una bona opció... Teniu > > > > > algun suggeriment al respecte, per vetllar per la bona salut dels > > > > > discs (assumint que si el disc comença a fallar per la seva > > > > > obsolescència programada, no hi ha res a fer). > > > > > > > > > > 5) Per cert, sabeu quina garantia tenen, els discos durs? I, en cas > > > > > de comprar-ne un de nou, si n'hi ha que donin més fiabilitat? > > > > > > > > > > Fins ara! > > > > > > > > > > -- > > > > > Joan Cervan i Andreu > > > > > http://personal.calbasi.net > > > > > > > > > > "El meu paper no és transformar el món ni l'home sinó, potser, el > de > > > > > ser útil, des del meu lloc, als pocs valors sense els quals un món > > > > > no val la pena viure'l" A. Camus > > > > > > > > > > i pels que teniu fe: > > > > > "Déu no és la Veritat, la Veritat és Déu" > > > > > Gandhi > > > > > > > > > > > > > > > > -- > > > Joan Cervan i Andreu > > > http://personal.calbasi.net > > > > > > "El meu paper no és transformar el món ni l'home sinó, potser, el de > > > ser útil, des del meu lloc, als pocs valors sense els quals un món no > > > val la pena viure'l" A. Camus > > > > > > i pels que teniu fe: > > > "Déu no és la Veritat, la Veritat és Déu" > > > Gandhi > > > > -- > > -- > > Salutacions...Josep > > -- > > Demanes per alguna idea abans de canviar disc. Jo provaria a iniciar la màquina amb un nucli diferent. M'he trobat amb màquines que fallaven i era per alguna cosa dels controladors de disc dur (o alguna altra cosa relacionada) del nucli. Canviant de versió es resolien els errors de disc... SALUT! Josep -- -- Salutacions...Josep --