On Sun, 21 Feb 2021 at 10:18, Toni Mas Soler <antomas...@protonmail.com>
wrote:

> Hola. A veure si algú m'aporta la llum.
> Molt sovint em trobo amb aquest problema:
>
> [539698.662250] ata2.00: exception Emask 0x10 SAct 0x0 SErr 0x1950000
> action 0xe frozen
> [539698.662369] ata2: SError: { PHYRdyChg CommWake Dispar LinkSeq
> TrStaTrns }
> [539698.662466] ata2.00: failed command: READ DMA EXT
> [539698.662542] ata2.00: cmd 25/00:00:00:88:b1/00:01:0a:01:00/e0 tag 0 dma
> 131072 in
>                          res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask
> 0x14 (ATA bus error)
> [539698.662747] ata2.00: status: { DRDY }
> [539698.662808] ata2: hard resetting link
> [539698.662811] ata2: nv: skipping hardreset on occupied port
> [539699.534259] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
> [539699.557332] ata2.00: configured for UDMA/133
> [539699.557365] sd 1:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK
> driverbyte=DRIVER_SENSE
> [539699.557370] sd 1:0:0:0: [sdb] tag#0 Sense Key : Illegal Request
> [current]
> [539699.557376] sd 1:0:0:0: [sdb] tag#0 Add. Sense: Unaligned write command
> [539699.557383] sd 1:0:0:0: [sdb] tag#0 CDB: Read(16) 88 00 00 00 00 01 0a
> b1 88 00 00 00 01 00 00 00
> [539699.557387] print_req_error: I/O error, dev sdb, sector 4474374144
> [539699.557529] ata2: EH complete
>
> Tinc 2 discos muntats amb RAID1 amb mdadm.
> El cas és que m'ha començat a aparèixer des que l'altre disc va haver-hi
> una falla general (suposadament tampoc culpa del disc ja que canviat el
> cable SATA l'altre disc va tornar a funcionar com sempre).
>
> Després del canvi de cable he provat de permutar i substituir cables i
> permutar ports i no hi ha manera que desapareguin els missatges (més
> freqüents com més feina se li exigeix al dsic).
>
> Teniu alguna idea (abans de canviar el disc)?
>
> Informació del SMART:
>   1
>   2 smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-13-amd64] (local
> build)
>   3 Copyright (C) 2002-17, Bruce Allen, Christian Franke,
> www.smartmontools.org
>   4
>   5 === START OF INFORMATION SECTION ===
>   6 Model Family:     Seagate IronWolf
>   7 Device Model:     ST3000VN007-2AH16M
>   8 Serial Number:    ZDH7AQZ6
>   9 LU WWN Device Id: 5 000c50 0b69174f5
> 10 Firmware Version: SC60
> 11 User Capacity:    3.000.592.982.016 bytes [3,00 TB]
> 12 Sector Sizes:     512 bytes logical, 4096 bytes physical
> 13 Rotation Rate:    5980 rpm
> 14 Form Factor:      3.5 inches
> 15 Device is:        In smartctl database [for details use: -P show]
> 16 ATA Version is:   ACS-3 T13/2161-D revision 5
> 17 SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
> 18 Local Time is:    Thu Jan 28 10:00:01 2021 CET
> 19 SMART support is: Available - device has SMART capability.
> 20 SMART support is: Enabled
> 21
> 22 === START OF READ SMART DATA SECTION ===
> 23 SMART overall-health self-assessment test result: PASSED
> 24
> 25 General SMART Values:
> 26 Offline data collection status:  (0x00) Offline data collection activity
> 27                                         was never started.
> 28                                         Auto Offline Data Collection:
> Disabled.
> 29 Self-test execution status:      (   0) The previous self-test routine
> completed
> 30                                         without error or no self-test
> has ever
> 31                                         been run.
> 32 Total time to complete Offline
> 33 data collection:                (  591) seconds.
> 34 Offline data collection
> 35 capabilities:                    (0x73) SMART execute Offline immediate.
> 36                                         Auto Offline data collection
> on/off support.
> 37                                         Suspend Offline collection upon
> new
> 38                                         command.
> 39                                         No Offline surface scan
> supported.
> 40                                         Self-test supported.
> 41                                         Conveyance Self-test supported.
> 42                                         Selective Self-test supported.
> 43 SMART capabilities:            (0x0003) Saves SMART data before entering
> 44                                         power-saving mode.
> 45                                         Supports SMART auto save timer.
> 46 Error logging capability:        (0x01) Error logging supported.
> 47                                         General Purpose Logging
> supported.
> 48 Short self-test routine
> 49 recommended polling time:        (   1) minutes.
> 50 Extended self-test routine
> 51 recommended polling time:        ( 502) minutes.
> 52 Conveyance self-test routine
> 53 recommended polling time:        (   2) minutes.
> 54 SCT capabilities:              (0x50bd) SCT Status supported.
> 55                                         SCT Error Recovery Control
> supported.
> 56                                         SCT Feature Control supported.
> 57                                         SCT Data Table supported.
> 58
> 59 SMART Attributes Data Structure revision number: 10
> 60 Vendor Specific SMART Attributes with Thresholds:
> 61 ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE
> UPDATED  WHEN_FAILED RAW_VALUE
> 62   1 Raw_Read_Error_Rate     0x000f   080   064   044    Pre-fail
> Always       -       97510545
> 63   3 Spin_Up_Time            0x0003   097   095   000    Pre-fail
> Always       -       0
> 64   4 Start_Stop_Count        0x0032   100   100   020    Old_age
> Always       -       68
> 65   5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail
> Always       -       0
> 66   7 Seek_Error_Rate         0x000f   090   060   045    Pre-fail
> Always       -       946331866
> 67   9 Power_On_Hours          0x0032   089   089   000    Old_age
> Always       -       9819 (198 153 0)
> 68  10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail
> Always       -       0
> 69  12 Power_Cycle_Count       0x0032   100   100   020    Old_age
> Always       -       26
> 70 184 End-to-End_Error        0x0032   100   100   099    Old_age
> Always       -       0
> 71 187 Reported_Uncorrect      0x0032   100   100   000    Old_age
> Always       -       0
> 72 188 Command_Timeout         0x0032   100   100   000    Old_age
> Always       -       0
> 73 189 High_Fly_Writes         0x003a   100   100   000    Old_age
> Always       -       0
> 74 190 Airflow_Temperature_Cel 0x0022   066   056   040    Old_age
> Always       -       34 (Min/Max 34/35)
> 75 191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age
> Always       -       0
> 76 192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age
> Always       -       10
> 77 193 Load_Cycle_Count        0x0032   097   097   000    Old_age
> Always       -       6137
> 78 194 Temperature_Celsius     0x0022   034   044   000    Old_age
> Always       -       34 (0 20 0 0 0)
> 79 197 Current_Pending_Sector  0x0012   100   100   000    Old_age
> Always       -       0
> 80 198 Offline_Uncorrectable   0x0010   100   100   000    Old_age
> Offline      -       0
> 81 199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age
> Always       -       0
> 82 240 Head_Flying_Hours       0x0000   100   253   000    Old_age
> Offline      -       9739 (200 43 0)
> 83 241 Total_LBAs_Written      0x0000   100   253   000    Old_age
> Offline      -       10045062934
> 84 242 Total_LBAs_Read         0x0000   100   253   000    Old_age
> Offline      -       77949777828
> 85
> 86 SMART Error Log Version: 1
> 87 No Errors Logged
> 88
> 89 SMART Self-test log structure revision number 1
> 90 Num  Test_Description    Status                  Remaining
> LifeTime(hours)  LBA_of_first_error
> 91 # 1  Extended offline    Completed without error       00%
> 9490         -
> 92 # 2  Extended offline    Completed without error       00%
> 8748         -
> 93 # 3  Extended offline    Completed without error       00%
> 8027         -
> 94 # 4  Extended offline    Completed without error       00%
> 7310         -
> 95 # 5  Extended offline    Completed without error       00%
> 6646         -
> 96 # 6  Extended offline    Completed without error       00%
> 5903         -
> 97 # 7  Extended offline    Completed without error       00%
> 5159         -
> 98 # 8  Extended offline    Completed without error       00%
> 4439         -
> 99 # 9  Extended offline    Completed without error       00%
> 3697         -
> 100 #10  Extended offline    Completed without error       00%
> 2982         -
> 101 #11  Extended offline    Completed without error       00%
> 2249         -
> 102 #12  Extended offline    Interrupted (host reset)      00%
> 1547         -
> 103 #13  Extended offline    Completed without error       00%
> 809         -
> 104 #14  Extended offline    Completed without error       00%
> 83         -
> 105
> 106 SMART Selective self-test log data structure revision number 1
> 107  SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
> 108     1        0        0  Not_testing
> 109     2        0        0  Not_testing
> 110     3        0        0  Not_testing
> 111     4        0        0  Not_testing
> 112     5        0        0  Not_testing
> 113 Selective self-test flags (0x0):
> 114   After scanning selected spans, do NOT read-scan remainder of disk.
> 115 If Selective self-test is pending on power-up, resume after 0 minute
> delay.
>
> Toni Mas
> GPG 3F42A21D84D7E950
>
> Sent with ProtonMail Secure Email.
>
> ‐‐‐‐‐‐‐ Original Message ‐‐‐‐‐‐‐
> En divendres 12 de febrer de 2021 a les 10:10, Josep Lladonosa <
> jllad...@gmail.com> va escriure:
>
> > On Fri, 12 Feb 2021 at 09:49, Joan <arboc...@calbasi.net> wrote:
> >
> > > El Sun, 3 Jan 2021 09:29:35 +0100
> > > Josep Lladonosa <jllad...@gmail.com> va escriure:
> > >
> > > > Hola, Joan,
> > > >
> > > >
> > > > Que no sigui cosa del cable SATA.
> > > > A la feina hem tingut experiències similars i canviant-lo s'ha
> resolt.
> > >
> > > Per cert, després de canviar el cable SATA ja no ha tornat a succeir la
> > > "corrupció"... O sigui, dono per bona l'explicació que era el cable
> > > SATA.
> > >
> > > I t'agraeixo molt, Josep, que apuntessis en aquesta direcció...
> > >
> > > Pd.: sembla mentida que el que pugui fallar sigui un element estàtic
> > > com un cbale... O que aquest comenci a fallar "un bon dia"...
> >
> > Bé, els cables en si no acostumen a fallar si no hi ha una interrupció
> en el coure.
> > Per diverses experiències el que puc dir és que són els connectors entre
> cable i altres elements (placa base, disc dur) que fallen. El plàstic es
> degrada per la calor... i molt més en cas de pujades de temperatura i
> refredaments. Tot això afecta a la interconnexió del coure del connector
> del mateix cable i l'altre element on resta connectat. Si l'ambient on es
> troba la màquina és "brut", també hi pot haver tema de brutícia (greix,
> pols) entre coures...
> >
> > També s'aplica als ventiladors, per exemple.
> >
> > És llei de vida dels materials: metall i plàstic no són flors i violes.
> ;-)
> >
> >
> > > >
> > > > La fiabilitat dels discs durs és poca, sempre és recomanable tenir
> > > > còpies de seguretat i fer-los treballar per parelles, en raid 1, per
> > > > exemple.
> > > >
> > > > Cada fabricant indica la seva garantia.
> > > > Per a mi, els pitjors, Seagate. Els millors, Hitachi (HGST que crec
> > > > que és de Western Digital, ara, i que també està bé).
> > > >
> > > > Bon any,
> > > > Josep
> > > >
> > > > El dg., 3 de gen. 2021, 9:01, Joan <arboc...@calbasi.net> va
> escriure:
> > > >
> > > > > El problema que tinc m'ha passat dugues vegades en dugues setmanes,
> > > > > i tinc dubtes de si és un tema físic del disc (un disc SATA de 4Tb)
> > > > > no massa vell, de potser un parell d'anys, o un problema del soft
> > > > > que "desgabella" el disc
> > > > >
> > > > > És un disc secundari (el sistema el tinc en un SSD) a on guardo
> > > > > videos, fotos, etc. Un dels meus sospitosos com a causa de tot
> > > > > plegat podria ser l'amule.
> > > > >
> > > > > Bé, la qüestió és que quan arrenco el sistema la cosa va malament,
> i
> > > > > queda en mode d'emergència, perquè detecta un error:
> > > > >
> > > > > de gen. 02 16:21:12 pc2019 systemd-fsck[502]: magatzem: Inode
> > > > > 38666373 has an invalid extent node (blk 154697780, lblk 0) de gen.
> > > > > 02 16:21:12 pc2019 systemd-fsck[502]: magatzem: UNEXPECTED
> > > > > INCONSISTENCY; RUN fsck MANUALLY. de gen. 02 16:21:12 pc2019
> > > > > systemd-fsck[502]:         (i.e., without -a or -p options) de gen.
> > > > > 02 16:21:12 pc2019 systemd-fsck[430]: fsck failed with exit status
> > > > > 4. de gen. 02 16:21:12 pc2019 systemd-fsck[430]: Running request
> > > > > emergency.target/start/replace de gen. 02 16:21:12 pc2019
> > > > > systemd[1]: systemd-fsck@dev-disk-by
> > > > > \x2duuid-eabfd9a3\x2d1b1f\x2d4144\x2da9d3\x2dd514566fa3fb.service:
> > > > > Main process exited, code=exited, status=1/FAILURE de gen. 02
> > > > > 16:21:12 pc2019 systemd[1]:
> > > > > systemd-fsck@dev-disk-by
> > > > > \x2duuid-eabfd9a3\x2d1b1f\x2d4144\x2da9d3\x2dd514566fa3fb.service:
> > > > > Failed with result 'exit-code'. de gen. 02 16:21:12 pc2019
> > > > > systemd[1]: Failed to start File System Check on
> > > > > /dev/disk/by-uuid/eabfd9a3-1b1f-4144-a9d3-d514566fa3fb. de gen. 02
> > > > > 16:21:12 pc2019 systemd[1]: Dependency failed for /media/magatzem.
> > > > > de gen. 02 16:21:12 pc2019 systemd[1]: Dependency failed for Local
> > > > > File Systems. de gen. 02 16:21:12 pc2019 systemd[1]:
> > > > > local-fs.target: Job local-fs.target/start failed with result
> > > > > 'dependency'. de gen. 02 16:21:12 pc2019 systemd[1]:
> > > > > local-fs.target: Triggering OnFailure= dependencies. de gen. 02
> > > > > 16:21:12 pc2019 systemd[1]: media-magatzem.mount: Job
> > > > > media-magatzem.mount/start failed with result 'dependency'.
> > > > >
> > > > > I a mi em mostra aquesta pantalla:
> > > > >
> > > > >
> > > > >
> https://upload.disroot.org/r/APnYtXLB#NArCJjbVYVzxd9Hui4K9xb9xhkHzk9i1vE++Qf8BQQA=
> > > > >
> > > > > Llavors jo per sol·lucionar-ho gaig un e2fsck -c /dev/sdb1
> > > > >
> > > > > Que em dona aquestes pantalles (les resumeixo, perquè bàsicament
> > > > > son 20 minuts de anar dient "yes" a tot el que em proposa, després
> > > > > de la revisió que dura unes 8 hores o més:
> > > > >
> > > > >
> > > > >
> https://upload.disroot.org/r/kRLsL2RX#bF9doWYguCMHAvj3APaJNb+GbUBq9zCX2mdrkLJhMAQ=
> > > > >
> > > > >
> https://upload.disroot.org/r/sYqhJfcy#Wv3pVBo0OuvfosT/i1LfCRx+6sTWwSkpWGDJIl4uTkI=
> > > > >
> > > > >
> https://upload.disroot.org/r/UTbxj19F#u5TA97h7ykB7KFj58OSPhgFLqwqFBSv00nHAQ8FoPpU=
> > > > >
> > > > > Llavors, les meves preguntes:
> > > > >
> > > > > 1) Us sembla que és un fallo de hard (el disc comença a fer el
> > > > > tonto, amb només 15 mesos), i ja em puc espabilar a comprar-ne un
> > > > > altra i fer-li un clonezilla?
> > > > >
> > > > > 2) Podria ser un problema originat pel software? (en aquest sentit
> > > > > no sé si actualitzar la meva Debian Testing, que no actualitzo en
> > > > > general de cop, sinó a bocinets).
> > > > >
> > > > > 3) No sé si al disc secundari és fa un fsck (o com es digui). Allò
> > > > > que es fa al primari cada nosequantes arrencades. Diria que no, i
> > > > > que és una opció configurable al fstab. El meu fstab és aquest:
> > > > >
> > > > > UUID=... /               ext4    errors=remount-ro 0       1
> > > > > # /home was on /dev/sdb6 during installation
> > > > > UUID=... /home           ext4    defaults        0       2
> > > > > # swap was on /dev/sdb5 during installation
> > > > > UUID=...            swap    sw              0       0
> > > > > # Segon disc dur 4Tb
> > > > > UUID=e... /media/magatzem           ext4    defaults        0
> > > > > 2
> > > > >
> > > > > (de fet, ara que hi penso, no sé si es fa el fsck a la partició
> > > > > /home, tampoc). Diria que això te a veure amb el darrer nombre de
> > > > > la columna, però ara he vist que systemd s'ho munta diferent i
> > > > > només distingeix el valor zero (o buit), i la resta:
> > > > >
> > > > > https://unix.stackexchange.com/a/248578
> > > > >
> > > > > I per tant ja no sé quan ni com es fan el txequejos.
> > > > >
> > > > > 4) Un colega em va comentar que ell força un test SMART via script,
> > > > > no sé si a l'arrencar... No sé si això és una bona opció... Teniu
> > > > > algun suggeriment al respecte, per vetllar per la bona salut dels
> > > > > discs (assumint que si el disc comença a fallar per la seva
> > > > > obsolescència programada, no hi ha res a fer).
> > > > >
> > > > > 5) Per cert, sabeu quina garantia tenen, els discos durs? I, en cas
> > > > > de comprar-ne un de nou, si n'hi ha que donin més fiabilitat?
> > > > >
> > > > > Fins ara!
> > > > >
> > > > > --
> > > > > Joan Cervan i Andreu
> > > > > http://personal.calbasi.net
> > > > >
> > > > > "El meu paper no és transformar el món ni l'home sinó, potser, el
> de
> > > > > ser útil, des del meu lloc, als pocs valors sense els quals un món
> > > > > no val la pena viure'l" A. Camus
> > > > >
> > > > > i pels que teniu fe:
> > > > > "Déu no és la Veritat, la Veritat és Déu"
> > > > > Gandhi
> > > > >
> > > > >
> > >
> > > --
> > > Joan Cervan i Andreu
> > > http://personal.calbasi.net
> > >
> > > "El meu paper no és transformar el món ni l'home sinó, potser, el de
> > > ser útil, des del meu lloc, als pocs valors sense els quals un món no
> > > val la pena viure'l" A. Camus
> > >
> > > i pels que teniu fe:
> > > "Déu no és la Veritat, la Veritat és Déu"
> > > Gandhi
> >
> > --
> > --
> > Salutacions...Josep
> > --
>
>

Demanes per alguna idea abans de canviar disc. Jo provaria a iniciar la
màquina amb un nucli diferent. M'he trobat amb màquines que fallaven i era
per alguna cosa dels controladors de disc dur  (o alguna altra cosa
relacionada) del nucli. Canviant de versió es resolien els errors de disc...

SALUT!
Josep

-- 
--
Salutacions...Josep
--

Respondre per correu electrònic a