Personnellement j'ai déjà eu des barrettes de RAM défectueuses qui
passaient les tests memtest.
Il te reste la possibilité de les swapper sur une autre machine et voir
ce que cela donne.
Sinon, il y a aussi la politique de l'autruche. Tu rachètes de la RAM si
tu n'as pas de serveur de spare. Et si c'est pas la RAM, c'est que c'est
la CM et qu'il faut la remplacer ^^
Vincent
Le 31/08/2011 15:09, Simon Morvan a écrit :
Le 17/08/2011 22:28, Simon Morvan a écrit :
Bon et bien après avoir retiré le md constitué des disques reliés à
la carte mère et laissé dans le vg uniquement le volume raid géré par
la carte LSI, j'ai pu remonter les fs et le serveur est stable.
Une idée pour un protocole de test ? Je rappelle qu'avec les disques
branché la carte mère je peux faire de "grosses" opérations d'I/O lvm
ou md sans le faire planter, c'est juste si je monte me fs que ca
part en sucette.
Alors, le serveur a finalement replanté après avoir tenu quelques jours.
Je l'ai rebooté sur un memtest (reboot à chaud).
Au bout de quelques minutes, j'ai eu des erreurs, mais impossible de
déterminer quelle barette sur les 4, donc reprise de memtests longs
sur chacune des barettes.
J'en ai déjà testé deux pendant 10-20h (reboots à froid, évidemment,
faut swapper les barettes) sans remontées d'erreurs. Il m'en reste
deux à tester mais en attendant, avez vous déjà eu des erreurs de RAM
selon une configuration de nombre et capacité de barettes RAM sans que
chaque barette n'ai de problème elle meme ? Un problème de CM ?
Le reboot à froid/à chaud a t'il eu une importance dans mon protocole
de test (stale data) ?
Merci d'avance
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/