Salut !

    si il s'agit d'un problème hardware, as tu essayé de voir les logs
des MCE ( machine check events) reporté par le hardware via le kernel ?

Il te faut pour cela:

 - un kernel possedant les attributs suivants d'activés:
        CONFIG_X86_MCE
        CONFIG_X86_MCE_INTEL (si proc/chipset Intel)
        CONFIG_X86_MCE_AMD (si proc/chipset AMD)

- une installation de mcelog
(http://www.kernel.org/pub/linux/utils/cpu/mce/)


Suite à cela, tu auras la commande "mcelog" à disposition qui te permet
d'avoir un rapport de l'erreur hardware détectée. Attention, chaque
utilisation de la commande flush le cache donc si il te donne une
erreur, il te faut la sauvegarder qq part par copier/coller ou autre. Si
le plantage est total donc tu es obligé de rebooter ton serveur, alors,
il te faut utiliser le mode démon de mcelog via syslog (idéalement sur
un syslog hors serveur via ethernet) pour avoir une chance de savoir
pourquoi il y a eu plantage avant le reboot du serveur qui flushera les
MCE logs.

Le mécanisme des MCE n'est pas toujours efficace mais a le mérite de te
donner la panne exacte hardware quand il te donne une alerte. Par
exemple il peut te remonter une erreur de cache CPU, une erreur de RAM,
du northbridge, etc... de manière assez précise te signalant un
processeur sous volté, une barrette de RAM défectueuse ou un chipset
trop chaud....


                        JeFF



On Wed, 2011-08-31 at 16:39 +0200, Sebastien PLOT wrote:
> Le 31/08/2011 15:35, Sylvain Rochet a écrit :
> > Lu,
> >
> > On Wed, Aug 31, 2011 at 03:24:00PM +0200, "Vincent Duvernet (Nolmë 
> > Informatique)" wrote:
> >> Sinon, il y a aussi la politique de l'autruche. Tu rachètes de la
> >> RAM si tu n'as pas de serveur de spare. Et si c'est pas la RAM,
> >> c'est que c'est la CM et qu'il faut la remplacer ^^
> > Oui, et aussi d'un point de vue purement financier, ça coûte souvent
> > moins cher de remplacer totalement un chassis plutôt que de passer du
> > temps à chercher à comprendre un défaut matériel. Surtout quand ce n'est
> > pas reproductible facilement.
> >
> > Mais... ça nécessite d'avoir du stock et des bons contacts chez ses
> > fournisseurs pour renvoyer du matos vraisemblablement pourri, i.e. qui
> > semble fonctionner quand même.
> >
> > Sylvain
> il te reste également la possibilité de retoucher les timing SPD à la hausse.
> 
> ça m'est déjà arriver sur un PC perso, le PC plantait aléatoirement. En 
> jouant à 
> la hausse les timing SPD
> (donc à la baisse sur les perf) j'ai pu stabiliser ma conf.
> 
> Le problème venait des timing annoncé par les RAM qui n'était pas 
> complètement 
> fonctionnel sur la CM
> et c'est le DUAL channel qui révélait vraiment l'erreur...
> 
> A essayer
> _______________________________________________
> Liste de diffusion du FRsAG
> http://www.frsag.org/


_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à