Philippe, la réponse de Sly était du second degré....
Pas la peine d'en rajouter une tartine :)
A.
On 27/12/2013 14:24, Philippe Verdy wrote:
Le 27 décembre 2013 17:43, sly (sylvain letuffe) <lis...@letuffe.org
<mailto:lis...@letuffe.org>> a écrit :
Le vendredi 27 décembre 2013 17:14:11, Philippe Verdy a écrit :
> S'il ne peut pas tenir la charge à cause de défauts matériels
> (refroidissement, alimentation, câblage ou connecteurs
défectueux, mauvais
> contacts, défaut de montage, problèmes de barrettes mémoire,
bogues de
> firmwares ou de BIOS, problème de mise à jour de l'hyperviseur,
etc.)
C'est en effet un problème lié en partie à ce que tu décris (mais
pas tout à
la fois heureusement) en fait, cette machine dispose d'une carte
mère assez
ancienne et à cause de vibrations anormales dans la super structure du
bâtiment (peut-être liées, à des micro vibration du sous sol de la
plaque
eurasiatique et une expert en tecktonik des plaques doit nous le
confirmer)
:-) Dans ce cas je comprend pourquoi mon propre PC situé sur la même
plaque continentale m'a lâché il n'y a pas si longtemps.
Sérieusement les microvibrations du batiment dans un datacenter, ça
n'existe pas.
A la limite on pourrait avoir des vibrations causées par le système de
ventilation des baies, à cause d'une mauvaise installation/fixation,
des cheminements hasardeux de cables (et des longueurs flottantes en
excès) qui gêne le flux de ventilation.
Mais on peut soupçonner que le PC était lui-même mal monté avec ses
composants internes aussi, et que durant le transport des connecteurs
ont bougé. c'est pour ça qu'on a besoin d'une salle de montage sur
place pour vérifier que tout est bien calé. Souent quand on monte
soi-même un PC, on peut oublier de monter des fixations. Le transport
peut aussi provoquer des torsions suffisantes sur la carcasse, avec
des chocs pendant la conduite, pour que des connecteurs se déboitent
partiellement (les barettes mémoire sont facilement sujettes à ce
genre de défaut de connexion, ainsi que les miniconnecteurs des
ventilos internes).
Certains câbles SATA ou USB ont aussi tendance à se défaire trop
facilement, les prises externes ont parfois des soudures à peine
suffisantes, qui lâchent à la première insertion (bogue courant sur de
nombreuses clés de stockage USB dont la coque de protection est
beaucoup trop souple alors que les broches soudées du connecteur sont
trop rigides, ce qui décolle facilement les micro-soudures; nombre de
cartes mères ont des soudures en surface mal faires pour les puces les
plus larges, une microtorsion suffit à décoller les contacts de façon
invisible, notamment sur les broches des coins, les connecteurs de
nappes plastiques souple sont souvent très fragiles aussi, et la
gravure de ces nappes est beaucoup trop fine et génère une impédance
trop élevée nuisible à la qualité des signaux aux plus hautes
fréquences : cela peut concerner les nappes des têtes de disque dur,
mais on en trouve aussi dans les SSD entre plusieurs mini-cartes
reliant la partie contrôleur bus aux puces mémoires).
Sur plein de SSD, les puces mémoires ont juste un refroidissement
passif par simple contact avec le boitier alu externe, une légère
déformation du boîtier lors de la manutention et du montage provoque
des surchauffes en utilisation intensive du SSD.
Et sur nombre de PC, le CPU, le GPU ou les chips contrôleurs de
bridge, sont tout bonnement mal montés (mauvaise efficacité des
caloducs, pâte thermique non conforme), de même que les capteurs
externes de température.
On trouve aussi des trucs hideux comme le remplissage façon
barbouillage, avec des gels silicones sensés immobiliser les
connecteurs et puces montées dans un support, mais qui mettent les
composants en contact direct avec les chocs et vibrations des coques
externes et réduit aussi l'efficacité de la disspation thermique. Et
c'est fou maintenant le nombre de "scotches" de mauvaise qualité qu'on
trouve dans les matériels électroniques (dont la colle durcit et
craquelle avec le temps ce qui produit des abrasions locales ou des
réactions chimiques d'oxydation prématurée).
L'usine a utilisé ces "scotches" au lieu de plaques métalliques de
fixation, ou bien a remplacé un modèle de ventilo par un autre qu
n'est qu'à demi fixé et monté avec du scotch aussi pour éviter les
fuites d'air: ce scotch finit par se décoller à cause de la
température des radiateurs.
Les usines chinoises prennent beaucoup de liberté avec les cahiers des
charges des constructeurs, qui eux oublient de contrôler en continu
les lots sortis des conteneurs (une fois passé la douane, c'est
directement expédié par un service postal ou logistique sans aucun
contrôle du contructeur ou de l'importateur en ne faisant que coller
les étiquettes sur les cartons d'emballage ou gardé des mois dans des
dépots logistiques pour la revente par n'mporte qui dans un catalogue
de prix).
Mais le pire ce sont les condensateurs qui fuient avec la température
(ça ne se voit pas toujours, mais on peut parfois le humer en ouvrant
la machine, ou constater le léger gonflement sur la partie supérieure
où se trouve une "croix" de dilatation): s'il y a eu déjà un incident
de surchauffe, c'est toute la carte mère qui est endommagée car on ne
peut pas proprement remplacer ces condos. Et c'est souvent volontaire
de la part du constructeur : designed to fail, on dit "obsolescence
programmée", les matérieisl d'aujourd'hui ne tiennent pas plus de 2
ans, ou à peine plus que la durée de garantie initiale du constructeur.
En bref, quoi qu'il en soit, régulièrement, des puces de cette
carte mère
perdent le contact avec les pistes et le contrôleur disque devient
devient
inaccessible partiellement au driver SATA de linux qui passe alors
en mode
dégradé voir carrément c'est la panique dans le kernel. La
dernière fois une
puce à carrément sautée (comme certaines puces d'ailleurs) alors
forcément !
Ce qu'on fait c'est donc des rotations des câbles sur ceux qui
marchent
encore, et c'est assez pénible car au final on se retrouve avec
plein de
noeuds.
> Je ne connais pas les lieux de ce datacenter Free, mais certains
que j'ai
> visités (chez Level3 ou les systèmes boursiers/bancaires, ou les
systèmes de
> l'armée par exemple) sont très stricts sur les conditions
d'accès aux salles
Plus encore que tu ne l'imagine ! Jocelyn est parti il y a 5 jours
maintenant
pour faire des noeuds avec les câbles, et on est toujours sans
nouvelles de
lui. On suppose qu'il avait oublié sa pièce d'identité et qu'il
est maintenant
séquestré dans le datacenter par l'équipe de sécurité. Vraiment,
ils ne
rigolent pas là bas. On espère le revoir en un seul morceau sans
quoi, je ne
sais pas ce que l'on va dire à sa famille.
Peut-être que pour 2014, certains prendrons de bonnes résolutions,
eux le
relâcher et d'autres ce qui doit être fait.
--
sly (sylvain letuffe)
http://wiki.openstreetmap.org/wiki/User:Sletuffe
_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org <mailto:Talk-fr@openstreetmap.org>
https://lists.openstreetmap.org/listinfo/talk-fr
_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr
--
--------------------------------------------------------------------
Arnaud Vandecasteele
SIG - WebMapping - Spatial Ontology - GeoCollaboration
Web Site
http://www.marinegis.com/?page_id=131
http://geotribu.net/
_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr