Bonsoir,

On 19/01/2017 10:13, Landry Minoza wrote:
J’ai eu le même problème il y a quelques années (squeeze) avec une «
Intel Corporation 82599EB 10-Gigabit SFI/SFP+ Network Connection (rev
01) », la carte arrêtait soudainement de transférer les paquets (link up
sur la machine et le switch en face, rien dans dmesg, mais plus aucun
transfert), pas d’améliorations avec le kernel bpo, ni le driver made in
Intel. Un ip l down / ip l up de l’interface permettait de la relancer
pour quelques To.
On avait créé un bond avec une des interfaces Giga en failover pour ne
pas perdre la machine, et de mémoire, on avait réussi à le stabiliser en
supprimant quelques options d’offloading (avec ethtool).

(tristement) amusant de voir que plusieurs années après, c'est exactement le même comportement que l'on observe sur nos X710 : Avec un kernel 4.8.0-0.bpo.2-amd64, ça fonctionne niquel pendant environ 15 ou 16h, et puis d'un coup plus rien, le réseau fait grève.

Les logs juste avant le plantage du réseau (mais la machine est toujours up, on a l'accès en console dessus) :

Jan 18 09:40:26 int-rt1 kernel: [62284.961173] i40e 0000:01:00.0: TX driver issue detected, PF reset issued Jan 18 09:40:27 int-rt1 kernel: [62285.442664] bond0: link status down for interface eth2, disabling it in 200 ms Jan 18 09:40:27 int-rt1 kernel: [62285.650320] i40e 0000:01:00.0: Error I40E_AQ_RC_EINVAL adding RX filters on PF, promiscuous mode forced on Jan 18 09:40:27 int-rt1 kernel: [62285.650627] bond0: link status up again after 200 ms for interface eth2

C'est un bonding sur 4 interfaces 10G : même si eth2 avait un soucis et lâchait, ça ne devrait pas avoir trop d'impact. Et pourtant...

On va tenter la semaine prochaine avec un kernel tout frais et pas encore bien sec (4.10-rc4), pour voir ce que ça donne. Puis on se résoudra à tester avec une CentOS.

Merci à tous pour vos retours !

Fabien
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à