On mer., mars 19, 2014 at 12:20:07 +0100, Vincent Bernat wrote:
>  ❦ 18 mars 2014 20:53 CET, Arnaud <aberming...@online.net> :
> 
> >> C'est fini. Trois coupures en tout, la plus longue de 2h.
> >> http://stats.pingdom.com/p5a9jfqdd46c/852886
> >
> > Un bug "packet of death" comme on aime en manger :-) impact 1 salle 13% du 
> > parc 
> > Le CR ici :
> > http://forum.online.net/index.php?/topic/4270-dc2-salle-103-incident-r%C3%A9seau/
> 
> Possible de dévoiler quelques caractéristiques du paquet TCP en
> question ? Il est valide ? Il a des entêtes supplémentaires ? Il est
> petit ? Il est gros ? Il est malicieux ?

yop,

on etudie la chose avec cisco dans un premier temps avant de crier trop
fort au loup, ca peut etre une configuration particulièrement spécifique
chez nous ou un enchainement de circonstances, y a tjrs énormément de
possibilités dans ce genre de cas.

en tout cas, les "symptomes" techniques sont un écroulement de la CEF très
rapide (quelques secondes après le boot et le up des ports) avec une 20aine de
routes connected uniquement (ospf coupé, ospfv3 coupé, routes statiques
intégralement supprimées) (donc aucun protocole de routage dynamique, aucune
statique, il restait juste les connected)

Mar 18 13:52:10 UTC: %C4K_L3HWFORWARDING-4-TCAMFULL: FLC Tcam full, packets 
will be forwarded in software at reduced rate.  Failure due 
to: add tcam space failed
Mar 18 13:52:10 UTC: %COMMON_FIB-3-HW_API: HW API failure for IPv4 CEF 
[0x11B6B660]: Out of Tcam resource (fatal) (0 subsequent failures
).
moins de 30 lignes d'ACL, pas de qos (hors CoPP)
mac address-table loin d'etre remplie, idem ARP et moins de 40 routes actives 
en FIB
tout ca sur 2 sup6-E en SSO dans un 4507R-E (ie 256k routes, 55k mac,
... bref on est très loin de la saturation qu'on pourrait attendre sur
ce genre de symptomes) (non c'est pas une sup6L-E, c bien des sup6-E ;)

c'est d'autant plus étonnant que nos routeurs de rangee/salle ne font
vraiment rien d'autre que des fonctions très basiques switch/routing (la
plus grosse partie sécurité est déléguée sur les switchs de baie au plus
près des serveurs)

pdt le debug, Florian a pu identifier un indicateur précis du crash de
la CEF sur le routeur ce qui nous a permis ensuite de remonter à
l'émetteur progressivement (en testant baie par baie sur ce routeur, ce
qui explique en partie la durée de l'intervention, en plus des tests de
remplacement des SUP, etc etc puis la restauration complète de la conf ...)

voilà à peu près les details qu'on peut donner actuellement,

depuis hier on a réussi à reproduire en tout cas ce qui est déjà pas mal ;)

Mik
PS: et vive les console serie ;)

> -- 
> Indent to show the logical structure of a program.
>             - The Elements of Programming Style (Kernighan & Plauger)
> 
> 
> ---------------------------
> Liste de diffusion du FRnOG
> http://www.frnog.org/

-- 
Mickael Marchand,
Responsable Réseau et Sécurité - Online / Iliad Entreprises
Tel: +33 (0)1 73 50 29 37, Fax: +33 (0)1 73 50 29 01


---------------------------
Liste de diffusion du FRnOG
http://www.frnog.org/

Reply via email to