Plop,

C'est dingue ce que des heures sur twitter, IRC et divers sites de news peuvent apporter comme retour d'expérience. Je me sui surpris à faire une petite compilation de #FAIL du réseau et à chercher le dénominateur commun de tous ces incidents.

De la panne de clim au réseau tout entier qui freeze, on a finalement eu un florilège d'anecdotes marrantes (enfin pas pour tout le monde) ces trois dernières années.

Un site qui part en carafe ? tu devais avoir plusieurs PoPs. Ah mais ta collecte de tel ou tel RIP ne peut être livré que là ? Alors tu pouvais pas bosser avec ces gens pas sérieux. T'as plusieurs PoPs mais un seul tracé optique entre eux ? Mauvais PoPs, changer PoPs.

Finalement c'est simple, il faut tout doubler, tout redonder, ou en tout cas ce qui en vaut la peine après avoir fait une "Fault Tree Analysis" sérieuse (http://www.blackhole-networks.com/NetworkFTA/index.html)

Il reste cependant un problème, la plaie de tout réseau : les équipementiers. C'est la cause des causes de nos nuits blanches et sueurs froides.

Autant le hardware est globalement pas mauvais, les stats de pannes matérielles sont basse par rapport aux bugs logiciels, et ne sont à l'origine que d'incidents très localisés, donc non impactants car vous avez déjà tout redondé sur des sites multiples. Non, la vraie plaie, c'est le soft.

Made in India, jeté en prod sans tests par des pisseurs de code pas foutus de réviser l'algorithmique classique, mal documentés et mal supportés, avec tellement peu de transparence dans l'architecture que le débug est presque aussi pénible que l’exploitation quotidienne...

Mais on a pas le choix. Et on en a tous souffert : as-path overflow chez cisco (coucou Tatave), BGP attr parsing overflow chez juniper (coucou level3), "d'oh c'est compliqué, je fallback en mode hub" chez Brocade (coucou Franck, Maxence, ...), y en a t il un pour relever l'autre ?

"C'est d'la faute aux boites noires à base de logiciels privateurs" diront certains. Pas forcement faux, quoi que le libre n'apporte aucune garantie (coucou OpenSSL après "goto fail; goto fail;"), juste plus de transparence au cas ou on aie du temps de développeur à cramer pour tout vérifier.

Et puis le software ça scale pas (encore). On est bloqués avec les ASIC boites-noires. Et ils auront toujours des bugs.

On pourrait mitiger en mélangeant les sources de bugs pour diluer les risques, hein ? C'est une idée qu'elle est bonne. Manque de pot, l'interopérabilité entre les constructeurs est la première source de bugs.

Et si la solution était finalement de continuer dans le "tout redondé", c'est à dire qu'un réseau sérieux devrait en réalité être un tandem de deux réseaux aussi indépendants que possibles, capables de se redonder mutuellement ? Et si, avec la dégradation constante de la qualité des softs des constructeurs, on finissait par ne pas avoir d'autres choix ?

J'aimerais bien avoir votre avis là dessus. Ca me ferait chier d'avoir à construire et gérer deux réseaux. Mais si c'est le prix à payer pour améliorer la qualité de mon sommeil...

@+

--
Jérôme Nicolle
06 19 31 27 14


---------------------------
Liste de diffusion du FRnOG
http://www.frnog.org/

Répondre à