[FRnOG] [TECH] La solution à tous les maux ?

Jérôme Nicolle Fri, 28 Mar 2014 07:24:54 -0700

Plop,

C'est dingue ce que des heures sur twitter, IRC et divers sites de newspeuvent apporter comme retour d'expérience. Je me sui surpris à faireune petite compilation de #FAIL du réseau et à chercher le dénominateurcommun de tous ces incidents.

De la panne de clim au réseau tout entier qui freeze, on a finalement euun florilège d'anecdotes marrantes (enfin pas pour tout le monde) cestrois dernières années.

Un site qui part en carafe ? tu devais avoir plusieurs PoPs. Ah mais tacollecte de tel ou tel RIP ne peut être livré que là ? Alors tu pouvaispas bosser avec ces gens pas sérieux. T'as plusieurs PoPs mais un seultracé optique entre eux ? Mauvais PoPs, changer PoPs.

Finalement c'est simple, il faut tout doubler, tout redonder, ou en toutcas ce qui en vaut la peine après avoir fait une "Fault Tree Analysis"sérieuse (http://www.blackhole-networks.com/NetworkFTA/index.html)

Il reste cependant un problème, la plaie de tout réseau : leséquipementiers. C'est la cause des causes de nos nuits blanches etsueurs froides.

Autant le hardware est globalement pas mauvais, les stats de pannesmatérielles sont basse par rapport aux bugs logiciels, et ne sont àl'origine que d'incidents très localisés, donc non impactants car vousavez déjà tout redondé sur des sites multiples. Non, la vraie plaie,c'est le soft.

Made in India, jeté en prod sans tests par des pisseurs de code pasfoutus de réviser l'algorithmique classique, mal documentés et malsupportés, avec tellement peu de transparence dans l'architecture que ledébug est presque aussi pénible que l’exploitation quotidienne...

Mais on a pas le choix. Et on en a tous souffert : as-path overflow chezcisco (coucou Tatave), BGP attr parsing overflow chez juniper (coucoulevel3), "d'oh c'est compliqué, je fallback en mode hub" chez Brocade(coucou Franck, Maxence, ...), y en a t il un pour relever l'autre ?

"C'est d'la faute aux boites noires à base de logiciels privateurs"diront certains. Pas forcement faux, quoi que le libre n'apporte aucunegarantie (coucou OpenSSL après "goto fail; goto fail;"), juste plus detransparence au cas ou on aie du temps de développeur à cramer pour toutvérifier.

Et puis le software ça scale pas (encore). On est bloqués avec les ASICboites-noires. Et ils auront toujours des bugs.

On pourrait mitiger en mélangeant les sources de bugs pour diluer lesrisques, hein ? C'est une idée qu'elle est bonne. Manque de pot,l'interopérabilité entre les constructeurs est la première source de bugs.

Et si la solution était finalement de continuer dans le "tout redondé",c'est à dire qu'un réseau sérieux devrait en réalité être un tandem dedeux réseaux aussi indépendants que possibles, capables de se redondermutuellement ? Et si, avec la dégradation constante de la qualité dessofts des constructeurs, on finissait par ne pas avoir d'autres choix ?

J'aimerais bien avoir votre avis là dessus. Ca me ferait chier d'avoir àconstruire et gérer deux réseaux. Mais si c'est le prix à payer pouraméliorer la qualité de mon sommeil...


@+

--
Jérôme Nicolle
06 19 31 27 14


---------------------------
Liste de diffusion du FRnOG
http://www.frnog.org/

[FRnOG] [TECH] La solution à tous les maux ?

Répondre à