Plop,
C'est dingue ce que des heures sur twitter, IRC et divers sites de news
peuvent apporter comme retour d'expérience. Je me sui surpris à faire
une petite compilation de #FAIL du réseau et à chercher le dénominateur
commun de tous ces incidents.
De la panne de clim au réseau tout entier qui freeze, on a finalement eu
un florilège d'anecdotes marrantes (enfin pas pour tout le monde) ces
trois dernières années.
Un site qui part en carafe ? tu devais avoir plusieurs PoPs. Ah mais ta
collecte de tel ou tel RIP ne peut être livré que là ? Alors tu pouvais
pas bosser avec ces gens pas sérieux. T'as plusieurs PoPs mais un seul
tracé optique entre eux ? Mauvais PoPs, changer PoPs.
Finalement c'est simple, il faut tout doubler, tout redonder, ou en tout
cas ce qui en vaut la peine après avoir fait une "Fault Tree Analysis"
sérieuse (http://www.blackhole-networks.com/NetworkFTA/index.html)
Il reste cependant un problème, la plaie de tout réseau : les
équipementiers. C'est la cause des causes de nos nuits blanches et
sueurs froides.
Autant le hardware est globalement pas mauvais, les stats de pannes
matérielles sont basse par rapport aux bugs logiciels, et ne sont à
l'origine que d'incidents très localisés, donc non impactants car vous
avez déjà tout redondé sur des sites multiples. Non, la vraie plaie,
c'est le soft.
Made in India, jeté en prod sans tests par des pisseurs de code pas
foutus de réviser l'algorithmique classique, mal documentés et mal
supportés, avec tellement peu de transparence dans l'architecture que le
débug est presque aussi pénible que l’exploitation quotidienne...
Mais on a pas le choix. Et on en a tous souffert : as-path overflow chez
cisco (coucou Tatave), BGP attr parsing overflow chez juniper (coucou
level3), "d'oh c'est compliqué, je fallback en mode hub" chez Brocade
(coucou Franck, Maxence, ...), y en a t il un pour relever l'autre ?
"C'est d'la faute aux boites noires à base de logiciels privateurs"
diront certains. Pas forcement faux, quoi que le libre n'apporte aucune
garantie (coucou OpenSSL après "goto fail; goto fail;"), juste plus de
transparence au cas ou on aie du temps de développeur à cramer pour tout
vérifier.
Et puis le software ça scale pas (encore). On est bloqués avec les ASIC
boites-noires. Et ils auront toujours des bugs.
On pourrait mitiger en mélangeant les sources de bugs pour diluer les
risques, hein ? C'est une idée qu'elle est bonne. Manque de pot,
l'interopérabilité entre les constructeurs est la première source de bugs.
Et si la solution était finalement de continuer dans le "tout redondé",
c'est à dire qu'un réseau sérieux devrait en réalité être un tandem de
deux réseaux aussi indépendants que possibles, capables de se redonder
mutuellement ? Et si, avec la dégradation constante de la qualité des
softs des constructeurs, on finissait par ne pas avoir d'autres choix ?
J'aimerais bien avoir votre avis là dessus. Ca me ferait chier d'avoir à
construire et gérer deux réseaux. Mais si c'est le prix à payer pour
améliorer la qualité de mon sommeil...
@+
--
Jérôme Nicolle
06 19 31 27 14
---------------------------
Liste de diffusion du FRnOG
http://www.frnog.org/