On 07/07/2012 03:21 AM, François-xavier wrote:
Avec une durée d'incident de pratiquement 10h, je suis curieux de savoir qu'est-ce qui tombé en panne et pourquoi ils ont mis aussi longtemps à réparer ?
Dans un réseau mobile, il y a le réseau (BTS, MSC en 2G, NodeB, RNC en 3G, SGSN, GGSN, SMSC pour les deux) et puis il y a un instrument critique qui sait ou est l'utilisateur, ce qu'il a le droit de faire et comment l'authentifier : le HLR : Home Location Register. C'est une base de données accédée via les protocoles télécoms, avec comme clés d'index l'IMSI et le MSISDN de l'abonné.
Comme toute base de donnés, ben quand ça foire c'est la grosse M..., meme avec tous les mécanismes de réplication et de failover du monde. S'il faut remonter des backups, ben c'est long, dangereux, etc... Si les HLR sont en panne, plus d'authentification, plus d'appels, plus de SMS, plus de data parce que le SGSN ne peut plus vérifier le provisionning de l'abonné, plus rien.
Les mobiles enregistrés peuvent rester sur le réseau sans s'apercevoir de rien, mais dès qu'ils feront un appel, plouf.
Apres quand le HLR revient il y a un rush de demandes depuis les mobiles pour se réenregistrer, un rush de demandes depuis les SMSC pour délivrer ce qui est en file, etc... D'ou probablement une remise en route partielle, par morceaux, d'abord 2G, etc ...
Je ne travaille pas chez orange et je n'ai aucune idée de ce qui s'est passé, mais ils parlent d'un "incident logiciel majeur", et le HLR est le seul composant qu'on ne peut pas remplacer par un autre en quelques minutes.
A noter que Bouygues Telecom a eu une panne similaire en 2004 (octobre si je me rappelle bien) avec 10h de coupure aussi.
Dans le même registre, le plantage régulier des super-supernodes de Skype provoque exactement les mêmes effets : quand on ne sait plus localiser l'abonné, c'est mort.
--------------------------- Liste de diffusion du FRnOG http://www.frnog.org/