Le mardi 20 juillet 2010 à 09:20, Richard DEMONGEOT écrivait:
> > Ca m'intéresse, je veux bien en savoir plus ;)
> Cela m'intéresse aussi, je suis en train de voir comment je peux faire
> cela.

dans les grandes lignes, c'est encore un labo de test chez moi. J'utlise
des outils existants, j'en ai marre de reinventer la roue ;)

Le contexte : 
On a un parc super hétérogène basé sur moultitude de petites
archis clients (D'un serveur à une grosse cinquantaine de
serveurs). On a besoin souvent de faire des check applicatifs
(en general en cherchant une string dans une page). Actuellement
on a un vieil outil en bois (What's Up gold 4.x pour les
archéologues), un nagios pour le equimements réseaux, un nagios
qui collecte les nagios des clients (une quinzaine) et des
filiales en Chine et au canada et un nagios pour le tout venant. 
Au dessus, on a un outil de gestion de event 'BMC Impact
Explorer' qui lui recoit les events depuis les collecteurs. Le
probleme principal vient de : 
        - on doit avoir un bon 30% de fausses alertes -> des
          faux event dans  BMC.
        - L'outil historique (What'Up) crash tout seul sans que
          cela se voit (l'interface est up mais plus mise a
          jour, mais le process est la mais il se touche la
          nouille). quand il ne le fait bas, tu te bouffe des 'null
          pointers' lors d'un click sur deux. en general, elles
          apparaisent par pack de 150 ces petites box windows :/
        - On a pas de perfdatas fiables hors trucs spécifiques. 
        - nagios + nsca fait nawak quand il se prends 500
          alertes en simultané, je vous raconte pas quand c'est
          6000 et souvent il dit qu'il a rien recu. 
        - la conf d'un host la dedans et t'es vite proche de la
          catastophe
Volumetrie : 
3000 serveurs avec peu de check pour le moment (environ 6000 services),
un bon 20000 a terme.

Le concept :
- On garde Nagios Core pour le moteur de collecte, car mine de rien il
  marche pas mal du tout (au pire pour les intégriste, y'a icinga qui
  marche tout pareil et qui peut replacer nagios au pied levé sans modif
  de conf)
- On jette What's Up, Nsca, pnp4nagios, centreon et autres machins type
  ndo
- On garde les nagios clients (on peut pas les changer comme ça)
- On use et abuse de mklivestatus, un broker qui permet d'acceder au
  nagios de facon quasi-instantanée qui nous permet :
  * de ne pas utliser les #...@!!#] de cgi de nagios mais d'utliser Thruk à
   la place. Cette appli en catalyst utlise le socket mk pour accerder à
   la demande aux infos de x serveurs nagios
  * via un script, on peut auto-feeder de facon rapide un cacti avec
    toutes les perfdatas de nagios sans activer la couche perf_data de
    nagios (yabon rapide)
- On utlise NagiosDNX pour faire les gros collecteurs, c'est un broker
  qui permet de faire faire le check par x nodes et refiler le resultat
  a nagios. 
- On conserve du coup toute methode de check type nagios. 
- On se retrouve avec X serveurs nagios qui sont au même niveau qui
  colecte dans leur coins, et on consolide les infos avec Thruk / Cacti
  sur une ou plusieurs machines de management. (on a prevu un DNX pour
  le tout venant, les colecteurs clients, un ou deux collecteur hors
  core reseau, voire hors reseau, etc .. )

NagiosDNX : http://dnx.sourceforge.net/
mkliveStatus :
        - overview broker 
          
http://nagios.larsmichelsen.com/mklivestatus-and-nagvis-making-the-ndo-needless/
        - le projet check_mk
          http://mathias-kettner.de/check_mk_download.html
        - live.php : http://nagios.larsmichelsen.com/livestatusslave/

Thruk : http://www.thruk.org/index.php (pour info, sni le dev est sur
#nag...@freenode )

Coté perf : pour lister 2000 services avec toutes les infos liés dans
nagios avec le webservice php, faut compter 0.02 secondes. 

coté intéret : des modules et des systmème bien distincts qui
fonctionnent indépendament. les collecteurs ne se parlent pas entre eux,
les applicatifs sont autonomes. par exemple un problème de graph dans
cacti n'impact que cacti est n'a rien a voir avec un problème nagios.
Cacti ne sais même pas que nagios est sa source de donnée. 

Les trucs encore a faire/tester/integrer/inventer : 
-> gestion centrale des confs nagios
-> test des agents check_mk windows et linux 
-> mon patron trouvera bien des trucs à ajouter aux specs 

je ferais surement un bout de doc quand ce sera plus carré avec des
dessins itou. 

N'hésitez pas si vous m'avez trouver pas clair, je n'ai pris qu'un seul
café la ;)

> H.S à en voir les présentation, hier nous avions plusieurs présentations de
> jeunes (dans la vingtaine), aujourd'hui c'est plutôt les présentations de
> personnes ayant une 20aine d'année de métier :].

> Troll du mardi : Les jeunes sont plus rapides que les moins jeunes :P.
nan, c'est juste qu'on a un métier, justement ;-D


F.


-- 
L'homme peut aimer son semblable jusqu'à mourir ; il ne l'aime
pas jusqu'à travailler pour lui.
-- Pierre-Joseph Proudhon
_______________________________________________
FRsaG mailing list
FRsaG@frsag.org
http://www.frsag.org/mailman/listinfo/frsag

Répondre à