Re: [FRsAG] [Couplage monitoring et cmdb - SaltStack & co] remplacer ce bon vieux nagios

Remy Dernat Wed, 30 Aug 2017 06:26:51 -0700

Bonjour,

J'ai changé le titre, car désolé, mais ça risque de partir en troll. Jem'en excuse par avance.


Voici mon petit retour d'xp sur la question...

J'ai toujours détesté nagios (trop usine à gaz, en perl, dont ledéveloppement est clairement parti dans tous les sens). Du coup, commecertains d'entre vous, j'ai essayé d'autres outils de monitoring (pastous (je n'ai notamment pas testé icinga2 et shinken, car je lestrouvais trop jeune à l'époque, mais qui sont très appréciés semblet-il)), mais ils avaient toujours un défaut à mes yeux (ex. zabbixgrosse usine à gaz par exemple dont la GUI est souvent bordélique).

D'autres, plus simples, m'ont donné une satisfaction partielle(collectl, collectd, ganglia, munnin)... Souvent, ce que je reproche,c'est le stockage de la donnée en base RRD. Ce type de base, selon ladéfinition de la base au départ, peu s'avérer pratique quand on manqued'espace, comme sur un raspPI, ne permet pas souvent de revenirsuffisamment en arrière sur l'historique pour retracer un problème (pourinfo, j'ai d'ailleurs trouvé de petits outils sympas en js quipermettent d'afficher plus de détails sur une représentation graphiqued'une base rrd). Car, en général, on arrive facilement à rectifier unproblème, mais il est bien plus intéressant d'en trouver l'origine. Etsi les données qu'on a ne sont pas assez précises pour avoir letimestamp exact, alors il est difficile de le corréler à des logs.

D'où l'intérêt des bases de données temporelles, InfluxDB,elasticsearch, and co., voir éventuellement de se faire aussi son propresystème, si la solution choisie ne permet pas de définir un stockagedifférent du RRD. Mais ces bases grossissent, et beaucoup. Ceci dit,quand on a de l'espace, pourquoi s'en priver.

Pour ceux qui ne connaissent pas, il y a d'ailleurs plein d'outils"cloud" qui font ce type de job magnifiquement bien (voir par exemple"sysdig cloud" pour vous faire une idée, mais il en existe pleind'autres, si on reste peu regardant sur la confidentialité/le stockagede ces informations).

Je me suis alors mis à faire de la métrologie comme certains ici, avec,pour le rendu, de pauvres tableaux html qui me disent quand tout va bien(vert) ou pas (rouge) et qui me suffisent amplement. La métrologie estfaite avec SaltStack qui me remonte plein d'information sur mesmachines. Cependant, c'est pour du petit/moyen parc, et je suis d'accordpour dire que c'est loin d'être aussi complet qu'un nagios qui vousremontera des infos par snmp sur tout un tas d'équipements réseau, quepour l'instant, je suis dans l'incapacité de monitorer, étant donnéqu'il faudrait pouvoir y déployer à minima, le client Salt (salt-minion)ou un client SSH.

L'intérêt, c'est que je ne rajoute que rarement un outil de monitoring àmon système de gestion de conf (sauf pour monitorer la température,l'électricité, le trafic réseau, ou bien l'activité de mes clusters decalcul), et je ne suis pas débordé par un trop plein d'informations(intérêt des métriques et des seuils d'alerte). Car de mon point, laproblématique à vouloir absolument tout monitorer, c'est qu'au final, onse retrouve avec trop d'infos, et comme le dit l'adage tropd'informations tue l'information.

Pour ceux qui utilisent Salt et souhaite approfondir la question, vouspouvez regarder la doc des beacons :https://docs.saltstack.com/en/latest/topics/beacons/


@+

Rémy


Le 29/08/2017 à 09:57, Benoit Poulet a écrit :

Le 24/08/2017 à 22:14, L.M.J a écrit :
  Et pour les autres :
  - Centreon : énième nagios repackagé/refondu... What's the point ?
Vous avez une vue faussée de Centreon, je vais vous en parler un peucar je l'utilise au quotidien
Quand vous parlez de Centreon, vous parlez généralement de la WEBUI,cette interface est assez bien foutue, complète, bien pour les gensayant besoin de gérer des droits finement (Auth LDAP/AD), on peut parexemple filtrer les actions possible par un utilisateur. Pour monbesoin, on a des utilisateurs qui vont du commercial au technicien enpassant par des clients, l'ergonomie de l'outil est un vrai plus
Mais Centreon, la société française (cocorico) a fait bien plus :
- Centreon peut être managé en CLI, l'outils s'appelle «clapi». Maisaussi via une API Rest.- Nagios à été forké depuis longtemps et fortement optimisé =>Centreon-Engine- Ils ont développé un broker (connexion entre un satellite et lecentral pour la remontée de données) codé en C++, performant et avecdes mécanismes intégrés de rétention de données en cas de coupureréseau. Broker est modulaire, on le configure avec des inputs/outputs,c'est lui qui écrit les RRD, et peux même sortir les métrics dansInfluxDB => Centreon-Broker- Il ont dev un mega plugin modulaire compatible Nagios, qui permetde vérifier un nom de choses incroyable et d'une façon standardisée :https://github.com/centreon/centreon-plugins- il y a une gestion native des traps SNMP avec un moteur de règlesqui peut décortiquer la trap, la router, .... => centreontrapd (Lagestion se fait via la webui)- Il ont une solution d'interface de secours sur les satellites encas de désastre.- On peut ajouter une base de connaissance dans la webui, ajouterdes widgets, ....
La solution n'est pas parfaite (laquelle l'est ?), mais a quand mêmede sacrés atouts dans sa manche.
Et tous les outils sont open-sources (sauf les extensions payantes)
Vous pouvez voir l'ensemble de leurs composants ici :https://documentation.centreon.com/
Et venez tester leur démo là :https://demo.centreon.com/centreon/index.php
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/


--
Rémy Dernat
Ingénieur d'Etudes
MBB/ISE-M

_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Re: [FRsAG] [Couplage monitoring et cmdb - SaltStack & co] remplacer ce bon vieux nagios

Répondre à