Le 26/08/2017 à 10:46, ML a écrit :

>> En fait, j'ai carrément abandonné le monitoring, pour ne faire que de la
>> métrologie avec des seuils sur les métriques appropriées (disk free,
>> taux de 5xx, you name it). Tant qu'à emmerder les serveurs pour savoir
>> s'ils vont bien, autant mesurer et collecter des métriques. On peut tout
>> transformer en chiffre mesurable (nombre de noeuds dans un cluster, RTT
>> avec un serveur) et alerter si les métriques n'arrivent plus.
>>
>> J'ai quelques stacks qui sont surveillées par influx/grafana et jusqu'à
>> présent, je n'ai jamais ressenti le besoin de (re)mettre en service un
>> outil de monitoring dédié. IMHO, c'est bien plus souple en utilisant la
>> métrologie pure. C'est pluggué sur email/slack/sms et ça va plutôt bien.
>>
>> Par contre, pour le coup, il faut monitorer la métrologie :D
>> Un uptimerobot/statuscake/pingdom suffisent pour ça.*

> par curiosité, combien de temps tu as passé pour déployer tout ça ?

C'est assez rapide de déployer un influxdb et un grafana pour recevoir
les métriques. Sur chaque serveur, c'est telegraf qui collecte et
balance à influx.
La aussi le déploiement est très rapide (j'utilise ansible mais même à
la main, ça prend 10 minutes conf incluse). En général je déploie le
plugin statsd de telegraf qui permet à des scripts externes (ou du code
applicatif) d'envoyer facilement des métriques qui ne sont pas
collectées nativement par telegraf (la conf est un peu plus trial &
error pour cette partie, à cause du système de templating un peu abscons).

Le plus long, de loin, c'est de mettre en place les dashboards qui vont
bien dans grafana, et de créer les alertes. C'est assez itératif
notamment pour mettre les bon seuils sur les alertes.

> @olivier

> Alerte de mises à jour des firmwares du hardware des
> machines ?

Un outil de métrologie va exécuter un check pour ça. Au final, comme le
dit Jean, on peut tout transformer en nombre; le check en question peut
renvoyer 1 si des updates sont dispo (voire N=le nombre d'updates).
Au final, c'est le même usage mais ça permet de n'avoir qu'une
plateforme (metrologie) au lieu de deux (metro + monitoring).
Le truc qui m'enniue avec la métrologie, c'est qu'en général, on en
profite pas pour collecter des métriques utiles (à une fréquence
utilisable).

> @jean

> Le vrai soucis que je vois n'est pas technique (car au final en
> effet tout peux être vue comme une forme de métrologie), mais plus
> humain: afficher des courbes c'est joli/vendeur/rassurant, mais ça>
> n'aide pas l'utilisateur final à comprendre ce qu'il voit.
Oui, tout à fait. Dans mon cas, je suis le seul utilisateur
effectivement. Grafana offre pas mal de possibilités de documentation
des dashboards (popups d'help, links, ...) ou des affichages différents
(singlestat avec des mappings value -> text). Mais oui, ça reste
probablement limité à une team technique de supervision, pas un client
final.

A+
--
M
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à