[FRsAG] Re: Qui pour remplacer Nagios en 2022 ?

David Durieux Thu, 28 Jul 2022 08:17:47 -0700

Bonjour, 

Pour les stats dans Grafana, on a des centaines de Go de Zabbix dans
une base MariaDB, qui est partitionnée par jour et aucun problème de
performances pour l'affichage.



Cordialement,
David


On Thu, 28 Jul 2022 16:32:33 +0200
Wallace <wall...@morkitu.org> wrote:

> Les arguments de Raphel peuvent être repris en inconvénients.
> 
> Le principal problème je trouve c'est la quantité de données. Car
> quand on passe sur du prom, on a tendance à ne pas se contenter de
> toutes les 5 min ou 1 min à l'ancienne, on descend souvent à toutes
> les 15 secondes voir moins dans certains cas.
> 
> Et quand bien même on resterait sur 1min ou 5min, ce n'est pas juste
> un état ok, warning, error, non c'est toutes les métriques internes
> d'un logiciel en brut. Et ça entre un nagios et un prom pour une
> infra de plusieurs centaines de serveurs on passe de tout tient sur
> un seul serveur nagios qui mange dans les 200Go de datas sur 1 an de
> rétention pour 4 cpu, 8Go ram à un prom qui mange 4To de datas 32
> cpu, 64Go ram pour garder 3 à 4 semaines de datas...
> 
> Et après il faut avoir des ressources pour être capable d'interroger 
> toutes ces données rapidement pour faire les alertes, les graphs et
> là les 32cpu en vm ne suffisent plus ... ça rame sous grafana.
> 
> Bref on considère plus prom comme du temps réel à garder 24h / 48h
> max mais on perd l'investigation à posteriori d'évènements léger ou
> alors d'un gros pic qu'on a pas pu analyser dans le gap de temps
> imparti.
> 
> On a regardé aussi quelles bases de time series utilisées pour
> pouvoir notamment réduire les données au bout de certaines périodes :
> 1 mois, 6 mois, ... pour réduire la fréquence, mais on a rien trouvé
> qui marchait vraiment bien l'année dernière.
> 
> Le 28/07/2022 à 13:14, Nicolas GIRARDI a écrit :
> > Je suis mitigé.
> > Ok pour la metrologie l’observabilité mais pour l’alerting le 
> > reporting ça reste un peu pénible.
> >
> > Avis purement personnel.
> >
> > Nicolas Girardi.
> >
> >> Le 28 juil. 2022 à 12:35, Raphael Mazelier <r...@futomaki.net> a
> >> écrit :
> >>
> >> 
> >>
> >> Bonjour,
> >>
> >> Je suis tout de même étonné que peu de monde à part Wallace ait
> >> cité écosystème Prometheus.
> >>
> >> Dans mes x précédentes aventures professionnelles c'était ce qu'il
> >> y avait ou que j'ai mis en place, et c'est ce qui parait le
> >> standard de facto de nos jours pour "observer" une infrastructure
> >> dynamique (cloud ou autre).
> >>
> >> En effet il s'agit d'une approche assez différente (finalement
> >> assez proche de zabbix dans son fonctionnement nominal) qui est de 
> >> récupérer un maximum de métriques et d'évaluer des règles
> >> d'alerting dessus.
> >>
> >> En effet ce n'est pas agentless, mais si on y réfléchit peu de 
> >> solution le sont. Il y a nécessairement quelque chose sur le 
> >> host/équipement qui répond des métriques (possiblement des gauges) 
> >> dans toutes les solutions (snmp, check_mk, agent-zabbix).
> >>
> >> Les bénéfices de l'approche prometheus (ou alternatives) sont 
> >> nombreux, mais les plus gros que je vois :
> >>
> >> - nombres de métriques systèmes et applicatives possiblement
> >> énormes
> >>
> >> - alertes crées de manières programmatiques
> >>
> >> - auto-discovery
> >>
> >> - découplage forcés de l'alerting/routing des alertes (on peut
> >> voir ça comme un inconvénient)
> >>
> >>
> >> En revanche cela ne remplace pas tout, on est bien d'accord. Les 
> >> alertes prom sont du whitebox, et alertes passives.
> >>
> >> Il faut en // maintenir des alertes blackbox actives (soit via un 
> >> outil externes type pingdom), ou même des alertes actives via un
> >> tool internes (on en avait écrit certain) qui re-exposaient leurs
> >> résultat en métriques prom.
> >>
> >> Je ne peux m'empecher de relinker les excellents papier de google
> >> SRE sur le monitoring :
> >>
> >> - https://sre.google/workbook/monitoring/
> >>
> >> - https://sre.google/sre-book/practical-alerting/- 
> >> https://sre.google/sre-book/monitoring-distributed-systems/
> >>
> >>
> >> On 26/07/2022 17:32, Mickael MONSIEUR wrote:
> >>> Bonjour,
> >>>
> >>> Suite à une mise à jour des systèmes, on a décidé de remplacer
> >>> par la même occasion notre Nagios par quelque chose d'un peu plus
> >>> "user-friendly". (et pourtant c'est un demi barbu qui parle..)
> >>>
> >>> Vous me demanderez ce qu'on a contre Nagios? En 15 ans, ça n'a pas
> >>> vraiment évolué, et on aimerait bien quelque chose avec un
> >>> minimum de GUI pour l'encodage, voir une API. Et mettre 2k/an
> >>> dans la version XI pour un soft qui n'évolue presque pas... bof.
> >>>
> >>> Notre besoin est plutôt simple, on a déjà Observium qui fait 90%
> >>> de nos besoins au sein de notre réseau, mais Observium ne permet
> >>> pas "facilement" de monitorer "juste" des ports TCP, du
> >>> SMTP/POP/IMAP, des réponses DNS, des réponses HTML dans une page
> >>> HTTPS, l'expiration d'un certificat TLS.
> >>>
> >>> Au début on pensait à Zabbix, mais quand on voit que ça passe
> >>> d'office par un agent, on en voit pas l'utilité. Observium fait
> >>> déjà tout ça en SNMP, et certaines machines ne sont pas gérées
> >>> par nous on doit juste les monitorer de l'extérieur, donc
> >>> installation impossible.
> >>>
> >>> Les seules conditions qu'on a c'est : open source, sans agent, et
> >>> pas dans un langage RAM killer comme Java.
> >>>
> >>> Mickael
> >>> _______________________________________________
> >>> Liste de diffusion du %(real_name)s
> >>> http://www.frsag.org/
> >> _______________________________________________
> >> Liste de diffusion du %(real_name)s
> >> http://www.frsag.org/
> >
> > _______________________________________________
> > Liste de diffusion du %(real_name)s
> > http://www.frsag.org/

_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/

[FRsAG] Re: Qui pour remplacer Nagios en 2022 ?

Répondre à