Marcel,
Show de bola.
Ajudou bastante.
Vou analisar cada item e verificar como aplicar no Nagios aqui.
A você e a todos que tem me respondido (Jotagera, Shine e todos os outros),
MUITO OBRIGADO.
Diramos
-Mensagem original-
De: Marcel [mailto:mits...@gmail.com]
Enviada em: terça-feira, 18 de maio de 2010 15:18
Para: Unofficial Brazilian (Portuguese) Nagios Users List
Assunto: Re: [Nagios-users-br] RES: Nagios em rede GRANDE, BEM GRANDE.
É configuração distribuída? Quando trabalhei em um grande provedor, tínhamos
20k serviços em ~3k servidores. A partir de 5k serviços o nagios já começava
a apresentar latencia de checagem. Partimos pra solução distribuída,
primeiro no padrão nagios, mantendo 7 servidores slaves e 2 masters
replicados.
Assim vc distribui a carga do Nagios.
Quando estávamos chegando perto de 15k serviços, tivemos mais problemas de
performance, principalmente no broker_module ndo2db, que não escalava os
updates para o banco.
Daí mudamos várias partes da solução, tiramos o módulo NEB padrão,
construímos um assíncrono para updates no banco apenas se os status updates
estivessem diferentes, ou seja, nas mudanças de estado.
Assim conseguimos utilizar normalmente o banco ndo, enquanto que o consumo
de banda de rede foi otimizado.
Depois de alguns meses, chegando perto de 20k serviços, tivemos que partir
para utilização do DNX. Aí foi mais complicado acertar, com o crescimento do
número de slaves para 10, manter as configurações dos slaves se tornou uma
tarefa complicada, que tomava muito tempo e era muito sujeito a erros
manuais. Construímos um sistema para plugar em nosso banco CMDB para extrair
as informações dos ativos e transformar em configurações nagios, com
automação de vários processos.
Aí a coisa ficou tão boa que o trabalho ficou sem graça e eu saí de lá para
outras oportunidades! rs
A escalabilidade do nagios é um tanto complicado de se alcançar, mesmo o
nagios sendo bastante flexível, o aumento do número de ativos monitorados
implica em um crescimento exponencial na manutenção do parque de
monitoramento.
Ando avaliando o shinken, que é uma re-implementação do nagios em python,
com as melhores práticas para atingir escalabilidade e estabilidade e
facilidade na manutenção do parque. Está bastante cru ainda mas possui um
potencial bem interessante para grande escala de monitoramento.
Para tentar resolver o seu problema de latẽncia, dê uma lida nas dicas de
grandes instalações na documentação, o nagios.cmd vira um gargalo a partir
de um determinado ponto, então uma tentativa é aumentar o check_period,
digamos de 5 para 10 minutos, e ver se resolve.
Alguns serviços não precisam ser monitorados de 5 em 5 minutos. Tente criar
hierarquias de serviços a serem monitorados, os críticos recebem mais
atenção e têm um período menor de checagem, enquanto que outros serviços
podem ter uma frequência baixa de checagem, digamos, a cada meia hora.
É uma tarefa hercúlea se não utiliza massivamente templates, hostgroups e
servicegroups, mas ataca o seu problema de latência se conseguir diminuir o
número de checagens simultâneas, criando uma árvore hierárquica de
prioridade e urgência/necessidade da informação mais up-to-date.
Espero ter jogado alguma luz para resolução deste problema.
[]s
2010/5/17
> Grande Jotagera,
>
> Não uso o ndobd.
> Apenas o NagiosQL prá administração do Nagios.
> Meu parâmetro max_concurrent_checks=0
>
> Pauleira. 6000 serviços.
> Tô achando que o Nagios arriou.
>
> Diramos
>
>
> -Mensagem original-
> De: Jose Oliveira [mailto:jotag...@gmail.com]
> Enviada em: segunda-feira, 17 de maio de 2010 21:31
> Para: Unofficial Brazilian (Portuguese) Nagios Users List
> Assunto: Re: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE.
>
> Olá amigo
>
> Tem um parametro no qual voce especifica quantas checagens o Nagios deve
> disparar em paralelo. Assim, esta quantidade limita a capacidade do Nagios
> e
> ele enfileira as checages. Eu, que tenho somente 1000 serviços, deixo este
> careta com zero ou seja, sem limite de paralelismo...
>
> Deve ser este seu problema...
>
> Voce está salvando dados no Mysql com ndodb ou não?
>
>
>
> Em 17 de maio de 2010 18:09, escreveu:
>
> > Bem, pessoal.
> >
> > Seguindo as diversas dicas do pessoal daqui, tenho obtido avanços
> > significativos na empreita de instalar o Nagios em larga escala.
> > Mudei diversos parâmetros dos arquivos de configuração, inclusive de
> > compilação. Passei a usar Perl embdded, etc.
> > Estou só terminando os ajustes finos, prá depois fazer um resumo e postar
> > aqui, para uso de outros futuros "sortudos" que enfrentem o mesmo
> problema
> > que eu.
> > Por ora, é o seguinte:
> >
> > Estou com problema de atraso nas checagens de serviços.
> > Configurei o service template para fazer a checagem de 5 em 5 minutos.
> > Mas, na prática, quando eu listo os serviços na página do Nagios, e mando
> > ordenar por ordem de last time check, tem serviço cuja última checagem
> foi
> > de 1 hora atrás