[Nagios-users-br] RES: Nagios em rede GRANDE, BEM GRANDE.

2010-05-17 Por tôpico benedito.ramos
Grande Jotagera,

Não uso o ndobd.
Apenas o NagiosQL prá administração do Nagios.
Meu parâmetro max_concurrent_checks=0

Pauleira. 6000 serviços.
Tô achando que o Nagios arriou.

Diramos


-Mensagem original-
De: Jose Oliveira [mailto:jotag...@gmail.com] 
Enviada em: segunda-feira, 17 de maio de 2010 21:31
Para: Unofficial Brazilian (Portuguese) Nagios Users List
Assunto: Re: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE.

Olá amigo

Tem um parametro no qual voce especifica quantas checagens o Nagios deve
disparar em paralelo. Assim, esta quantidade limita a capacidade do Nagios e
ele enfileira as checages. Eu, que tenho somente 1000 serviços, deixo este
careta com zero ou seja, sem limite de paralelismo...

Deve ser este seu problema...

Voce está salvando dados no Mysql com ndodb ou não?



Em 17 de maio de 2010 18:09,  escreveu:

> Bem, pessoal.
>
> Seguindo as diversas dicas do pessoal daqui, tenho obtido avanços
> significativos na empreita de instalar o Nagios em larga escala.
> Mudei diversos parâmetros dos arquivos de configuração, inclusive de
> compilação. Passei a usar Perl embdded, etc.
> Estou só terminando os ajustes finos, prá depois fazer um resumo e postar
> aqui, para uso de outros futuros "sortudos" que enfrentem o mesmo problema
> que eu.
> Por ora, é o seguinte:
>
> Estou com problema de atraso nas checagens de serviços.
> Configurei o service template para fazer a checagem de 5 em 5 minutos.
> Mas, na prática, quando eu listo os serviços na página do Nagios, e mando
> ordenar por ordem de last time check, tem serviço cuja última checagem foi
> de 1 hora atrás (coluna Last check).
> Por outro lado, em Performance Info, obtenho o seguinte quadro sobre
> services:
>
> Time Frame Services Checked
> <= 1 minute: 27 (0.4%)
> <= 5 minutes: 1598 (25.3%)
> <= 15 minutes: 5169 (81.7%)
> <= 1 hour: 6296 (99.5%)
> Since program start:   6296 (99.5%
>
> A meu ver, o quadro acima indica que todos os serviços foram checados em
> aproximadamente 20 minutos.
>
> Então eu questiono:
>
> 1 - Porque essa demora de 1 hora entre uma checagem e outra de serviço?
> Aqueles horários que aparecem na coluna "Last check" realmente indicam o
> horário da última checagem?
> 2 - Existe algum parâmetro a ser configurado no Nagios.cfg que melhore essa
> performance, diminuindo o tempo entre checagens?
> 3 - Porque a checagem não é feita a cada 5 minutos, como configurado no
> template de serviço?
> 4 - Li algo sobre paralelização de checagem de serviço. Seria o caso? Como
> usar isso?
>
> Lembro, mais uma vez, que o quesito hardware está tranqüilo, com picos de
> utilização de CPU e memória de no máximo 25%.
>
> Aguardo,
>
> Grato desde já.
>
> Diramos
>
>
> -Mensagem original-
> De: Shine [mailto:esh...@gmail.com]
> Enviada em: quarta-feira, 5 de maio de 2010 20:56
> Para: Unofficial Brazilian (Portuguese) Nagios Users List
> Assunto: Re: [Nagios-users-br] RES: Nagios em rede GRANDE, BEM GRANDE.
>
> O uso do protocolo TCP é mais confiável que UDP simplesmente porque o
> protocolo é orientado a conexão. Em palavras mais simples, ele faz a
> recuperação de pacotes de rede perdido no próprio protocolo, enquanto
> que o UDP depende da aplicação conferir e fazer a recuperação da
> informação.
> Mas as perdas existem tanto com o uso de um ou outro protocolo. E
> dependendo da escala de monitoração, usar TCP para contornar uma
> deficiência da rede pode trazer outros problemas.
>
> O SNMP pode oscilar não apenas por causa da rede, mas tbm pode falhar
> se o agent estiver com problemas. Existem técnicas adequadas para cada
> caso, mas se vc não tem uma conexão confiável por rede remota, melhor
> fazer a monitoração por um agent na rede local e fazer o relay dos
> resultados. Claro que estamos falando aqui de um evento de monitoração
> e não um alarme (notification, trap) no SNMP.
>
> Então para uma monitoração adequada, precisamos primeiro ver se a
> condição que gera os resultados indesejados é a rede e aplicar
> correções na rede ou mudar a topologia do agente Nagios para contornar
> a situação, por exemplo usando NSCA. Se a situação é mais devido à
> demora da aplicação SNMP do host monitorado, ajustar parâmetros de
> timeout pode ajudar.
>
> Um outro ponto a ser considerado é quantos threads podem ser rodados
> simultaneamente. Em se usando uma aplicação com uma resposta não muito
> imediata como o SNMP, faz sentido ter a máxima quantidade de threads
> simultâneos, uma vez que a interação com o host monitorado demora bem
> mais que uma interação com ping (por exemplo). Como vc usa o valor
> default, então não há limitações... mas vale a pena checar. Tem q ser
> zero. ;)
>
> sd,
> Edgar
>
> Em 5 de maio de 2010 12:19, Marcel  escreveu:
> > Só alterar a conf do snmpd para escutar tanto udp quanto tcp, que é mais
> > caro mas não há perda de pacotes!
> >
> > 2010/5/5 
> >
> >> Alexandre,
> >>
> >> Grato pela resposta.
> >> Ocorre que, pela política imposta pela área de segurança da empresa, não
> é
> 

Re: [Nagios-users-br] Monitorar Servidores Linux - Swap+Memoria Fisica

2010-05-17 Por tôpico Jose Oliveira
Luis

Onde trabalho, temos um plugin que monitora memória fisica e swap. Posso te
mandar o fonte amanhã. ão tem um ./configure para geralmente funcina os
servidores Intel com Linux Red Hat e Sparc com Solaris que temos.

Mas gostaria de argumentar com voce quanto ao comportamento do servidor...

A memória tende a 100% porque o Linux (e a maioria dos sistemas atuais,
incluindo Windows) faz cache de arquivos na memória.

Temos um servidor com 32Gb de RAM rodando Oracle, sendo que o Oracle pega
4Gb para si (configuração estática). O Banco tem aproximadamente 800Gb e
depois de umas 4 horas de produção a memória bate em 97%... Normal.

Quanto ao swap, o desejável é que não aconteça sua utilização, porque disco
é muito lento e memória muito barata hoje em dia. Se o Linux manda para swap
o gnome, por exemplo, porque ninguem usa a interface gráfica, tá
maravilhoso... De resto, tente administrar para que o swap nunca seja
utilizado.


[]s


Em 17 de maio de 2010 14:11, Luis Henrique  escreveu:

> Amigos,
> alguém sabe me dizer como monitorar Swap+Memoria física de Servidores
> linux pelo nagios.
> Preciso monitorar os 2 juntos...pq? Nem sempre o Swap a 98% e problema,
> o problema e quando esta memoria física e Swap a 98%, ai é B.O para de
> Server mesmo.
>
> Como dito, preciso de um plugin que pegue o valor real da memoria fisica
> e Swap como um todo.
>
> Desde Já agradeço a ajuda.
> --
> - 
> Luis Henrique
> Tecnologia da Informação
> Bionexo do Brasil
> 55 11 3133-8110
> lsi...@bionexo.com
>
> www.bionexo.com.br
> Av.: Luiz Carlos Berrini, 936,
> 12° andar Novo Brooklin - São Paulo - SP
>
>
> --
>
> --
> Nagios-users-br@lists.sourceforge.net mailing list
> https://lists.sourceforge.net/lists/listinfo/nagios-users-br
> Wiki: http://nagios-br.sf.net/wiki
>



-- 
Abraços
JGeraldo
--

-- 
Nagios-users-br@lists.sourceforge.net mailing list
https://lists.sourceforge.net/lists/listinfo/nagios-users-br
Wiki: http://nagios-br.sf.net/wiki


Re: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE.

2010-05-17 Por tôpico Jose Oliveira
Olá amigo

Tem um parametro no qual voce especifica quantas checagens o Nagios deve
disparar em paralelo. Assim, esta quantidade limita a capacidade do Nagios e
ele enfileira as checages. Eu, que tenho somente 1000 serviços, deixo este
careta com zero ou seja, sem limite de paralelismo...

Deve ser este seu problema...

Voce está salvando dados no Mysql com ndodb ou não?



Em 17 de maio de 2010 18:09,  escreveu:

> Bem, pessoal.
>
> Seguindo as diversas dicas do pessoal daqui, tenho obtido avanços
> significativos na empreita de instalar o Nagios em larga escala.
> Mudei diversos parâmetros dos arquivos de configuração, inclusive de
> compilação. Passei a usar Perl embdded, etc.
> Estou só terminando os ajustes finos, prá depois fazer um resumo e postar
> aqui, para uso de outros futuros "sortudos" que enfrentem o mesmo problema
> que eu.
> Por ora, é o seguinte:
>
> Estou com problema de atraso nas checagens de serviços.
> Configurei o service template para fazer a checagem de 5 em 5 minutos.
> Mas, na prática, quando eu listo os serviços na página do Nagios, e mando
> ordenar por ordem de last time check, tem serviço cuja última checagem foi
> de 1 hora atrás (coluna Last check).
> Por outro lado, em Performance Info, obtenho o seguinte quadro sobre
> services:
>
> Time Frame Services Checked
> <= 1 minute: 27 (0.4%)
> <= 5 minutes: 1598 (25.3%)
> <= 15 minutes: 5169 (81.7%)
> <= 1 hour: 6296 (99.5%)
> Since program start:   6296 (99.5%
>
> A meu ver, o quadro acima indica que todos os serviços foram checados em
> aproximadamente 20 minutos.
>
> Então eu questiono:
>
> 1 - Porque essa demora de 1 hora entre uma checagem e outra de serviço?
> Aqueles horários que aparecem na coluna "Last check" realmente indicam o
> horário da última checagem?
> 2 - Existe algum parâmetro a ser configurado no Nagios.cfg que melhore essa
> performance, diminuindo o tempo entre checagens?
> 3 - Porque a checagem não é feita a cada 5 minutos, como configurado no
> template de serviço?
> 4 - Li algo sobre paralelização de checagem de serviço. Seria o caso? Como
> usar isso?
>
> Lembro, mais uma vez, que o quesito hardware está tranqüilo, com picos de
> utilização de CPU e memória de no máximo 25%.
>
> Aguardo,
>
> Grato desde já.
>
> Diramos
>
>
> -Mensagem original-
> De: Shine [mailto:esh...@gmail.com]
> Enviada em: quarta-feira, 5 de maio de 2010 20:56
> Para: Unofficial Brazilian (Portuguese) Nagios Users List
> Assunto: Re: [Nagios-users-br] RES: Nagios em rede GRANDE, BEM GRANDE.
>
> O uso do protocolo TCP é mais confiável que UDP simplesmente porque o
> protocolo é orientado a conexão. Em palavras mais simples, ele faz a
> recuperação de pacotes de rede perdido no próprio protocolo, enquanto
> que o UDP depende da aplicação conferir e fazer a recuperação da
> informação.
> Mas as perdas existem tanto com o uso de um ou outro protocolo. E
> dependendo da escala de monitoração, usar TCP para contornar uma
> deficiência da rede pode trazer outros problemas.
>
> O SNMP pode oscilar não apenas por causa da rede, mas tbm pode falhar
> se o agent estiver com problemas. Existem técnicas adequadas para cada
> caso, mas se vc não tem uma conexão confiável por rede remota, melhor
> fazer a monitoração por um agent na rede local e fazer o relay dos
> resultados. Claro que estamos falando aqui de um evento de monitoração
> e não um alarme (notification, trap) no SNMP.
>
> Então para uma monitoração adequada, precisamos primeiro ver se a
> condição que gera os resultados indesejados é a rede e aplicar
> correções na rede ou mudar a topologia do agente Nagios para contornar
> a situação, por exemplo usando NSCA. Se a situação é mais devido à
> demora da aplicação SNMP do host monitorado, ajustar parâmetros de
> timeout pode ajudar.
>
> Um outro ponto a ser considerado é quantos threads podem ser rodados
> simultaneamente. Em se usando uma aplicação com uma resposta não muito
> imediata como o SNMP, faz sentido ter a máxima quantidade de threads
> simultâneos, uma vez que a interação com o host monitorado demora bem
> mais que uma interação com ping (por exemplo). Como vc usa o valor
> default, então não há limitações... mas vale a pena checar. Tem q ser
> zero. ;)
>
> sd,
> Edgar
>
> Em 5 de maio de 2010 12:19, Marcel  escreveu:
> > Só alterar a conf do snmpd para escutar tanto udp quanto tcp, que é mais
> > caro mas não há perda de pacotes!
> >
> > 2010/5/5 
> >
> >> Alexandre,
> >>
> >> Grato pela resposta.
> >> Ocorre que, pela política imposta pela área de segurança da empresa, não
> é
> >> permitido instalação de qualquer arquivo no cliente monitorado.
> >> Ao que me parece, para que o NRPE funcione, tem que instalar e
> configurar o
> >> cliente, certo?
> >> Ou estou errado?
> >>
> >> Diramos
> >>
> >> -Mensagem original-
> >> De: Alexandre Gorges [mailto:algor...@gmail.com]
> >> Enviada em: quarta-feira, 5 de maio de 2010 09:53
> >> Para: Unofficial Brazilian (Portuguese) Nagios Users List
> >> Assunto: Re: [N

[Nagios-users-br] Monitorar Servidores Linux - Swap+Memoria Fisica

2010-05-17 Por tôpico Luis Henrique
Amigos,
alguém sabe me dizer como monitorar Swap+Memoria física de Servidores 
linux pelo nagios.
Preciso monitorar os 2 juntos...pq? Nem sempre o Swap a 98% e problema, 
o problema e quando esta memoria física e Swap a 98%, ai é B.O para de 
Server mesmo.

Como dito, preciso de um plugin que pegue o valor real da memoria fisica 
e Swap como um todo.

Desde Já agradeço a ajuda.
-- 
- 
Luis Henrique
Tecnologia da Informação
Bionexo do Brasil
55 11 3133-8110
lsi...@bionexo.com

www.bionexo.com.br
Av.: Luiz Carlos Berrini, 936,
12° andar Novo Brooklin - São Paulo - SP

--

-- 
Nagios-users-br@lists.sourceforge.net mailing list
https://lists.sourceforge.net/lists/listinfo/nagios-users-br
Wiki: http://nagios-br.sf.net/wiki


[Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE.

2010-05-17 Por tôpico benedito.ramos
Bem, pessoal.

Seguindo as diversas dicas do pessoal daqui, tenho obtido avanços 
significativos na empreita de instalar o Nagios em larga escala.
Mudei diversos parâmetros dos arquivos de configuração, inclusive de 
compilação. Passei a usar Perl embdded, etc.
Estou só terminando os ajustes finos, prá depois fazer um resumo e postar aqui, 
para uso de outros futuros "sortudos" que enfrentem o mesmo problema que eu.
Por ora, é o seguinte:

Estou com problema de atraso nas checagens de serviços.
Configurei o service template para fazer a checagem de 5 em 5 minutos.
Mas, na prática, quando eu listo os serviços na página do Nagios, e mando 
ordenar por ordem de last time check, tem serviço cuja última checagem foi de 1 
hora atrás (coluna Last check).
Por outro lado, em Performance Info, obtenho o seguinte quadro sobre services:

Time Frame Services Checked 
<= 1 minute: 27 (0.4%) 
<= 5 minutes: 1598 (25.3%) 
<= 15 minutes: 5169 (81.7%) 
<= 1 hour: 6296 (99.5%) 
Since program start:   6296 (99.5%

A meu ver, o quadro acima indica que todos os serviços foram checados em 
aproximadamente 20 minutos.

Então eu questiono:

1 - Porque essa demora de 1 hora entre uma checagem e outra de serviço? Aqueles 
horários que aparecem na coluna "Last check" realmente indicam o horário da 
última checagem?
2 - Existe algum parâmetro a ser configurado no Nagios.cfg que melhore essa 
performance, diminuindo o tempo entre checagens?
3 - Porque a checagem não é feita a cada 5 minutos, como configurado no 
template de serviço?
4 - Li algo sobre paralelização de checagem de serviço. Seria o caso? Como usar 
isso?

Lembro, mais uma vez, que o quesito hardware está tranqüilo, com picos de 
utilização de CPU e memória de no máximo 25%.

Aguardo,

Grato desde já.

Diramos


-Mensagem original-
De: Shine [mailto:esh...@gmail.com] 
Enviada em: quarta-feira, 5 de maio de 2010 20:56
Para: Unofficial Brazilian (Portuguese) Nagios Users List
Assunto: Re: [Nagios-users-br] RES: Nagios em rede GRANDE, BEM GRANDE.

O uso do protocolo TCP é mais confiável que UDP simplesmente porque o
protocolo é orientado a conexão. Em palavras mais simples, ele faz a
recuperação de pacotes de rede perdido no próprio protocolo, enquanto
que o UDP depende da aplicação conferir e fazer a recuperação da
informação.
Mas as perdas existem tanto com o uso de um ou outro protocolo. E
dependendo da escala de monitoração, usar TCP para contornar uma
deficiência da rede pode trazer outros problemas.

O SNMP pode oscilar não apenas por causa da rede, mas tbm pode falhar
se o agent estiver com problemas. Existem técnicas adequadas para cada
caso, mas se vc não tem uma conexão confiável por rede remota, melhor
fazer a monitoração por um agent na rede local e fazer o relay dos
resultados. Claro que estamos falando aqui de um evento de monitoração
e não um alarme (notification, trap) no SNMP.

Então para uma monitoração adequada, precisamos primeiro ver se a
condição que gera os resultados indesejados é a rede e aplicar
correções na rede ou mudar a topologia do agente Nagios para contornar
a situação, por exemplo usando NSCA. Se a situação é mais devido à
demora da aplicação SNMP do host monitorado, ajustar parâmetros de
timeout pode ajudar.

Um outro ponto a ser considerado é quantos threads podem ser rodados
simultaneamente. Em se usando uma aplicação com uma resposta não muito
imediata como o SNMP, faz sentido ter a máxima quantidade de threads
simultâneos, uma vez que a interação com o host monitorado demora bem
mais que uma interação com ping (por exemplo). Como vc usa o valor
default, então não há limitações... mas vale a pena checar. Tem q ser
zero. ;)

sd,
Edgar

Em 5 de maio de 2010 12:19, Marcel  escreveu:
> Só alterar a conf do snmpd para escutar tanto udp quanto tcp, que é mais
> caro mas não há perda de pacotes!
>
> 2010/5/5 
>
>> Alexandre,
>>
>> Grato pela resposta.
>> Ocorre que, pela política imposta pela área de segurança da empresa, não é
>> permitido instalação de qualquer arquivo no cliente monitorado.
>> Ao que me parece, para que o NRPE funcione, tem que instalar e configurar o
>> cliente, certo?
>> Ou estou errado?
>>
>> Diramos
>>
>> -Mensagem original-
>> De: Alexandre Gorges [mailto:algor...@gmail.com]
>> Enviada em: quarta-feira, 5 de maio de 2010 09:53
>> Para: Unofficial Brazilian (Portuguese) Nagios Users List
>> Assunto: Re: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE.
>>
>> Benedito.
>>
>> Eu tinha esses problemas de timeout com snmp também. O snmp, por usar udp,
>> é
>> muito sensível a pequenas oscilações na rede.
>>
>> Passei a usar NRPE no lugar do snmp. Os problemas foram totalmente
>> resolvidos e permitiu outros tipos de verificações nos sistemas e o uso do
>> eventhandler para reiniciar processos.
>>
>>
>> []'s
>> Alexandre Gorges
>> http://www.google.com.br/profiles/algorges
>> MSN/Gtalk/iCHAT/Skype/Buzz: algor...@gmail.com
>> ICQ: 2031408
>>
>>
>>
>>
>> > From: 
>> > Reply-To: "Unofficial Brazilian (Portugues