Re: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE.

2010-08-26 Por tôpico Leonardo Carneiro
nagios-us...@lists.sourceforge.net

https://lists.sourceforge.net/lists/listinfo/nagios-users

Até mais =)

2010/8/24 Everton Pestana :
> Marcel,
>
> nagios-plugins-1.4.13-1
> nagios-nsca-2.7.2-2
> nagios-devel-3.0.6-1
> nagios-plugins-nrpe-2.12-1
> nagios-nsca-client-2.7.2-2
> nagios-3.0.6-1
>
> OS Centos 5.2
>
> Alem dos plugins do nagios, utilizo outros plugins para verificação de
> hardware, banco de dados, processos.
>
> Os hosts são checados a cada 5m, links a cada 1 minuto, serviços a cada 5m,
> o ambiente é crítico não posso ter checagens de 10m.
> Já havia feito alguns tunnings de acordo com essa doc do nagios, e a
> performance das checagens praticamente dobrou. So estou tendo problemas
> mesmo com o processo do nagios. So tem um processo PAI rodando e tem hora
> que ele nao forca mais nenhum filho.
>
> Tenho alguns plugins feitos em perl que usam modulos cpan ( tem dependencias
> desses modulos) quando tentei ativar o Embedded Perl tive erros nesses
> pluguins.
>
>  Embedded Perl ran /usr/lib64/nagios/plugins/check_hpasm: return code=3,
> plugin output=**ePN /usr/lib64/nagios/plugins/check_hpasm: "Use of
> uninitialized value in string eq at /usr/lib/perl5/5.8.8/Getopt/Long.pm line
> 487,".\n
>
> O que pode ser isso?
>
> Desde já obrigado.
>
> Everton
>
> Em 23 de agosto de 2010 14:14, Marcel  escreveu:
>
>> Com 2 serviços por host vc só deve pingar sua rede para determinar
>> alcançabilidade, certo?
>>
>> Qual plugin vc usa? qual versão dos plugins? qual versão do nagios? Qual
>> distro?
>>
>> Existem recomendações para melhorar o nível da investigação, mas algumas
>> questões podem ser atacadas sem qualquer informação adicional.
>>
>> 1) Vc está com uma média de tempo de execução das checagens um tanto quanto
>> alta: 402.97 segundos, qual é a frequência que está checando seus hosts?
>> tente aumentar a frequência para um tempo um pouco maior, para todas as
>> checagens (de 5 para 10 minutos), e analise o comportamento.
>> 2) Verifique por mais de um processo pai (PPID=1), se houver mais de um
>> processo pai, pode causar interferência ao nagios, já que eles irão
>> compartilhar o objects.cache, retention.dat, status.dat e isso sempre é
>> motivo de problemas.
>> 3) Se minha asserção sobre 2 serviços por hosts serem pings, tente trocar o
>> plugin check_ping pelo check_icmp.
>> 4) Caso nenhuma das alternativas acima indique causa raiz, atualize o
>> nagios e implemente as recomendações de tuning:
>> http://nagios.sourceforge.net/docs/3_0/tuning.html
>>
>> Espero ter ajudado,
>>
>>
>> 2010/8/21 Everton Pestana 
>>
>>> Prezadas e prezados,
>>>
>>> Trabalho numa empresa grande, e tenho um grande parque de servidores e
>>> serviços a serem monitorados.
>>>
>>> Preciso de de uma ajuda pois o nagios esta tendo um comportamento
>>> muito estranho.
>>>
>>>
>>> Hoje estou rodando o nagios  com um único no de processamento com 2GB de
>>> Ram.
>>>
>>> Com aproximadamente 3000 hosts e 6000 serviços.
>>>
>>> Estatisticas:
>>>
>>>
>>>  Services Actively Checked:
>>>  Time FrameServices Checked <= 1 minute:147 (2.6%)<= 5 minutes:5574
>>> (99.5%) <=
>>>
>>> 15 minutes:5574 (99.5%)<= 1 hour: 5574 (99.5%)Since program start:  5574
>>> (99.5%)    MetricMin.Max.Average Check Execution Time:  0.00 sec23.26
>>> sec0.402
>>> sec Check Latency:0.00 sec402.97 sec0.872 sec Percent State Change:0.00%
>>>
>>> 6.12%0.01%
>>>
>>>
>>>
>>>
>>> Check Statistics:
>>>  TypeLast 1 MinLast 5 MinLast 15 Min Active Scheduled Service
>>> Checks22526008
>>>
>>> 18041
>>>
>>>
>>> O que tem acontecido com o nagios, em determinados momento parece que
>>> a maquina fica totalmente inativa, caem absurdamente os trafegos das
>>> interfaces (quase zerando) e o load consequentemente cai tb.
>>>
>>>
>>> Nesse momento observei que o nagios continua rodando, mas nenhum
>>> processo filho é executado mais, a maquina parece morta.
>>> Se eu der um reload no nagios tudo volta ao normal, mas depois de
>>> algumas horas depois acontece novamente o mesmo problema.Normalmente
>>> aconteceu as vezes que percebi as 4h da manha.
>>>
>>>
>>> Olhei todos os logs do nagios e de sistema possíveis e imaginaveis, e
>>> não ache nenhum erro nada que pudesse apontar tal comportamento.
>>>
>>> Desde já muito obrigado pela ajuda.
>>>
>>> Abs.
>>>
>>> Everton Pestana
>>>
>>> --
>>> This SF.net email is sponsored by
>>>
>>> Make an app they can't live without
>>> Enter the BlackBerry Developer Challenge
>>> http://p.sf.net/sfu/RIM-dev2dev
>>> --
>>> Nagios-users-br@lists.sourceforge.net mailing list
>>> https://lists.sourceforge.net/lists/listinfo/nagios-users-br
>>> Wiki: http://nagios-br.sf.net/wiki
>>>
>>
>>
> --
> Sell apps to millions through the Intel(R) Atom(Tm) Developer Program
> Be part of this innovative community and reach millions of netbook users
> worldwide. Take advantage of special opportunities to i

Re: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE.

2010-08-26 Por tôpico Marcel
nagios-us...@sourceforge.net

Programe um /etc/init.d/nagios reload todo dia de madrugada e nunca mais
tenha problemas!

Daí se tiver problemas, ATUALIZE A VERSÃO para a 3.2

[]s

2010/8/24 Everton Pestana 

> Leonardo,
>
> Você podeia me informar o endereço da lista internacional do nagios?
>
> Obrigado.
>
> Everton
>
> Em 23 de agosto de 2010 15:05, Leonardo Carneiro
> escreveu:
>
> > 2010/8/21 Everton Pestana :
> > > Prezados,
> > >
> > >
> > > Trabalho numa empresa grande, e tenho um grande parque de servidores e
> > > serviços a serem monitorados.
> > >
> > > Preciso de de uma ajuda pois o nagios esta tendo um comportamento
> > > muito estranho.
> > >
> > >
> > > Hoje estou rodando o nagios  com um único no de processamento com 2GB
> de
> > Ram.
> > >
> > > Com aproximadamente 3000 hosts e 6000 serviços.
> > >
> > > Estatisticas:
> > >
> > >
> > > Services Actively Checked:
> > >  Time FrameServices Checked <= 1 minute:147 (2.6%)<= 5 minutes:5574
> > (99.5%) <=
> > > 15 minutes:5574 (99.5%)<= 1 hour: 5574 (99.5%)Since program start:
>  5574
> > > (99.5%)MetricMin.Max.Average Check Execution Time:  0.00 sec23.26
> > sec0.402
> > > sec Check Latency:0.00 sec402.97 sec0.872 sec Percent State
> Change:0.00%
> > > 6.12%0.01%
> > >
> > >
> > >
> > >
> > > Check Statistics:
> > > TypeLast 1 MinLast 5 MinLast 15 Min Active Scheduled Service
> > Checks22526008
> > > 18041
> > >
> > >
> > > O que tem acontecido com o nagios, em determinados momento parece que
> > > a maquina fica totalmente inativa, caem absurdamente os trafegos das
> > > interfaces (quase zerando) e o load consequentemente cai tb.
> > >
> > >
> > > Nesse momento observei que o nagios continua rodando, mas nenhum
> > > processo filho é executado mais, a maquina parece morta.
> > > Se eu der um reload no nagios tudo volta ao normal, mas depois de
> > > algumas horas depois acontece novamente o mesmo problema.Normalmente
> > > aconteceu as vezes que percebi as 4h da manha.
> > >
> > >
> > > Olhei todos os logs do nagios e de sistema possíveis e imaginaveis, e
> > > não ache nenhum erro nada que pudesse apontar tal comportamento.
> > >
> > > Desde já muito obrigado pela ajuda.
> > >
> > > Abs.
> > >
> > > Everton Pestana
> > >
> >
> --
> > > Sell apps to millions through the Intel(R) Atom(Tm) Developer Program
> > > Be part of this innovative community and reach millions of netbook
> users
> > > worldwide. Take advantage of special opportunities to increase revenue
> > and
> > > speed time-to-market. Join now, and jumpstart your future.
> > > http://p.sf.net/sfu/intel-atom-d2d
> > > --
> > > Nagios-users-br@lists.sourceforge.net mailing list
> > > https://lists.sourceforge.net/lists/listinfo/nagios-users-br
> > > Wiki: http://nagios-br.sf.net/wiki
> > >
> >
> > Olá Everton, na lista internacional do Nagios existe uma discussão
> > exatamente sobre um problema semelhante ao seu: problemas de
> > estabilidade e escalabilidade em instâncias muito grandes do Nagios.
> >
> > Sugiro que vc dê uma olhada no histórico, pois o pessoal fez uma
> > discussão bem longa com vááárias dicas de como resolver o problema.
> >
> > Pelo que eu lembro, não foi nenhuma ação isolada que corrigiu esse
> > tipo de problema, mas várias ações que aumentaram a eficiencia do
> > Nagios em processar os serviços e hosts.
> >
> >
> >
> --
> > Sell apps to millions through the Intel(R) Atom(Tm) Developer Program
> > Be part of this innovative community and reach millions of netbook users
> > worldwide. Take advantage of special opportunities to increase revenue
> and
> > speed time-to-market. Join now, and jumpstart your future.
> > http://p.sf.net/sfu/intel-atom-d2d
> > --
> > Nagios-users-br@lists.sourceforge.net mailing list
> > https://lists.sourceforge.net/lists/listinfo/nagios-users-br
> > Wiki: http://nagios-br.sf.net/wiki
> >
>
> --
> Sell apps to millions through the Intel(R) Atom(Tm) Developer Program
> Be part of this innovative community and reach millions of netbook users
> worldwide. Take advantage of special opportunities to increase revenue and
> speed time-to-market. Join now, and jumpstart your future.
> http://p.sf.net/sfu/intel-atom-d2d
> --
> Nagios-users-br@lists.sourceforge.net mailing list
> https://lists.sourceforge.net/lists/listinfo/nagios-users-br
> Wiki: http://nagios-br.sf.net/wiki
>
--
Sell apps to millions through the Intel(R) Atom(Tm) Developer Program
Be part of this innovative community and reach millions of netbook users 
worldwide. Take advantage of special opportunities to increase revenue and 
speed time-to-market. Join now, and jumpstart your future.
http://p.sf.net/sfu/intel-atom-d2d
-- 
Nagios-users-br@lists.sourceforge.net mailing list