Existem possibilidades... pode ser um problema da performance dos plugins, como pode ser algum gargalo de comunicação, por exemplo a sua placa de rede não performa na capacidade total da rede. Tente levantar quanto de recurso vc usa no total, por exemplo: tráfego de rede, fork de processos... Experimente separar uma parte das checagens em outra máquina (mesmo que seja na mesma rede) e use passive mode para ver se há melhora. Tenha certeza que os hosts não estão caindo. Se o host não aparece OK, obviamente serviços não serão checados.
sd, Shine Em 17 de maio de 2010 18:09, <benedito.ra...@caixa.gov.br> escreveu: > Bem, pessoal. > > Seguindo as diversas dicas do pessoal daqui, tenho obtido avanços > significativos na empreita de instalar o Nagios em larga escala. > Mudei diversos parâmetros dos arquivos de configuração, inclusive de > compilação. Passei a usar Perl embdded, etc. > Estou só terminando os ajustes finos, prá depois fazer um resumo e postar > aqui, para uso de outros futuros "sortudos" que enfrentem o mesmo problema > que eu. > Por ora, é o seguinte: > > Estou com problema de atraso nas checagens de serviços. > Configurei o service template para fazer a checagem de 5 em 5 minutos. > Mas, na prática, quando eu listo os serviços na página do Nagios, e mando > ordenar por ordem de last time check, tem serviço cuja última checagem foi de > 1 hora atrás (coluna Last check). > Por outro lado, em Performance Info, obtenho o seguinte quadro sobre services: > > Time Frame Services Checked > <= 1 minute: 27 (0.4%) > <= 5 minutes: 1598 (25.3%) > <= 15 minutes: 5169 (81.7%) > <= 1 hour: 6296 (99.5%) > Since program start: 6296 (99.5% > > A meu ver, o quadro acima indica que todos os serviços foram checados em > aproximadamente 20 minutos. > > Então eu questiono: > > 1 - Porque essa demora de 1 hora entre uma checagem e outra de serviço? > Aqueles horários que aparecem na coluna "Last check" realmente indicam o > horário da última checagem? > 2 - Existe algum parâmetro a ser configurado no Nagios.cfg que melhore essa > performance, diminuindo o tempo entre checagens? > 3 - Porque a checagem não é feita a cada 5 minutos, como configurado no > template de serviço? > 4 - Li algo sobre paralelização de checagem de serviço. Seria o caso? Como > usar isso? > > Lembro, mais uma vez, que o quesito hardware está tranqüilo, com picos de > utilização de CPU e memória de no máximo 25%. > > Aguardo, > > Grato desde já. > > Diramos > > > -----Mensagem original----- > De: Shine [mailto:esh...@gmail.com] > Enviada em: quarta-feira, 5 de maio de 2010 20:56 > Para: Unofficial Brazilian (Portuguese) Nagios Users List > Assunto: Re: [Nagios-users-br] RES: Nagios em rede GRANDE, BEM GRANDE. > > O uso do protocolo TCP é mais confiável que UDP simplesmente porque o > protocolo é orientado a conexão. Em palavras mais simples, ele faz a > recuperação de pacotes de rede perdido no próprio protocolo, enquanto > que o UDP depende da aplicação conferir e fazer a recuperação da > informação. > Mas as perdas existem tanto com o uso de um ou outro protocolo. E > dependendo da escala de monitoração, usar TCP para contornar uma > deficiência da rede pode trazer outros problemas. > > O SNMP pode oscilar não apenas por causa da rede, mas tbm pode falhar > se o agent estiver com problemas. Existem técnicas adequadas para cada > caso, mas se vc não tem uma conexão confiável por rede remota, melhor > fazer a monitoração por um agent na rede local e fazer o relay dos > resultados. Claro que estamos falando aqui de um evento de monitoração > e não um alarme (notification, trap) no SNMP. > > Então para uma monitoração adequada, precisamos primeiro ver se a > condição que gera os resultados indesejados é a rede e aplicar > correções na rede ou mudar a topologia do agente Nagios para contornar > a situação, por exemplo usando NSCA. Se a situação é mais devido à > demora da aplicação SNMP do host monitorado, ajustar parâmetros de > timeout pode ajudar. > > Um outro ponto a ser considerado é quantos threads podem ser rodados > simultaneamente. Em se usando uma aplicação com uma resposta não muito > imediata como o SNMP, faz sentido ter a máxima quantidade de threads > simultâneos, uma vez que a interação com o host monitorado demora bem > mais que uma interação com ping (por exemplo). Como vc usa o valor > default, então não há limitações... mas vale a pena checar. Tem q ser > zero. ;) > > sd, > Edgar > > Em 5 de maio de 2010 12:19, Marcel <mits...@gmail.com> escreveu: >> Só alterar a conf do snmpd para escutar tanto udp quanto tcp, que é mais >> caro mas não há perda de pacotes! >> >> 2010/5/5 <benedito.ra...@caixa.gov.br> >> >>> Alexandre, >>> >>> Grato pela resposta. >>> Ocorre que, pela política imposta pela área de segurança da empresa, não é >>> permitido instalação de qualquer arquivo no cliente monitorado. >>> Ao que me parece, para que o NRPE funcione, tem que instalar e configurar o >>> cliente, certo? >>> Ou estou errado? >>> >>> Diramos >>> >>> -----Mensagem original----- >>> De: Alexandre Gorges [mailto:algor...@gmail.com] >>> Enviada em: quarta-feira, 5 de maio de 2010 09:53 >>> Para: Unofficial Brazilian (Portuguese) Nagios Users List >>> Assunto: Re: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE. >>> >>> Benedito. >>> >>> Eu tinha esses problemas de timeout com snmp também. O snmp, por usar udp, >>> é >>> muito sensível a pequenas oscilações na rede. >>> >>> Passei a usar NRPE no lugar do snmp. Os problemas foram totalmente >>> resolvidos e permitiu outros tipos de verificações nos sistemas e o uso do >>> eventhandler para reiniciar processos. >>> >>> >>> []'s >>> Alexandre Gorges >>> http://www.google.com.br/profiles/algorges >>> MSN/Gtalk/iCHAT/Skype/Buzz: algor...@gmail.com >>> ICQ: 2031408 >>> >>> >>> >>> >>> > From: <benedito.ra...@caixa.gov.br> >>> > Reply-To: "Unofficial Brazilian (Portuguese) Nagios Users List" >>> > <nagios-users-br@lists.sourceforge.net> >>> > Date: Tue, 4 May 2010 18:23:13 -0300 >>> > To: <nagios-users-br@lists.sourceforge.net> >>> > Subject: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE. >>> > >>> > Prezadas e prezados, >>> > >>> > Trabalho numa empresa estatal BEM GRANDE, em se tratando de quantidade de >>> > servidores e ativos de rede. >>> > Preciso de dicas para ajustar os parâmetros do Nagios para monitorar >>> hosts e >>> > serviços em larga escala. >>> > Até hoje, usei o Nagios para monitorar 700 servidores e 2000 serviços na >>> > filial em que trabalho. >>> > Uso o Nagios Core 3.20, que tem funcionado legal para estes >>> quantitativos. >>> > Máquina com 4 processadores e 4 Gb de memória. >>> > Todas as checagens são feitas via SNMP, através dos plugins do site >>> manubulom, >>> > do nagiosexchange. >>> > >>> > Ocorre que surgiu a demanda para implementar o Nagios nas demais filiais, >>> > sendo que algumas têm muito mais hosts e serviços que a minha. >>> > A maior, tem 2000 hosts e 6000 serviços. >>> > Notem que será um servidor Nagios por filial. >>> > >>> > Na maior das filiais, incluí todos os 2000 hosts e 6000 serviços. >>> > A checagem de hosts está funcionando OK. >>> > Mas as de serviços, apresentam a mensagem "Nagios check time-out" em >>> muitos >>> > casos. >>> > A máquina está com 16 processadores e 16 Gb de memória. >>> > Portanto, não acredito ser problema de insuficiência de hardware. >>> > >>> > Deixei os parâmetros default do nagios.cfg. >>> > >>> > Resumindo: >>> > >>> > - Preciso de dicas de como melhorar a performance do Nagios. >>> > - Existem parâmetros específicos no nagios.cfg, a serem alterados, para >>> > melhorar a performance em redes grandes como a minha? >>> > >>> > Tenho lido sobre "hosts scalations e service scalations", mas não entendi >>> > muito. >>> > Será que resolveria meu problema? >>> > >>> > Grato, desde já, por qualquer ajuda. >>> > >>> > >>> > Diramos >>> > >>> > >>> > >>> > >>> ------------------------------------------------------------------------------ >>> > -- >>> > Nagios-users-br@lists.sourceforge.net mailing list >>> > https://lists.sourceforge.net/lists/listinfo/nagios-users-br >>> > Wiki: http://nagios-br.sf.net/wiki >>> >>> >>> >>> >>> ------------------------------------------------------------------------------ >>> -- >>> Nagios-users-br@lists.sourceforge.net mailing list >>> https://lists.sourceforge.net/lists/listinfo/nagios-users-br >>> Wiki: http://nagios-br.sf.net/wiki >>> >>> >>> ------------------------------------------------------------------------------ >>> -- >>> Nagios-users-br@lists.sourceforge.net mailing list >>> https://lists.sourceforge.net/lists/listinfo/nagios-users-br >>> Wiki: http://nagios-br.sf.net/wiki >>> >> ------------------------------------------------------------------------------ >> -- >> Nagios-users-br@lists.sourceforge.net mailing list >> https://lists.sourceforge.net/lists/listinfo/nagios-users-br >> Wiki: http://nagios-br.sf.net/wiki >> > > ------------------------------------------------------------------------------ > -- > Nagios-users-br@lists.sourceforge.net mailing list > https://lists.sourceforge.net/lists/listinfo/nagios-users-br > Wiki: http://nagios-br.sf.net/wiki > > ------------------------------------------------------------------------------ > > -- > Nagios-users-br@lists.sourceforge.net mailing list > https://lists.sourceforge.net/lists/listinfo/nagios-users-br > Wiki: http://nagios-br.sf.net/wiki > ------------------------------------------------------------------------------ -- Nagios-users-br@lists.sourceforge.net mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki