Re: [Nagios-users-br] RES: RES: Nagios em rede GRANDE, BEM GRANDE.
Duas threads sobre o mesmo assunto na lista oficial http://thread.gmane.org/gmane.network.nagios.user/67574 http://thread.gmane.org/gmane.network.nagios.user/67561 2010/5/19 benedito.ra...@caixa.gov.br Marcel, Show de bola. Ajudou bastante. Vou analisar cada item e verificar como aplicar no Nagios aqui. A você e a todos que tem me respondido (Jotagera, Shine e todos os outros), MUITO OBRIGADO. Diramos -Mensagem original- De: Marcel [mailto:mits...@gmail.com] Enviada em: terça-feira, 18 de maio de 2010 15:18 Para: Unofficial Brazilian (Portuguese) Nagios Users List Assunto: Re: [Nagios-users-br] RES: Nagios em rede GRANDE, BEM GRANDE. É configuração distribuída? Quando trabalhei em um grande provedor, tínhamos 20k serviços em ~3k servidores. A partir de 5k serviços o nagios já começava a apresentar latencia de checagem. Partimos pra solução distribuída, primeiro no padrão nagios, mantendo 7 servidores slaves e 2 masters replicados. Assim vc distribui a carga do Nagios. Quando estávamos chegando perto de 15k serviços, tivemos mais problemas de performance, principalmente no broker_module ndo2db, que não escalava os updates para o banco. Daí mudamos várias partes da solução, tiramos o módulo NEB padrão, construímos um assíncrono para updates no banco apenas se os status updates estivessem diferentes, ou seja, nas mudanças de estado. Assim conseguimos utilizar normalmente o banco ndo, enquanto que o consumo de banda de rede foi otimizado. Depois de alguns meses, chegando perto de 20k serviços, tivemos que partir para utilização do DNX. Aí foi mais complicado acertar, com o crescimento do número de slaves para 10, manter as configurações dos slaves se tornou uma tarefa complicada, que tomava muito tempo e era muito sujeito a erros manuais. Construímos um sistema para plugar em nosso banco CMDB para extrair as informações dos ativos e transformar em configurações nagios, com automação de vários processos. Aí a coisa ficou tão boa que o trabalho ficou sem graça e eu saí de lá para outras oportunidades! rs A escalabilidade do nagios é um tanto complicado de se alcançar, mesmo o nagios sendo bastante flexível, o aumento do número de ativos monitorados implica em um crescimento exponencial na manutenção do parque de monitoramento. Ando avaliando o shinken, que é uma re-implementação do nagios em python, com as melhores práticas para atingir escalabilidade e estabilidade e facilidade na manutenção do parque. Está bastante cru ainda mas possui um potencial bem interessante para grande escala de monitoramento. Para tentar resolver o seu problema de latẽncia, dê uma lida nas dicas de grandes instalações na documentação, o nagios.cmd vira um gargalo a partir de um determinado ponto, então uma tentativa é aumentar o check_period, digamos de 5 para 10 minutos, e ver se resolve. Alguns serviços não precisam ser monitorados de 5 em 5 minutos. Tente criar hierarquias de serviços a serem monitorados, os críticos recebem mais atenção e têm um período menor de checagem, enquanto que outros serviços podem ter uma frequência baixa de checagem, digamos, a cada meia hora. É uma tarefa hercúlea se não utiliza massivamente templates, hostgroups e servicegroups, mas ataca o seu problema de latência se conseguir diminuir o número de checagens simultâneas, criando uma árvore hierárquica de prioridade e urgência/necessidade da informação mais up-to-date. Espero ter jogado alguma luz para resolução deste problema. []s 2010/5/17 benedito.ra...@caixa.gov.br Grande Jotagera, Não uso o ndobd. Apenas o NagiosQL prá administração do Nagios. Meu parâmetro max_concurrent_checks=0 Pauleira. 6000 serviços. Tô achando que o Nagios arriou. Diramos -Mensagem original- De: Jose Oliveira [mailto:jotag...@gmail.com] Enviada em: segunda-feira, 17 de maio de 2010 21:31 Para: Unofficial Brazilian (Portuguese) Nagios Users List Assunto: Re: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE. Olá amigo Tem um parametro no qual voce especifica quantas checagens o Nagios deve disparar em paralelo. Assim, esta quantidade limita a capacidade do Nagios e ele enfileira as checages. Eu, que tenho somente 1000 serviços, deixo este careta com zero ou seja, sem limite de paralelismo... Deve ser este seu problema... Voce está salvando dados no Mysql com ndodb ou não? Em 17 de maio de 2010 18:09, benedito.ra...@caixa.gov.br escreveu: Bem, pessoal. Seguindo as diversas dicas do pessoal daqui, tenho obtido avanços significativos na empreita de instalar o Nagios em larga escala. Mudei diversos parâmetros dos arquivos de configuração, inclusive de compilação. Passei a usar Perl embdded, etc. Estou só terminando os ajustes finos, prá depois fazer um resumo e postar aqui, para uso de outros futuros sortudos que enfrentem o mesmo problema que eu. Por ora, é o seguinte:
[Nagios-users-br] RES: RES: Nagios em rede GRANDE, BEM GRANDE.
Marcel, Show de bola. Ajudou bastante. Vou analisar cada item e verificar como aplicar no Nagios aqui. A você e a todos que tem me respondido (Jotagera, Shine e todos os outros), MUITO OBRIGADO. Diramos -Mensagem original- De: Marcel [mailto:mits...@gmail.com] Enviada em: terça-feira, 18 de maio de 2010 15:18 Para: Unofficial Brazilian (Portuguese) Nagios Users List Assunto: Re: [Nagios-users-br] RES: Nagios em rede GRANDE, BEM GRANDE. É configuração distribuída? Quando trabalhei em um grande provedor, tínhamos 20k serviços em ~3k servidores. A partir de 5k serviços o nagios já começava a apresentar latencia de checagem. Partimos pra solução distribuída, primeiro no padrão nagios, mantendo 7 servidores slaves e 2 masters replicados. Assim vc distribui a carga do Nagios. Quando estávamos chegando perto de 15k serviços, tivemos mais problemas de performance, principalmente no broker_module ndo2db, que não escalava os updates para o banco. Daí mudamos várias partes da solução, tiramos o módulo NEB padrão, construímos um assíncrono para updates no banco apenas se os status updates estivessem diferentes, ou seja, nas mudanças de estado. Assim conseguimos utilizar normalmente o banco ndo, enquanto que o consumo de banda de rede foi otimizado. Depois de alguns meses, chegando perto de 20k serviços, tivemos que partir para utilização do DNX. Aí foi mais complicado acertar, com o crescimento do número de slaves para 10, manter as configurações dos slaves se tornou uma tarefa complicada, que tomava muito tempo e era muito sujeito a erros manuais. Construímos um sistema para plugar em nosso banco CMDB para extrair as informações dos ativos e transformar em configurações nagios, com automação de vários processos. Aí a coisa ficou tão boa que o trabalho ficou sem graça e eu saí de lá para outras oportunidades! rs A escalabilidade do nagios é um tanto complicado de se alcançar, mesmo o nagios sendo bastante flexível, o aumento do número de ativos monitorados implica em um crescimento exponencial na manutenção do parque de monitoramento. Ando avaliando o shinken, que é uma re-implementação do nagios em python, com as melhores práticas para atingir escalabilidade e estabilidade e facilidade na manutenção do parque. Está bastante cru ainda mas possui um potencial bem interessante para grande escala de monitoramento. Para tentar resolver o seu problema de latẽncia, dê uma lida nas dicas de grandes instalações na documentação, o nagios.cmd vira um gargalo a partir de um determinado ponto, então uma tentativa é aumentar o check_period, digamos de 5 para 10 minutos, e ver se resolve. Alguns serviços não precisam ser monitorados de 5 em 5 minutos. Tente criar hierarquias de serviços a serem monitorados, os críticos recebem mais atenção e têm um período menor de checagem, enquanto que outros serviços podem ter uma frequência baixa de checagem, digamos, a cada meia hora. É uma tarefa hercúlea se não utiliza massivamente templates, hostgroups e servicegroups, mas ataca o seu problema de latência se conseguir diminuir o número de checagens simultâneas, criando uma árvore hierárquica de prioridade e urgência/necessidade da informação mais up-to-date. Espero ter jogado alguma luz para resolução deste problema. []s 2010/5/17 benedito.ra...@caixa.gov.br Grande Jotagera, Não uso o ndobd. Apenas o NagiosQL prá administração do Nagios. Meu parâmetro max_concurrent_checks=0 Pauleira. 6000 serviços. Tô achando que o Nagios arriou. Diramos -Mensagem original- De: Jose Oliveira [mailto:jotag...@gmail.com] Enviada em: segunda-feira, 17 de maio de 2010 21:31 Para: Unofficial Brazilian (Portuguese) Nagios Users List Assunto: Re: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE. Olá amigo Tem um parametro no qual voce especifica quantas checagens o Nagios deve disparar em paralelo. Assim, esta quantidade limita a capacidade do Nagios e ele enfileira as checages. Eu, que tenho somente 1000 serviços, deixo este careta com zero ou seja, sem limite de paralelismo... Deve ser este seu problema... Voce está salvando dados no Mysql com ndodb ou não? Em 17 de maio de 2010 18:09, benedito.ra...@caixa.gov.br escreveu: Bem, pessoal. Seguindo as diversas dicas do pessoal daqui, tenho obtido avanços significativos na empreita de instalar o Nagios em larga escala. Mudei diversos parâmetros dos arquivos de configuração, inclusive de compilação. Passei a usar Perl embdded, etc. Estou só terminando os ajustes finos, prá depois fazer um resumo e postar aqui, para uso de outros futuros sortudos que enfrentem o mesmo problema que eu. Por ora, é o seguinte: Estou com problema de atraso nas checagens de serviços. Configurei o service template para fazer a checagem de 5 em 5 minutos. Mas, na prática, quando eu listo os serviços na página do Nagios, e mando ordenar por ordem de last time check, tem serviço cuja última checagem foi de 1 hora atrás (coluna Last
[Nagios-users-br] RES: RES: Nagios em rede GRANDE, BEM GRANDE.
Marcel, Grato. Vasculhei meu snmpd.conf e não encontrei nada referente udp e tcp. Poderia me orientar sobre como fazer o que você indicou? Que linha(s) incluir/alterar no conf? Diramos -Mensagem original- De: Marcel [mailto:mits...@gmail.com] Enviada em: quarta-feira, 5 de maio de 2010 12:19 Para: Unofficial Brazilian (Portuguese) Nagios Users List Assunto: Re: [Nagios-users-br] RES: Nagios em rede GRANDE, BEM GRANDE. Só alterar a conf do snmpd para escutar tanto udp quanto tcp, que é mais caro mas não há perda de pacotes! 2010/5/5 benedito.ra...@caixa.gov.br Alexandre, Grato pela resposta. Ocorre que, pela política imposta pela área de segurança da empresa, não é permitido instalação de qualquer arquivo no cliente monitorado. Ao que me parece, para que o NRPE funcione, tem que instalar e configurar o cliente, certo? Ou estou errado? Diramos -Mensagem original- De: Alexandre Gorges [mailto:algor...@gmail.com] Enviada em: quarta-feira, 5 de maio de 2010 09:53 Para: Unofficial Brazilian (Portuguese) Nagios Users List Assunto: Re: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE. Benedito. Eu tinha esses problemas de timeout com snmp também. O snmp, por usar udp, é muito sensível a pequenas oscilações na rede. Passei a usar NRPE no lugar do snmp. Os problemas foram totalmente resolvidos e permitiu outros tipos de verificações nos sistemas e o uso do eventhandler para reiniciar processos. []'s Alexandre Gorges http://www.google.com.br/profiles/algorges MSN/Gtalk/iCHAT/Skype/Buzz: algor...@gmail.com ICQ: 2031408 From: benedito.ra...@caixa.gov.br Reply-To: Unofficial Brazilian (Portuguese) Nagios Users List nagios-users-br@lists.sourceforge.net Date: Tue, 4 May 2010 18:23:13 -0300 To: nagios-users-br@lists.sourceforge.net Subject: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE. Prezadas e prezados, Trabalho numa empresa estatal BEM GRANDE, em se tratando de quantidade de servidores e ativos de rede. Preciso de dicas para ajustar os parâmetros do Nagios para monitorar hosts e serviços em larga escala. Até hoje, usei o Nagios para monitorar 700 servidores e 2000 serviços na filial em que trabalho. Uso o Nagios Core 3.20, que tem funcionado legal para estes quantitativos. Máquina com 4 processadores e 4 Gb de memória. Todas as checagens são feitas via SNMP, através dos plugins do site manubulom, do nagiosexchange. Ocorre que surgiu a demanda para implementar o Nagios nas demais filiais, sendo que algumas têm muito mais hosts e serviços que a minha. A maior, tem 2000 hosts e 6000 serviços. Notem que será um servidor Nagios por filial. Na maior das filiais, incluí todos os 2000 hosts e 6000 serviços. A checagem de hosts está funcionando OK. Mas as de serviços, apresentam a mensagem Nagios check time-out em muitos casos. A máquina está com 16 processadores e 16 Gb de memória. Portanto, não acredito ser problema de insuficiência de hardware. Deixei os parâmetros default do nagios.cfg. Resumindo: - Preciso de dicas de como melhorar a performance do Nagios. - Existem parâmetros específicos no nagios.cfg, a serem alterados, para melhorar a performance em redes grandes como a minha? Tenho lido sobre hosts scalations e service scalations, mas não entendi muito. Será que resolveria meu problema? Grato, desde já, por qualquer ajuda. Diramos -- -- Nagios-users-br@lists.sourceforge.net mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki -- -- Nagios-users-br@lists.sourceforge.net mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki -- -- Nagios-users-br@lists.sourceforge.net mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki -- -- Nagios-users-br@lists.sourceforge.net mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki -- -- Nagios-users-br@lists.sourceforge.net mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki
Re: [Nagios-users-br] RES: RES: Nagios em rede GRANDE, BEM GRANDE.
man snmpd 2010/5/5 benedito.ra...@caixa.gov.br Marcel, Grato. Vasculhei meu snmpd.conf e não encontrei nada referente udp e tcp. Poderia me orientar sobre como fazer o que você indicou? Que linha(s) incluir/alterar no conf? Diramos -Mensagem original- De: Marcel [mailto:mits...@gmail.com] Enviada em: quarta-feira, 5 de maio de 2010 12:19 Para: Unofficial Brazilian (Portuguese) Nagios Users List Assunto: Re: [Nagios-users-br] RES: Nagios em rede GRANDE, BEM GRANDE. Só alterar a conf do snmpd para escutar tanto udp quanto tcp, que é mais caro mas não há perda de pacotes! 2010/5/5 benedito.ra...@caixa.gov.br Alexandre, Grato pela resposta. Ocorre que, pela política imposta pela área de segurança da empresa, não é permitido instalação de qualquer arquivo no cliente monitorado. Ao que me parece, para que o NRPE funcione, tem que instalar e configurar o cliente, certo? Ou estou errado? Diramos -Mensagem original- De: Alexandre Gorges [mailto:algor...@gmail.com] Enviada em: quarta-feira, 5 de maio de 2010 09:53 Para: Unofficial Brazilian (Portuguese) Nagios Users List Assunto: Re: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE. Benedito. Eu tinha esses problemas de timeout com snmp também. O snmp, por usar udp, é muito sensível a pequenas oscilações na rede. Passei a usar NRPE no lugar do snmp. Os problemas foram totalmente resolvidos e permitiu outros tipos de verificações nos sistemas e o uso do eventhandler para reiniciar processos. []'s Alexandre Gorges http://www.google.com.br/profiles/algorges MSN/Gtalk/iCHAT/Skype/Buzz: algor...@gmail.com ICQ: 2031408 From: benedito.ra...@caixa.gov.br Reply-To: Unofficial Brazilian (Portuguese) Nagios Users List nagios-users-br@lists.sourceforge.net Date: Tue, 4 May 2010 18:23:13 -0300 To: nagios-users-br@lists.sourceforge.net Subject: [Nagios-users-br] Nagios em rede GRANDE, BEM GRANDE. Prezadas e prezados, Trabalho numa empresa estatal BEM GRANDE, em se tratando de quantidade de servidores e ativos de rede. Preciso de dicas para ajustar os parâmetros do Nagios para monitorar hosts e serviços em larga escala. Até hoje, usei o Nagios para monitorar 700 servidores e 2000 serviços na filial em que trabalho. Uso o Nagios Core 3.20, que tem funcionado legal para estes quantitativos. Máquina com 4 processadores e 4 Gb de memória. Todas as checagens são feitas via SNMP, através dos plugins do site manubulom, do nagiosexchange. Ocorre que surgiu a demanda para implementar o Nagios nas demais filiais, sendo que algumas têm muito mais hosts e serviços que a minha. A maior, tem 2000 hosts e 6000 serviços. Notem que será um servidor Nagios por filial. Na maior das filiais, incluí todos os 2000 hosts e 6000 serviços. A checagem de hosts está funcionando OK. Mas as de serviços, apresentam a mensagem Nagios check time-out em muitos casos. A máquina está com 16 processadores e 16 Gb de memória. Portanto, não acredito ser problema de insuficiência de hardware. Deixei os parâmetros default do nagios.cfg. Resumindo: - Preciso de dicas de como melhorar a performance do Nagios. - Existem parâmetros específicos no nagios.cfg, a serem alterados, para melhorar a performance em redes grandes como a minha? Tenho lido sobre hosts scalations e service scalations, mas não entendi muito. Será que resolveria meu problema? Grato, desde já, por qualquer ajuda. Diramos -- -- Nagios-users-br@lists.sourceforge.net mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki -- -- Nagios-users-br@lists.sourceforge.net mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki -- -- Nagios-users-br@lists.sourceforge.net mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki -- -- Nagios-users-br@lists.sourceforge.net mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki -- -- Nagios-users-br@lists.sourceforge.net mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki -- -- Nagios-users-br@lists.sourceforge.net mailing list