Ola Jose Oliveira, Pois é.. Eu também estou trabalhando com os mesmos valores que você e veja o que diz o meu Performance_Info:
Check Execution Time: < 1 sec 9 sec 0.469 sec Check Latency:1111 sec 1629 sec 1389.919 sec Percent State Change: 0.00% 0.00 %0.00% Active Checks: <= 1 minute: 0 (0.0%) <= 5 minutes: 57 (8.8%) <= 15 minutes: 231 (35.5%) <= 1 hour: 595 (91.4%) Since program start: 635 (97.5%) Passive Checks: <= 1 minute: 0 (0.0%) <= 5 minutes: 0 (0.0%) <= 15 minutes: 0 (0.0%) <= 1 hour: 10 (7.1%) Since program start: 14 (9.9%) Percent State Change: 0.00% 0.00% 0.00% Já reavaliei todos as checagens, aumentei o tempo de checagem em alguns processos menos importantes , etc.. Sendo que o intervalo da grande maioria é de 5 minutos (com retry_check_interval=1, e max_check_attempts variando muito dependendo do tipo de serviço) Talvez eu faça o contrario, ou seja, aumente o retry_check_interval e vou redimensionando o max_check_attempts, para ver o que vai dar (mas imagino que no fundo deve dar a mesma coisa) Jose Oliveira escreveu: > Olá Rejaine > > Eu ainda rodo a versão 1.0... > > Eu tive este problema no passado e tentei bastante coisa. O problema, que > deduzimos, é derivado da teoria das filas. Se um processo começa a demorar e > o concurrent_checks está ativado, voce sempre tem uma chance do seu delay > ficar muuuuuuuito grande. > > Eu coloquei o max_concurrent_checks=0. O inter_check_delay_method e o > service_interleave_factor estão = s. > > Monitorei muito a performance da máquina, principalmente na quantidade de > processos em execução. > O nosso servidor nem é muito bom e dá conta direitinho. > > Temos um Pentium III 800 com 512Mb de RAM e discos SCSI de 7.200 RPM. > > Temos 205 hosts, 645 checks ativos e 72 passivos. A maioria dos ativos > possui tempo herdado do template de 120 segundos. > > > > > Em 08/08/07, Rejaine Monteiro <[EMAIL PROTECTED]> escreveu: > >> Ola lista, >> >> De algum tempo para cá, provavelmente devido ao aumento no número de >> hosts e serviços a serem checados, notei que meu Nagios está começando a >> ter problemas de performance. Vários serviços estão ficando na fila >> (scheduling queue) durante muito tempo, ultrapassando o horário previsto >> da próxima checagem. >> >> Li algumas informações sobre "performance tunning" na documentação >> oficial, porém ainda não encontrei valores de configurações que me >> atendam, por isso venho a vocês para quem saber resolver o meu problema. >> >> Estou usando o nagios-1.1 - eu sei, está bem desatualizado... mas vou >> providenciar atualização breve ;o) >> A maquina que roda o nagios fica praticamente exclusiva para esse fim e >> não apresenta problema de sobrecarga de cpu , nem comprometimento de >> performance de disco e afins.. >> >> Seguem algumas informações sobre a performance atual: >> >> Program-Wide Performance Information >> Active Checks: >> >> Time Frame Checks Completed >> <= 1 minute: 12 (1.8%) >> <= 5 minutes: 78 (11.9%) >> <= 15 minutes: 258 (39.2%) >> <= 1 hour: 281 (42.7%) >> Since program start: 281 (42.7%) >> >> Metric Min. Max. Average >> Check Execution Time: < 1 sec 11 sec 0.198 sec >> Check Latency: < 1 sec 616 sec 138.872 sec >> Percent State Change: 0.00% 0.00% 0.00% >> Passive Checks: >> >> Time Frame Checks Completed >> <= 1 minute: 0 (0.0%) >> <= 5 minutes: 0 (0.0%) >> <= 15 minutes: 0 (0.0%) >> <= 1 hour: 0 (0.0%) >> Since program start: 0 (0.0%) >> >> Metric Min. Max. Average >> Percent State Change: 0.00% 0.00% 0.00% >> >> >> O nagios -s /etc/nagios/nagios.cfg me retornou os seguintes valores: >> >> >> SERVICE SCHEDULING INFORMATION >> ------------------------------- >> Total services: 793 >> Total hosts: 68 >> >> Command check interval: -1 sec >> Check reaper interval: 5 sec >> >> Inter-check delay method: SMART >> Average check interval: 715.309 sec >> Inter-check delay: 0.902 sec >> >> Interleave factor method: SMART >> Average services per host: 11.662 >> Service interleave factor: 12 >> >> Initial service check scheduling info: >> -------------------------------------- >> First scheduled check: 1186596717 -> Wed Aug 8 15:11:57 2007 >> Last scheduled check: 1186597441 -> Wed Aug 8 15:24:01 2007 >> >> Rough guidelines for max_concurrent_checks value: >> ------------------------------------------------- >> Absolute minimum value: 6 >> Recommend value: 18 >> >> >> Meu nagios.cfg atualmente tem os seguinte valores (estou enviado somente >> os valores relevantes) : >> >> service_reaper_frequency=5 >> max_concurrent_checks=6 >> command_check_interval=-1 >> >> Ja tentei aumentar o service_reaper_frequency para 10, 15 e 25.. Só >> piorou a situação.. >> Já tentei aumentar o max_concurrent_checks para 18 (como recomendado >> acima), mantendo service_reaper_frequency=5, mas tambem não surtiu >> efeito... >> >> E de resto a maioria das opções é a default .. >> >> Alguma dica?? >> >> ------------------------------------------------------------------------- >> This SF.net email is sponsored by: Splunk Inc. >> Still grepping through log files to find problems? Stop. >> Now Search log events and configuration files using AJAX and a browser. >> Download your FREE copy of Splunk now >> http://get.splunk.com/ >> -- >> [email protected] mailing list >> https://lists.sourceforge.net/lists/listinfo/nagios-users-br >> Wiki: http://nagios-br.sf.net/wiki >> >> > > > > ------------------------------------------------------------------------- This SF.net email is sponsored by: Splunk Inc. Still grepping through log files to find problems? Stop. Now Search log events and configuration files using AJAX and a browser. Download your FREE copy of Splunk now >> http://get.splunk.com/ -- [email protected] mailing list https://lists.sourceforge.net/lists/listinfo/nagios-users-br Wiki: http://nagios-br.sf.net/wiki
