Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-07 Thread bradyMk
好的,我研究一下,谢谢指导~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-07 Thread Yun Tang
因为numRestarts 是一个累计值,所以你得区分当前值和之前的数值是否发生了增加,来区分是否发生了failover。

另外,不建议使用YARN的application状态来判断Flink作业状态,因为如果Flink作业配置了重试策略,即使作业不断进行failover,整个YARN的application状态仍然是RUNNING,并不能发现问题。

祝好
唐云

From: bradyMk 
Sent: Thursday, January 7, 2021 16:38
To: user-zh@flink.apache.org 
Subject: Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题

好的,我研究一下,谢谢指导~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-08 Thread 赵一旦
使用Flink的rest
api不可以嘛。我是standalone集群,写个python脚本,写了个list为expected_jobs,如果发现集群没这个job就报警。

Yun Tang  于2021年1月8日周五 上午10:53写道:

> 因为numRestarts 是一个累计值,所以你得区分当前值和之前的数值是否发生了增加,来区分是否发生了failover。
>
>
> 另外,不建议使用YARN的application状态来判断Flink作业状态,因为如果Flink作业配置了重试策略,即使作业不断进行failover,整个YARN的application状态仍然是RUNNING,并不能发现问题。
>
> 祝好
> 唐云
> 
> From: bradyMk 
> Sent: Thursday, January 7, 2021 16:38
> To: user-zh@flink.apache.org 
> Subject: Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题
>
> 好的,我研究一下,谢谢指导~
>
>
>
> -
> Best Wishes
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
>