使用Flink的rest
api不可以嘛。我是standalone集群,写个python脚本,写了个list为expected_jobs,如果发现集群没这个job就报警。

Yun Tang <myas...@live.com> 于2021年1月8日周五 上午10:53写道:

> 因为numRestarts 是一个累计值,所以你得区分当前值和之前的数值是否发生了增加,来区分是否发生了failover。
>
>
> 另外,不建议使用YARN的application状态来判断Flink作业状态,因为如果Flink作业配置了重试策略,即使作业不断进行failover,整个YARN的application状态仍然是RUNNING,并不能发现问题。
>
> 祝好
> 唐云
> ________________________________
> From: bradyMk <zhbm...@126.com>
> Sent: Thursday, January 7, 2021 16:38
> To: user-zh@flink.apache.org <user-zh@flink.apache.org>
> Subject: Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题
>
> 好的,我研究一下,谢谢指导~
>
>
>
> -----
> Best Wishes
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
>

回复