Re:如何实现flink作业失败实时通知告警?

2022-09-30 文章 RS
Hi, 个人推荐方式二, 1. 部分场景下,有些异常可以自动恢复,任务异常会自动重启,继续运行 2. 告警通知到介入处理,如果是人来介入处理的话,20s通常时间不是问题,到分钟级都可以 3. failure之前调用某个hook去通知相关方,应该是要修改jobmanager的代码,具体就要请教大佬们了。 在 2022-09-30 13:50:56,"casel.chen" 写道: >当flink作业失败时如何第一时间发通知告警到相关方?现有方式 >方式一:flink作业本身提供的rest

如何实现flink作业失败实时通知告警?

2022-09-29 文章 casel.chen
当flink作业失败时如何第一时间发通知告警到相关方?现有方式 方式一:flink作业本身提供的rest api需要client不断去请求,不是实时不说还浪费资源,而且受网络抖动影响有时候还会超时获取不到,但不代表作业有问题。 方式二:通过作业暴露指标给promemtheus,因为prometheus是周期性(10s~20s) 来pull指标的,所以也达不到实时性要求。 flink作业能否在failure之前调用某个hook去通知相关方呢?如果要自己改的话,是要动哪个类呢?谢谢!