可以参考:https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/datastream/kafka/#monitoring
指标:currentEmitEventTimeLag
条件:kafka record必须有timestamp元数据(数据进入kafka的时间)
| |
谭家良
|
|
tanjl_w...@126.com
|
回复的原邮件
| 发件人 | casel.chen |
| 发送日期 | 2022年7月18日 22:55 |
| 收件人 |
Hi
可以通过监控 numRestarts [1] metrics 发送相关的报警
[1]
https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/ops/metrics/#availability
Best
JasonLee
回复的原邮件
| 发件人 | casel.chen |
| 发送日期 | 2022年07月18日 22:48 |
| 收件人 | user-zh@flink.apache.org |
| 主题 | 如何实现flink作业失败告警功能 |
想实现flink sql作业延迟监控,例如flink
sql作业将kafka数据写入mysql,记kafka记录中的事件时间为T0,发到kafka时间是T1,写入mysql的时间为T2,现要统计如下时间差(延迟)
1. T2 - T1 :flink sql作业延迟
2. T2 - T0 :端到端延迟,包括flink sql作业延迟和数据写入kafka延迟
请问:
1) 要如何暴露这2个时间差作为metrics?
2) 中间算子的处理时长能暴露吗?
想实现flink作业一旦失败就立马告警功能,请问要如何实现?是否有Listener可以进行注册?
hi,all
遇到这种场景,flink on yarn,并行度3000的场景下,作业包含了多个agg操作,作业recover from checkpoint
或者savepoint必现无法恢复的情况,作业反复重启
jm报错org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - RECEIVED S
IGNAL 15: SIGTERM. Shutting down as requested.
请问有什么好的排查思路吗
tks.
----
??:
"user-zh"
可以看看这个PR:https://github.com/apache/flink/pull/16745
Best regards,
Yuxia
- 原始邮件 -
发件人: "kcz" <573693...@qq.com.INVALID>
收件人: "user-zh"
发送时间: 星期一, 2022年 7 月 18日 下午 6:13:14
主题: flink hive建表 owner为空问题
flink-1.14.4
hive-3.1.0
flink-1.14.4
hive-3.1.0
??flinkhive??hivehive??owner??kerberosowner??
owner