subject:"HOP窗口较短导致checkpoint失败"

Re: HOP窗口较短导致checkpoint失败

2021-09-21 文章 xiaohui zhang

checkpoint的状态大约只有50M左右就会开始出现cp失败的问题。如果失败了，尝试停止任务生成savepoint基本也不能成功。但同时运行的其他任务，cp在300M左右， save point 1G左右的就很顺利，基本不会出问题。因为实际的数据压力并不是很大，如果单纯增加并行度，是否能在窗口多的情况下有比较明显的改善呢？ Caizhi Weng 于2021年9月22日周三上午11:27写道： > Hi！ > > 24 小时且步长 1 分钟的 window 会由于数据不断累积而导致 cp 越来越大，越来越慢，最终超时。当然如果运算太慢导致 cp 被 back > pressur

Re: HOP窗口较短导致checkpoint失败

2021-09-21 文章 Caizhi Weng

Hi！ 24 小时且步长 1 分钟的 window 会由于数据不断累积而导致 cp 越来越大，越来越慢，最终超时。当然如果运算太慢导致 cp 被 back pressure 也有可能导致 cp 超时。开启 mini batch 可以加快 window 的运算速度，但这么长时间而且这么频繁的 window 目前确实没有什么很好的优化方法，仍然建议扩大并发以分担计算以及 cp 的压力。 xiaohui zhang 于2021年9月18日周六上午9:54写道： > FLink：1.12.1 > > 源： kafka > create table dev_log ( > devid, >

HOP窗口较短导致checkpoint失败

2021-09-17 文章 xiaohui zhang

FLink：1.12.1 源： kafka create table dev_log ( devid, ip, op_ts ) with ( connector = kafka ) sink： Hbase connect 2.2 目前用flink sql的hop window开发一个指标，统计近24小时的设备关联ip数。设置30min一次checkpoint，超时时间30min。执行SQL如下 insert into h_table select devid as rowkey row(hop_end, ip_cnt) from ( select devid,