Hi 从报错 ”Exceeded checkpoint tolerable failure threshold“ 看,你的 checkpoint 有持续报错,导致了作业失败,你需要找一下为什么 checkpoint 失败,或许这篇文章[1] 可以有一些帮助 另外从配置看,你开启了 unalign checkpoint,这个是上述文章中暂时没有设计的地方。
[1] https://zhuanlan.zhihu.com/p/87131964 Best, Congxian Robert.Zhang <173603...@qq.com> 于2020年8月21日周五 下午6:31写道: > Hello all, > 目前遇到一个问题,在iterative stream job > 使用checkpoint,按照文档进行了相应的配置,测试过程中checkpoint几乎无法成功 > 测试state 很小,只有几k,依然无法成功。会出现org.apache.flink.util.FlinkRuntimeException: > Exceeded checkpoint tolerable failure threshold.的报错 > > > 配置如下: > env.enableCheckpointing(10000, CheckpointingMode.EXACTLY_ONCE, true); > CheckpointConfig checkpointConfig = env.getCheckpointConfig(); > checkpointConfig.setCheckpointTimeout(600000); > checkpointConfig.setMinPauseBetweenCheckpoints(60000); > checkpointConfig.setMaxConcurrentCheckpoints(4); > > checkpointConfig.enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); > checkpointConfig.setPreferCheckpointForRecovery(true); > checkpointConfig.setTolerableCheckpointFailureNumber(2); > checkpointConfig.enableUnalignedCheckpoints(); > > > 任务只处理几条数据,未存在反压的情况。有遇到类似问题的老哥吗?