Hi
   从报错 ”Exceeded checkpoint tolerable failure threshold“ 看,你的 checkpoint
有持续报错,导致了作业失败,你需要找一下为什么 checkpoint 失败,或许这篇文章[1] 可以有一些帮助
   另外从配置看,你开启了 unalign checkpoint,这个是上述文章中暂时没有设计的地方。

[1] https://zhuanlan.zhihu.com/p/87131964
Best,
Congxian


Robert.Zhang <173603...@qq.com> 于2020年8月21日周五 下午6:31写道:

> Hello all,
> 目前遇到一个问题,在iterative stream job
> 使用checkpoint,按照文档进行了相应的配置,测试过程中checkpoint几乎无法成功
> 测试state 很小,只有几k,依然无法成功。会出现org.apache.flink.util.FlinkRuntimeException:
> Exceeded checkpoint tolerable failure threshold.的报错
>
>
> 配置如下:
> env.enableCheckpointing(10000, CheckpointingMode.EXACTLY_ONCE, true);
> CheckpointConfig checkpointConfig = env.getCheckpointConfig();
> checkpointConfig.setCheckpointTimeout(600000);
> checkpointConfig.setMinPauseBetweenCheckpoints(60000);
> checkpointConfig.setMaxConcurrentCheckpoints(4);
>
> checkpointConfig.enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
> checkpointConfig.setPreferCheckpointForRecovery(true);
> checkpointConfig.setTolerableCheckpointFailureNumber(2);
> checkpointConfig.enableUnalignedCheckpoints();
>
>
> 任务只处理几条数据,未存在反压的情况。有遇到类似问题的老哥吗?

回复