你好,Congxian
      因为这个是在公司内网,所以没办法把日志拿出来,这个邮件好像收不了图片。我就简单描述下。
      我又重新测试这个,第一种方式是setTolerableCheckpointFaliureNumber (0), 
没有设置重启策略,结果是checkpoint失败多次,程序还正常运行,查看日志,后边只有触发checkpoint和checkpoint过时未完成的日志,没有报错或异常。
第二种方式是setFailOnCheckpointingErrors(true),结果和第一种方式一样。
  不知道这个设置生效是有什么前提吗,还是有什么bug





---原始邮件---
发件人: "Congxian Qiu"<qcx978132...@gmail.com&gt;
发送时间: 2020年10月27日(周二) 中午11:42
收件人: "user-zh"<user-zh@flink.apache.org&gt;;
主题: Re: 容忍checkpoint 失败次数和重启策略冲突吗


Hi smq
&nbsp;&nbsp; 这两个东西不相互影响,理论上 checkpoint 允许失败次数这个只会导致 job fail,而重启策略则是在 job fail
的时候判断怎么继续,如果不符合预期,可以看一下 jm 的 log 或者分享一下 jm log 让大家帮忙看看
Best,
Congxian


smq <374060...@qq.com&gt; 于2020年10月27日周二 上午11:25写道:

&gt; 各位大佬好:
&gt; 我现在设置容忍checkpoint失败次数是0,重启策略为固定延时重启,重启100次。
&gt; 经过测试发现,checkpoint连续失败多次,程序还在运行,不知道是什么原因导致容忍checkpoint失败次数这个设置没有生效。

回复