回复:容忍checkpoint 失败次数和重启策略冲突吗

2020-10-26 文章 smq
你好,Congxian
      因为这个是在公司内网,所以没办法把日志拿出来,这个邮件好像收不了图片。我就简单描述下。
      我又重新测试这个,第一种方式是setTolerableCheckpointFaliureNumber (0), 
没有设置重启策略,结果是checkpoint失败多次,程序还正常运行,查看日志,后边只有触发checkpoint和checkpoint过时未完成的日志,没有报错或异常。
第二种方式是setFailOnCheckpointingErrors(true),结果和第一种方式一样。
  不知道这个设置生效是有什么前提吗,还是有什么bug





---原始邮件---
发件人: "Congxian Qiu"

Re: 容忍checkpoint 失败次数和重启策略冲突吗

2020-10-26 文章 Congxian Qiu
Hi smq
   这两个东西不相互影响,理论上 checkpoint 允许失败次数这个只会导致 job fail,而重启策略则是在 job fail
的时候判断怎么继续,如果不符合预期,可以看一下 jm 的 log 或者分享一下 jm log 让大家帮忙看看
Best,
Congxian


smq <374060...@qq.com> 于2020年10月27日周二 上午11:25写道:

> 各位大佬好:
> 我现在设置容忍checkpoint失败次数是0,重启策略为固定延时重启,重启100次。
> 经过测试发现,checkpoint连续失败多次,程序还在运行,不知道是什么原因导致容忍checkpoint失败次数这个设置没有生效。


容忍checkpoint 失败次数和重启策略冲突吗

2020-10-26 文章 smq
各位大佬好:
我现在设置容忍checkpoint失败次数是0,重启策略为固定延时重启,重启100次。
经过测试发现,checkpoint连续失败多次,程序还在运行,不知道是什么原因导致容忍checkpoint失败次数这个设置没有生效。