回复:容忍checkpoint 失败次数和重启策略冲突吗
你好,Congxian 因为这个是在公司内网,所以没办法把日志拿出来,这个邮件好像收不了图片。我就简单描述下。 我又重新测试这个,第一种方式是setTolerableCheckpointFaliureNumber (0), 没有设置重启策略,结果是checkpoint失败多次,程序还正常运行,查看日志,后边只有触发checkpoint和checkpoint过时未完成的日志,没有报错或异常。 第二种方式是setFailOnCheckpointingErrors(true),结果和第一种方式一样。 不知道这个设置生效是有什么前提吗,还是有什么bug ---原始邮件--- 发件人: "Congxian Qiu"
Re: 容忍checkpoint 失败次数和重启策略冲突吗
Hi smq 这两个东西不相互影响,理论上 checkpoint 允许失败次数这个只会导致 job fail,而重启策略则是在 job fail 的时候判断怎么继续,如果不符合预期,可以看一下 jm 的 log 或者分享一下 jm log 让大家帮忙看看 Best, Congxian smq <374060...@qq.com> 于2020年10月27日周二 上午11:25写道: > 各位大佬好: > 我现在设置容忍checkpoint失败次数是0,重启策略为固定延时重启,重启100次。 > 经过测试发现,checkpoint连续失败多次,程序还在运行,不知道是什么原因导致容忍checkpoint失败次数这个设置没有生效。
容忍checkpoint 失败次数和重启策略冲突吗
各位大佬好: 我现在设置容忍checkpoint失败次数是0,重启策略为固定延时重启,重启100次。 经过测试发现,checkpoint连续失败多次,程序还在运行,不知道是什么原因导致容忍checkpoint失败次数这个设置没有生效。