HA在ZK里面记录了最后一次成功的checkpoint counter和地址,没有启用HA的话,就是从指定的savepoint恢复的。
Best,
Yang
刘建刚 于2021年5月28日周五 下午6:51写道:
> 那应该是master failover后把快照信息丢失了,ha应该能解决这个问题。
>
> 董建 <62...@163.com> 于2021年5月28日周五 下午6:24写道:
>
> > 稳定复现
> > checkpoint 正常生成,在web ui和hdfs目录里边都可以确认。
> > 我们jobmanager没有做ha,不知道是否是这个原因导致的?
> > 日
那应该是master failover后把快照信息丢失了,ha应该能解决这个问题。
董建 <62...@163.com> 于2021年5月28日周五 下午6:24写道:
> 稳定复现
> checkpoint 正常生成,在web ui和hdfs目录里边都可以确认。
> 我们jobmanager没有做ha,不知道是否是这个原因导致的?
> 日志里边能看到是从指定的-s恢复的,没有指定-s的时候,重启的时候也并没有使用最新的checkpoint文件。
> 目前这个问题困扰了我很久,也没有一个好的思路,下一步先把ha搞起来再试试。
> >> org.apache.flink.configura
这种情况是不符合预期的。请问通过以下步骤可以稳定复现吗?
1、从savepoint恢复;
2、作业开始定期做savepoint;
3、作业failover。
如果是的话,可能需要排查下checkpoint 文件是否存在,zookeeper上是否更新。
如果还是有问题,需要通过日志来排查了。
董建 <62...@163.com> 于2021年5月28日周五 下午5:37写道:
> 我遇到的问题现象是这样的
>
>
>
>
> 1、flink版本flink-1.12.2,启动命令如下,指定-s是因为job有做过cancel,这里重启。
>
>
>
>
> flink run -d -s
>