@Congxian 感谢你的回复,我们会参考你的思路。
Best,
Xingxing Di
Sender: Congxian Qiu
Send Time: 2020-06-15 09:55
Receiver: user-zh
cc: zhangyingchen; pengxingbo
Subject: Re: Re: 如何做checkpoint的灾备
正常的流程来说,能找到 checkpoint meta 文件,checkpoint 就是完整的。但是也可能会出现其他的一些异常(主要可能会有
FileNotFound 等异常),那些异常如果需要提前知道的话,可以再 JM 端通过遍
最新的checkpoint恢复,那很有可能因为checkpoint不完整,导致作业无法启动。
>
> 目前我们是简单处理的,优先使用倒数第2个checkpoint,但如果作业checkpoint少于2个,可能需要查找checkpoint路径,并手动指定。
> PS:我们用的是flink 1.9.2
>
>
>
> Best,
> Xingxing Di
>
> 发件人: Yun Tang
> 发送时间: 2020-06-14 00:48
> 收件人: user-zh
> 主题: Re: 如何做checkpoint的灾备
&
checkpoint,但如果作业checkpoint少于2个,可能需要查找checkpoint路径,并手动指定。
PS:我们用的是flink 1.9.2
Best,
Xingxing Di
发件人: Yun Tang
发送时间: 2020-06-14 00:48
收件人: user-zh
主题: Re: 如何做checkpoint的灾备
Hi Xingxing
由于作业仍在运行,所以checkpoint目录下的文件是不断新增以及删除的,其实在使用distcp的时候加上 “-i” [1]
来忽略失败的拷贝(例如FileNotFoundException)
文件即可。因为作业的原始
#Command_Line_Options
祝好
唐云
From: Congxian Qiu
Sent: Saturday, June 13, 2020 16:54
To: user-zh
Subject: Re: 如何做checkpoint的灾备
Hi
你好,这个需求看上去是一个通用的需求(可以是任何的文件进行灾备,刚好这里是 checkpoint 文件),对 hdfs distcp
的限制不太了解,不过如果你要是想做这件事情,能否尝试定时的把文件先 copy 到本集群,然后 copy 后的文件通过 distcp 拷贝到其他集群。
另外
Hi
你好,这个需求看上去是一个通用的需求(可以是任何的文件进行灾备,刚好这里是 checkpoint 文件),对 hdfs distcp
的限制不太了解,不过如果你要是想做这件事情,能否尝试定时的把文件先 copy 到本集群,然后 copy 后的文件通过 distcp 拷贝到其他集群。
另外改造 flink 代码支持 checkpoint 异步双写这从理论上来说是可以的,不过做的事情可能也不简单,粗略想了下需要:1)tm
端能够双写,可以参考现在开启 localrecovery 的双写(本地和远程)的实现[1] -- 另外需要考虑异常情况;2)jm 端需要考虑
checkpoint m