Re: Re: 如何做checkpoint的灾备

2020-06-16 文章 dixingxin...@163.com
@Congxian 感谢你的回复,我们会参考你的思路。 Best, Xingxing Di Sender: Congxian Qiu Send Time: 2020-06-15 09:55 Receiver: user-zh cc: zhangyingchen; pengxingbo Subject: Re: Re: 如何做checkpoint的灾备 正常的流程来说,能找到 checkpoint meta 文件,checkpoint 就是完整的。但是也可能会出现其他的一些异常(主要可能会有 FileNotFound 等异常),那些异常如果需要提前知道的话,可以再 JM 端通过遍

Re: Re: 如何做checkpoint的灾备

2020-06-14 文章 Congxian Qiu
最新的checkpoint恢复,那很有可能因为checkpoint不完整,导致作业无法启动。 > > 目前我们是简单处理的,优先使用倒数第2个checkpoint,但如果作业checkpoint少于2个,可能需要查找checkpoint路径,并手动指定。 > PS:我们用的是flink 1.9.2 > > > > Best, > Xingxing Di > > 发件人: Yun Tang > 发送时间: 2020-06-14 00:48 > 收件人: user-zh > 主题: Re: 如何做checkpoint的灾备 &

回复: Re: 如何做checkpoint的灾备

2020-06-14 文章 dixingxin...@163.com
checkpoint,但如果作业checkpoint少于2个,可能需要查找checkpoint路径,并手动指定。 PS:我们用的是flink 1.9.2 Best, Xingxing Di 发件人: Yun Tang 发送时间: 2020-06-14 00:48 收件人: user-zh 主题: Re: 如何做checkpoint的灾备 Hi Xingxing 由于作业仍在运行,所以checkpoint目录下的文件是不断新增以及删除的,其实在使用distcp的时候加上 “-i” [1] 来忽略失败的拷贝(例如FileNotFoundException) 文件即可。因为作业的原始

Re: 如何做checkpoint的灾备

2020-06-13 文章 Yun Tang
#Command_Line_Options 祝好 唐云 From: Congxian Qiu Sent: Saturday, June 13, 2020 16:54 To: user-zh Subject: Re: 如何做checkpoint的灾备 Hi 你好,这个需求看上去是一个通用的需求(可以是任何的文件进行灾备,刚好这里是 checkpoint 文件),对 hdfs distcp 的限制不太了解,不过如果你要是想做这件事情,能否尝试定时的把文件先 copy 到本集群,然后 copy 后的文件通过 distcp 拷贝到其他集群。 另外

Re: 如何做checkpoint的灾备

2020-06-13 文章 Congxian Qiu
Hi 你好,这个需求看上去是一个通用的需求(可以是任何的文件进行灾备,刚好这里是 checkpoint 文件),对 hdfs distcp 的限制不太了解,不过如果你要是想做这件事情,能否尝试定时的把文件先 copy 到本集群,然后 copy 后的文件通过 distcp 拷贝到其他集群。 另外改造 flink 代码支持 checkpoint 异步双写这从理论上来说是可以的,不过做的事情可能也不简单,粗略想了下需要:1)tm 端能够双写,可以参考现在开启 localrecovery 的双写(本地和远程)的实现[1] -- 另外需要考虑异常情况;2)jm 端需要考虑 checkpoint m