date:20200613

Re: 如何做checkpoint的灾备

2020-06-13 Thread Congxian Qiu

Hi 你好，这个需求看上去是一个通用的需求（可以是任何的文件进行灾备，刚好这里是 checkpoint 文件），对 hdfs distcp 的限制不太了解，不过如果你要是想做这件事情，能否尝试定时的把文件先 copy 到本集群，然后 copy 后的文件通过 distcp 拷贝到其他集群。另外改造 flink 代码支持 checkpoint 异步双写这从理论上来说是可以的，不过做的事情可能也不简单，粗略想了下需要：1）tm 端能够双写，可以参考现在开启 localrecovery 的双写（本地和远程）的实现[1] -- 另外需要考虑异常情况；2）jm 端需要考虑 checkpoint m

回复： Flink 1.11 什么时候正式发布呢

2020-06-13 Thread Sun.Zhu

据说是6月下旬 | | Sun.Zhu | | 17626017...@163.com | 签名由网易邮箱大师定制在2020年06月9日 11:13，zhipengchen 写道： +1 发送自 Windows 10 版邮件应用发件人: a773807...@gmail.com 发送时间: 2020年6月9日 10:53 收件人: user-zh 主题: 回复: Flink 1.11 什么时候正式发布呢 +1 a773807...@gmail.com 发件人： hyangvv 发送时间： 2020-06-09 10:52 收件人： user-zh 主题： Flink

??????Flink??????????????????

2020-06-13 Thread Sun.Zhu

1: Flink?? --try catch??checkpoint?? 2??checkpoint??savepointsavepoint?? ?? 3

Re: 如何做checkpoint的灾备

2020-06-13 Thread Yun Tang

Hi Xingxing 由于作业仍在运行，所以checkpoint目录下的文件是不断新增以及删除的，其实在使用distcp的时候加上 “-i” [1] 来忽略失败的拷贝（例如FileNotFoundException) 文件即可。因为作业的原始checkpoint目录最终一定可以做到正常restore，所以即使部分文件因为在拷贝时被原作业不需要而删除时，只要最终目录结构一致，是可以做到在另外一个HDFS上实现容灾备份的。 [1] https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html#Command_Line

Re: 回复：Flink异常及重启容错处理

2020-06-13 Thread Yun Tang

Hi 我想你的问题是数据源中存在之前代码中没有很好处理的corner case，导致在处理某一条“脏数据”时，作业进入FAILED状态。此时即使从之前的checkpoint恢复，由于作业代码逻辑未变，之前的corner case依然无法处理，作业只能无限进去失败状态。这种场景可以一开始时候将checkpoint的保留策略设置成RETAIN_ON_CANCELLATION [1]，这样cancel作业之后，更改业务代码逻辑，从而可以处理之前的问题，再降作业上线从之前的checkpoint恢复 [2]，这样做的话，数据是不会丢失的。 [1] https://ci.apache.o

Re: 如何做checkpoint的灾备

回复： Flink 1.11 什么时候正式发布呢

??????Flink??????????????????

Re: 如何做checkpoint的灾备

Re: 回复：Flink异常及重启容错处理

5 matches

Site Navigation

Mail list logo

Footer information