Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-09-25 文章 Robin Zhang
ocs-stable/dev/stream/state/schema_evolution.html祝好唐云From: > Robin Zhang > vincent2015qdlg@ > Sent: Wednesday, July 15, 2020 16:23To: > user-zh@.apache > > user-zh@.apache > Subject: Re: flink 1.9.2 升级 1.10.0 > 任务失败不能从checkpoint恢复

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-22 文章 Congxian Qiu
gt; >>> >> > Peihui He 于2020年7月16日周四 下午5:26写道: >>> >> > >>> >> >> Hi Yun, >>> >> >> >>> >> >> 作业没有开启local recovery, 我这边测试1.10.0是必现的。 >>> >> >> >>> >> >> Best wishes. >>> >> >> >>

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-22 文章 Peihui He
t; > >> >> >> Hi Yun, >> >> >> >> >> >> 作业没有开启local recovery, 我这边测试1.10.0是必现的。 >> >> >> >> >> >> Best wishes. >> >> >> >> >> >> Yun Tang 于2020年7月16日周四 下午5:04写道: >> >> &g

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-17 文章 Peihui He
t; >>> Hi Peihui > >> >>> > >> >>> Flink-1.10.1 > >> >>> 里面涉及到相关代码的改动就是更改了restore时path的类[1],但是你们的操作系统并不是windows,按道理应该是没有关系的。 > >> >>> 另外,这个问题在你遇到failover时候是必现的么?从文件路径看,作业也没有开启local recovery是吧? > >> >>

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Congxian Qiu
gt; >>> 里面涉及到相关代码的改动就是更改了restore时path的类[1],但是你们的操作系统并不是windows,按道理应该是没有关系的。 >> >>> 另外,这个问题在你遇到failover时候是必现的么?从文件路径看,作业也没有开启local recovery是吧? >> >>> >> >>> >> >>> [1] >> >>> >> https://github.com/apache/flink/c

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He
gt; >>> Flink-1.10.1 > >>> 里面涉及到相关代码的改动就是更改了restore时path的类[1],但是你们的操作系统并不是windows,按道理应该是没有关系的。 > >>> 另外,这个问题在你遇到failover时候是必现的么?从文件路径看,作业也没有开启local recovery是吧? > >>> > >>> > >>> [1] > >>> > https://github.com/

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Congxian Qiu
;> https://github.com/apache/flink/commit/399329275e5e2baca9ed9494cce97ff732ac077a >>> 祝好 >>> 唐云 >>> ____ >>> From: Peihui He >>> Sent: Thursday, July 16, 2020 16:15 >>> To: user-zh@flink.apache.org >>>

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He
b.com/apache/flink/commit/399329275e5e2baca9ed9494cce97ff732ac077a >> 祝好 >> 唐云 >> >> From: Peihui He >> Sent: Thursday, July 16, 2020 16:15 >> To: user-zh@flink.apache.org >> Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He
; https://github.com/apache/flink/commit/399329275e5e2baca9ed9494cce97ff732ac077a > 祝好 > 唐云 > > From: Peihui He > Sent: Thursday, July 16, 2020 16:15 > To: user-zh@flink.apache.org > Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复 >

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Yun Tang
: Thursday, July 16, 2020 16:15 To: user-zh@flink.apache.org Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复 Hi Yun, 不好意思这么久回复,是@Congxian 描述的第2种情况。异常就是我通过socket 输入的特定的word抛出runtimeexception 使task 失败,然后job会尝试从checkpoint中恢复,但是恢复的过程中就报 Caused by: java.nio.file.NoSuchFileException: /data

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He
tream/state/schema_evolution.html > > 祝好 > 唐云 > > > > From: Robin Zhang > Sent: Wednesday, July 15, 2020 16:23 > To: user-zh@flink.apache.org > Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复 > > 据我所知,跨大版本的不能直接从checkoint恢复,只能放弃

Re: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He
Hi chenxyz, 我们遇到的问题应该是一样的,换了1.10.1 后就可以从checkpoint 中恢复了。珞 Best wishes. chenxyz 于2020年7月15日周三 下午9:53写道: > > > > Hello, > Peihui,可以参考下是不是和这个问题类似?之前我在1.10.0也遇到过。 > > http://apache-flink.147419.n8.nabble.com/rocksdb-Could-not-restore-keyed-state-backend-for-KeyedProcessOperator-td2232.html#a2239

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He
Hi Congxian, 不好意思,本来想准备下例子再回下邮件的,一直拖了这么久。 情况是你说的第2种。 同@chenxyz遇到的情况类似,日志可以参考chenxyz发的 http://apache-flink.147419.n8.nabble.com/rocksdb-Could-not-restore-keyed-state-backend-for-KeyedProcessOperator-td2232.html 按照chenxyz 的建议换了1.10.1版本后就没有问题了。 Best wishes. Congxian Qiu 于2020年7月15日周三

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-15 文章 Robin Zhang
据我所知,跨大版本的不能直接从checkoint恢复,只能放弃状态重新跑 Best Robin Zhang From: Peihui He <[hidden email]> Sent: Tuesday, July 14, 2020 10:42 To: [hidden email] <[hidden email]> Subject: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复 hello, 当升级到1.10.0

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-14 文章 Congxian Qiu
Hi 我尝试理解一下: 1 你用 1.9 跑 wordcount 作业,然后执行了一些 checkpoint,然后停止作业,然后使用 1.10 从之前 1.9 的作业生成的 checkpoint 恢复,发现恢复不了? 2 你用作业 1.10 跑 wordcount,然后遇到特定的 word 会抛异常,然后 failover,发现不能从 checkpoint 恢复? 你这里的问题是第 1 种还是第 2 种呢? 另外能否分享一下你的操作步骤以及出错时候的 taskmanager log 呢? Best, Congxian Peihui He 于2020年7月14日周二

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-14 文章 Peihui He
Hi Congxian, 这个错误是从1.9 升级到1.10 遇到的问题。用简单的wordcount 测试,自己根据特定word 抛出runtimeException,就能够重现。flink on yarn 和 flink on k8s 都出现这个问题。1.10 都不能从上次的checkpoint状态中恢复。不知道是不是1.10需要其他配置呢? Best wishes. Congxian Qiu 于2020年7月14日周二 下午1:54写道: > Hi > > 这个出错是从 1.9 升级到 1.10 遇到的问题,还是说 1.10 能正常跑了,然后跑着跑着 failover

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-14 文章 Peihui He
Hi Yun, 我这边用一个word count 例子,socket -> flatmap -> keyBy -> reduce -> print. 在flatmap 中当出现特定word的时候就抛出一个runtimeException。在1.9.2 里面是可以从checkpoint中自动恢复上次做checkpoint的时候的状态,但是用1.10.0 就不能。环境是flink on yarn。 Best wishes. Yun Tang 于2020年7月14日周二 上午11:57写道: > Hi Peihui > >

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-13 文章 Congxian Qiu
Hi 这个出错是从 1.9 升级到 1.10 遇到的问题,还是说 1.10 能正常跑了,然后跑着跑着 failover 了再次恢复的时候出错了呢? 另外你可以看下 tm log 看看有没有其他异常 Best, Congxian Yun Tang 于2020年7月14日周二 上午11:57写道: > Hi Peihui > > 你的异常应该是从增量Checkpoint恢复时,文件已经下载到本地了,做硬链时[1],发现源文件不见了,有很大的可能是当时发生了异常,导致restore流程退出了,所以这个问题应该不是root > cause。 > > [1] >

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-13 文章 Yun Tang
Hi Peihui 你的异常应该是从增量Checkpoint恢复时,文件已经下载到本地了,做硬链时[1],发现源文件不见了,有很大的可能是当时发生了异常,导致restore流程退出了,所以这个问题应该不是root cause。 [1]