Hi Peihui
你的异常应该是从增量Checkpoint恢复时,文件已经下载到本地了,做硬链时[1],发现源文件不见了,有很大的可能是当时发生了异常,导致restore流程退出了,所以这个问题应该不是root
cause。
[1]
https://github.com/apache/flink/blob/2a3b642b1efb957f3d4f20502c40398786ab1469/flink-state-backends/flink-statebackend-rocksdb/src/main/java/org/apache/flink/contrib/streaming/st
Hi
这个出错是从 1.9 升级到 1.10 遇到的问题,还是说 1.10 能正常跑了,然后跑着跑着 failover 了再次恢复的时候出错了呢?
另外你可以看下 tm log 看看有没有其他异常
Best,
Congxian
Yun Tang 于2020年7月14日周二 上午11:57写道:
> Hi Peihui
>
> 你的异常应该是从增量Checkpoint恢复时,文件已经下载到本地了,做硬链时[1],发现源文件不见了,有很大的可能是当时发生了异常,导致restore流程退出了,所以这个问题应该不是root
> cause。
>
> [1]
> https://githu
Hi Yun,
我这边用一个word count 例子,socket -> flatmap -> keyBy -> reduce ->
print. 在flatmap 中当出现特定word的时候就抛出一个runtimeException。在1.9.2
里面是可以从checkpoint中自动恢复上次做checkpoint的时候的状态,但是用1.10.0 就不能。环境是flink on
yarn。
Best wishes.
Yun Tang 于2020年7月14日周二 上午11:57写道:
> Hi Peihui
>
> 你的异常应该是从增量Checkpoint恢复时,文件已经下载到本
Hi Congxian,
这个错误是从1.9 升级到1.10 遇到的问题。用简单的wordcount 测试,自己根据特定word
抛出runtimeException,就能够重现。flink on yarn 和 flink on k8s 都出现这个问题。1.10
都不能从上次的checkpoint状态中恢复。不知道是不是1.10需要其他配置呢?
Best wishes.
Congxian Qiu 于2020年7月14日周二 下午1:54写道:
> Hi
>
> 这个出错是从 1.9 升级到 1.10 遇到的问题,还是说 1.10 能正常跑了,然后跑着跑着 failover 了再次恢
Hi
我尝试理解一下:
1 你用 1.9 跑 wordcount 作业,然后执行了一些 checkpoint,然后停止作业,然后使用 1.10 从之前 1.9 的作业生成的
checkpoint 恢复,发现恢复不了?
2 你用作业 1.10 跑 wordcount,然后遇到特定的 word 会抛异常,然后 failover,发现不能从 checkpoint 恢复?
你这里的问题是第 1 种还是第 2 种呢?
另外能否分享一下你的操作步骤以及出错时候的 taskmanager log 呢?
Best,
Congxian
Peihui He 于2020年7月14日周二 下午2:46
据我所知,跨大版本的不能直接从checkoint恢复,只能放弃状态重新跑
Best
Robin Zhang
From: Peihui He <[hidden email]>
Sent: Tuesday, July 14, 2020 10:42
To: [hidden email] <[hidden email]>
Subject: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复
hello,
当升级到1.10.0 时候,程序出错后会尝试从checkpoint恢复,但是总
@flink.apache.org
Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复
据我所知,跨大版本的不能直接从checkoint恢复,只能放弃状态重新跑
Best
Robin Zhang
From: Peihui He <[hidden email]>
Sent: Tuesday, July 14, 2020 10:42
To: [hidden email] <[hidden email]>
Subject: flink 1.9.2 升级 1.
Hi Congxian,
不好意思,本来想准备下例子再回下邮件的,一直拖了这么久。
情况是你说的第2种。
同@chenxyz遇到的情况类似,日志可以参考chenxyz发的
http://apache-flink.147419.n8.nabble.com/rocksdb-Could-not-restore-keyed-state-backend-for-KeyedProcessOperator-td2232.html
按照chenxyz 的建议换了1.10.1版本后就没有问题了。
Best wishes.
Congxian Qiu 于2020年7月15日周三 下午1:04写道:
tream/state/schema_evolution.html
>
> 祝好
> 唐云
>
>
>
> From: Robin Zhang
> Sent: Wednesday, July 15, 2020 16:23
> To: user-zh@flink.apache.org
> Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复
>
> 据我所知,跨大版本的不能直接从checkoint恢复,只能放弃
: Thursday, July 16, 2020 16:15
To: user-zh@flink.apache.org
Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复
Hi Yun,
不好意思这么久回复,是@Congxian 描述的第2种情况。异常就是我通过socket
输入的特定的word抛出runtimeexception 使task
失败,然后job会尝试从checkpoint中恢复,但是恢复的过程中就报
Caused by: java.nio.file.NoSuchFileException:
/data
; https://github.com/apache/flink/commit/399329275e5e2baca9ed9494cce97ff732ac077a
> 祝好
> 唐云
>
> From: Peihui He
> Sent: Thursday, July 16, 2020 16:15
> To: user-zh@flink.apache.org
> Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复
>
b.com/apache/flink/commit/399329275e5e2baca9ed9494cce97ff732ac077a
>> 祝好
>> 唐云
>>
>> From: Peihui He
>> Sent: Thursday, July 16, 2020 16:15
>> To: user-zh@flink.apache.org
>> Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint
;> https://github.com/apache/flink/commit/399329275e5e2baca9ed9494cce97ff732ac077a
>>> 祝好
>>> 唐云
>>> ____
>>> From: Peihui He
>>> Sent: Thursday, July 16, 2020 16:15
>>> To: user-zh@flink.apache.org
>>> S
gt; >>> Flink-1.10.1
> >>> 里面涉及到相关代码的改动就是更改了restore时path的类[1],但是你们的操作系统并不是windows,按道理应该是没有关系的。
> >>> 另外,这个问题在你遇到failover时候是必现的么?从文件路径看,作业也没有开启local recovery是吧?
> >>>
> >>>
> >>> [1]
> >>>
> https://github.com/
gt; >>> 里面涉及到相关代码的改动就是更改了restore时path的类[1],但是你们的操作系统并不是windows,按道理应该是没有关系的。
>> >>> 另外,这个问题在你遇到failover时候是必现的么?从文件路径看,作业也没有开启local recovery是吧?
>> >>>
>> >>>
>> >>> [1]
>> >>>
>> https://github.com/apache/flink/c
t; >>> Hi Peihui
> >> >>>
> >> >>> Flink-1.10.1
> >> >>> 里面涉及到相关代码的改动就是更改了restore时path的类[1],但是你们的操作系统并不是windows,按道理应该是没有关系的。
> >> >>> 另外,这个问题在你遇到failover时候是必现的么?从文件路径看,作业也没有开启local recovery是吧?
> >> >>
t; >
>> >> >> Hi Yun,
>> >> >>
>> >> >> 作业没有开启local recovery, 我这边测试1.10.0是必现的。
>> >> >>
>> >> >> Best wishes.
>> >> >>
>> >> >> Yun Tang 于2020年7月16日周四 下午5:04写道:
>> >> &g
gt;
>>> >> > Peihui He 于2020年7月16日周四 下午5:26写道:
>>> >> >
>>> >> >> Hi Yun,
>>> >> >>
>>> >> >> 作业没有开启local recovery, 我这边测试1.10.0是必现的。
>>> >> >>
>>> >> >> Best wishes.
>>> >> >>
>>
ocs-stable/dev/stream/state/schema_evolution.html祝好唐云From:
> Robin Zhang <
> vincent2015qdlg@
> >Sent: Wednesday, July 15, 2020 16:23To:
> user-zh@.apache
> <
> user-zh@.apache
> >Subject: Re: flink 1.9.2 升级 1.10.0
> 任务失败不能从
Hi chenxyz,
我们遇到的问题应该是一样的,换了1.10.1 后就可以从checkpoint 中恢复了。🤗
Best wishes.
chenxyz 于2020年7月15日周三 下午9:53写道:
>
>
>
> Hello,
> Peihui,可以参考下是不是和这个问题类似?之前我在1.10.0也遇到过。
>
> http://apache-flink.147419.n8.nabble.com/rocksdb-Could-not-restore-keyed-state-backend-for-KeyedProcessOperator-td2232.html#a2239
>
20 matches
Mail list logo