Re: rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢?

2021-01-12 文章 Carmen Free
nting.html#prerequisites > > 祝好 > 唐云 > > From: Carmen Free > Sent: Wednesday, January 13, 2021 11:28 > To: user-zh@flink.apache.org > Subject: Re: rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢? > > Hi 唐老师, > > 我又重新尝试了新的场景。 > > 我将集群

Re: rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢?

2021-01-12 文章 Yun Tang
: Wednesday, January 13, 2021 11:28 To: user-zh@flink.apache.org Subject: Re: rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢? Hi 唐老师, 我又重新尝试了新的场景。 我将集群起来后,然后使A节点的TM失效( 此时集群中仅有A节点的JM, B节点的TM ),这个时候在flnk web ui界面提交新的任务,任务被调度到B节点TM,可以发现任务一直正常运行,但是trigger检查点快照时一直不成功。报错跟前文中描述恢复检查点时的错误很类似,只不过恢复检查点时,是找不到chk-xx文件,在这里是无

Re: rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢?

2021-01-12 文章 Carmen Free
ation.java:73) > at > > org.apache.flink.runtime.state.DefaultOperatorStateBackendBuilder.build(DefaultOperatorStateBackendBuilder.java:83) > ... 15 more > > > 这个文件夹在A节点(JM)上是有的,难道是访问权限问题吗?B节点无法访问A节点吗,有点奇怪啊,配置了ssh免密的啊,文件夹/data/flink/checkpoints访问权限也设置成了777 > > Yun Tang 于2

Re: rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢?

2021-01-12 文章 Yun Tang
@flink.apache.org Subject: Re: rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢? 你好,唐老师,谢谢解答。 不好意思,下面补充一下报错信息,刚才忘记说了。 主要报错信息如下,重新模拟了下: 2021-01-12 18:09:34,236 INFO org.apache.flink.runtime.executiongraph.ExecutionGraph- Source: Custom Source -> Flat Map -> Timestamps/Watermark

Re: rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢?

2021-01-12 文章 Carmen Free
Subject: rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢? > > hi, > > rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢? > > 1、环境说明 > > flink版本:1.10.2 > 操作系统:centos 7 > > 2、集群说明(当前模拟了2节点) > > 节点A | 节点B > 角色| JM、TM

Re: rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢?

2021-01-12 文章 Yun Tang
Hi Flink的容错机制是可以保证TM lost时候会尝试重启作业,“为何任务不能恢复”是需要看完整异常栈的,简单描述是无法帮助排查问题的。 祝好 唐云 From: Carmen Free Sent: Tuesday, January 12, 2021 15:52 To: user-zh@flink.apache.org Subject: rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢? hi, rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢

rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢?

2021-01-11 文章 Carmen Free
hi, rocksdb作为statebackend时,TM节点挂掉了,为何任务不能恢复呢? 1、环境说明 flink版本:1.10.2 操作系统:centos 7 2、集群说明(当前模拟了2节点) 节点A | 节点B 角色| JM、TM|TM taskslot | 4 | 4 3、statebackend配置 # rocksdb作为状态后备 state.backend: rocksdb # 存