Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang
zk的node是可以创建的,每次都是在新的job_id下边创建一个job_manager_lock。 yarn-session已经创建了3个月了,日志非常大,有好几个G,不好传。 非常感谢你的回复,不好意思一直打扰。我自己在研究下吧,有什么进展会写在这里。 Xintong Song 于2020年8月26日周三 下午7:11写道: > ZK 日志里有 TaskExecutor 节点创建失败的相关信息吗? > 另外,你这个 yarn-session 是什么时间创建的,运行多久啦? > > 如果是zk 问题的话,我理解影响的应该是所有的yarnsession,可是只有这一个有问题 > >

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 Xintong Song
ZK 日志里有 TaskExecutor 节点创建失败的相关信息吗? 另外,你这个 yarn-session 是什么时间创建的,运行多久啦? 如果是zk 问题的话,我理解影响的应该是所有的yarnsession,可是只有这一个有问题 > 这个不一定的,ZK 的问题不见得是整个服务不可用,可能是与当前应用相关的某个状态出现了问题,造成只有这个作业的后续服务受到影响。 我这边也只能是根据你的描述猜测可能的原因。是否方便提供下完整的 JM 日志,我这边看下是否能有所发现? Thank you~ Xintong Song On Wed, Aug 26, 2020 at 5:16 PM

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang
如果是zk 问题的话,我理解影响的应该是所有的yarnsession,可是只有这一个有问题 Xintong Song 于2020年8月26日 周三16:50写道: > 按照我们目前掌握的信息,我这边的初步判断是 ZK 的问题。至于具体 ZK 什么问题,建议你咨询一下 ZK 的专家,看一下为什么节点 create > > 不成功。这方面我也不是很熟悉。 > > > > Thank you~ > > > > Xintong Song > > > > > > > > On Wed, Aug 26, 2020 at 4:42 PM song wang > wrote: > > > > > 你好

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang
你好,我找到了taskmanager的日志,发现在与jobmanager同样的时间点:2020-08-22 05:39:24,也发生了与resourcemanager 心跳超时的问题,然后就是报无法解析resourcemanager地址的错误,最后超过最大registration时间,taskamaner退出。 日志如下: 2020-08-22 05:39:24,479 INFO org.apache.flink.runtime.taskexecutor.TaskExecutor - The heartbeat of ResourceManager with id 6724e1ef8e

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 Xintong Song
按照我们目前掌握的信息,我这边的初步判断是 ZK 的问题。至于具体 ZK 什么问题,建议你咨询一下 ZK 的专家,看一下为什么节点 create 不成功。这方面我也不是很熟悉。 Thank you~ Xintong Song On Wed, Aug 26, 2020 at 4:42 PM song wang wrote: > 你好,报错之前是有这个jobmanager 日志的, > 2020-08-22 05:35:32,944 INFO org.apache.flink.yarn.YarnResourceManager > - Disconn

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang
你好,报错之前是有这个jobmanager 日志的, 2020-08-22 05:35:32,944 INFO org.apache.flink.yarn.YarnResourceManager - Disconnect job manager a523ce29077177cd3722ab2a8c9c40a9 @akka.tcp://flink@hostname:16098/user/jobmanager_32 for job 615cc1aaec726a4c42758e47772a81fa from the resource manager. zk 这个

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song
另外,可以看下 TM 日志。如果有正在运行的 TM,那么说明 RM 和 TM 之间的心跳是正常的,也就证明 RM 是没有问题的。如果没有 TM 在运行,有可能是因为长时间空闲没有任务运行被释放了,可以找最近被释放的 TM 的日志看下是因为心跳超时释放的,还是空闲超市 RM 主动释放的。 Thank you~ Xintong Song On Wed, Aug 26, 2020 at 11:07 AM Xintong Song wrote: > 这个报错看起来是 RM 和 RestServer 服务都是正常的,反倒是 JobMaster 没有拿到 leader,所以 RM 没有响

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song
这个报错看起来是 RM 和 RestServer 服务都是正常的,反倒是 JobMaster 没有拿到 leader,所以 RM 没有响应 JM 的请求。 你看下最早出现心跳超时 RM-JM 连接断开的时候,jobmanager 日志里面有没有 "Disconnect job manager xxx for job xxx from the resource manager." 这样的信息,描述的是 RM 主动断开了与 JM 的连接。 另外,ZK 这个报错是只出现了一次,还是对每个提交后无法调度的作业都出现了? Thank you~ Xintong Song On Wed, Au

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 song wang
1. 我在jobmanager日志中并没有找到相关的日志信息; 2. 用的是zk,看当时的日志有如下报错: 2020-08-22 05:38:30,974 INFO org.apache.zookeeper.server.PrepRequestProcessor: Got user-level KeeperException when processing sessionid:0x26ea6955ea90581 type:create cxid:0x32311f1 zxid:0x2079a5014 txntype:-1 reqpath:n/a Error Path:/flink-bdp/ap

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song
> > 1. 怎么可以确认是leader丢失呢? > 看下是否能找到类似 "ResourceManager xxx was revoked leadership" 的日志 > 2. 通常是什么原因造成的呢?比如网络延迟?或者机器负载过高? 网络原因是一种可能。另外也可能是 HA service 有问题,要看你集群用的是什么 HA(比如ZooKeeper),排查下 HA 的服务状态是否正常。 > 3. 有什么办法可以恢复吗? 要根据具体原因才能知道如何恢复。 你现在是 yarn-session 上还有正在运行的作业吗?有可能试下停掉再重启 yarn-session 吗? 或者集群上

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 song wang
你好, 现在yarn-session上还是可以提交新作业的。只是运行时无法分配slot,报错无法解析 resourcemanager 地址。 如果是RM leadership丢失的话, 1. 怎么可以确认是leader丢失呢? 2. 通常是什么原因造成的呢?比如网络延迟?或者机器负载过高? 3. 有什么办法可以恢复吗? Xintong Song 于2020年8月25日周二 下午5:26写道: > > > > 出现这个报错后就提交不了任务了 > > > 我确认一下,你之前这句话的意思,是出现这个报错之后,新的作业不能提交了,还是新的作业能提交但是提交之后页报这个找不到 RM 的错? >

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song
> > 出现这个报错后就提交不了任务了 > 我确认一下,你之前这句话的意思,是出现这个报错之后,新的作业不能提交了,还是新的作业能提交但是提交之后页报这个找不到 RM 的错? 从 RM 心跳超时但是整个进程还在运行这个现象来看,比较符合 RM leadership 丢失的情况,这种情况下 RM 会停止服务。 如果是新的作业干脆就无法提交了,也符合 rest server leadership 丢失的情况。 我目前怀疑是 HA 出现问题,导致 RM 和 rest server 都认为自己不再是 leader,但是又迟迟没有新的 leader 产生。所以对于 JobMaster,由于没有发现

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 song wang
hi, Xintong: 我仔细查看了下日志,发现在报错"Could not resolve ResourceManager address"之前有如下日志: 2020-08-22 05:39:24,473 INFO org.apache.flink.runtime.jobmaster.JobMaster - The heartbeat of ResourceManager with id 6724e1ef8ee1c5fe5212eec6182319b6 timed out. 2020-08-22 05:39:24,473 INFO org.apac

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 song wang
是的,用的是yarn-session的方式提交的任务,日志有很多,我再查查日志 Xintong Song 于2020年8月25日周二 上午10:55写道: > 按你的描述,我理解是在 yarn 上起了一个 flink session,然后往这个 session > 里提交作业,一开始能正常提交运行,后来再作业开始出现问题? > > 具体问题的原因还是要看日志才能确定,这个有可能是 ResourceManager,也有可能是 HA 或者 Akka 的问题,仅凭现象描述很难判断。 > > > Thank you~ > > Xintong Song > > > > On Tue, Aug 2

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 Xintong Song
按你的描述,我理解是在 yarn 上起了一个 flink session,然后往这个 session 里提交作业,一开始能正常提交运行,后来再作业开始出现问题? 具体问题的原因还是要看日志才能确定,这个有可能是 ResourceManager,也有可能是 HA 或者 Akka 的问题,仅凭现象描述很难判断。 Thank you~ Xintong Song On Tue, Aug 25, 2020 at 10:23 AM song wang wrote: > > 你好,这个报错是任务启动了很长一段时间后才发生的,之前一直正常运行,出现这个报错后就提交不了任务了,感觉是Reso

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 song wang
你好,这个报错是任务启动了很长一段时间后才发生的,之前一直正常运行,出现这个报错后就提交不了任务了,感觉是ResourceManager出现了问题,ResourceManager有可能自己死掉吗? 另外,这个现场还没有关掉,有什么办法排查下jobmaster和ResourceManager是否正常吗? Xintong Song 于2020年8月25日周二 上午9:46写道: > 从日志上看是 JobMaster 连不上 ResourceManager。这两个组件应该是在同一个进程内的,通过 akka 进行本地通信。 > 需要看下完整的日志,RM 是否成功启动并注册到了 akka 的

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 Xintong Song
从日志上看是 JobMaster 连不上 ResourceManager。这两个组件应该是在同一个进程内的,通过 akka 进行本地通信。 需要看下完整的日志,RM 是否成功启动并注册到了 akka 的 actor system,以及注册的路径是否和 JM 尝试连接的路径一致。 Thank you~ Xintong Song On Mon, Aug 24, 2020 at 3:41 PM song wang wrote: > 各位老哥, flink > 运行在yarn上,偶尔报错无法解析ResourceManager地址,可是从对应的host上查找是有flink进程的,请问

报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 song wang
各位老哥, flink 运行在yarn上,偶尔报错无法解析ResourceManager地址,可是从对应的host上查找是有flink进程的,请问是什么原因呢? flink 版本1.9.0 部分日志如下: ``` 2020-08-24 15:11:31,566 INFO org.apache.flink.runtime.jobmaster.JobMaster - Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager, r