subject:"报错 Could not resolve ResourceManager address akka.tcp\:\/\/flink@hostname\:16098\/user\/resourcemanager"

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang

zk的node是可以创建的，每次都是在新的job_id下边创建一个job_manager_lock。 yarn-session已经创建了3个月了，日志非常大，有好几个G，不好传。非常感谢你的回复，不好意思一直打扰。我自己在研究下吧，有什么进展会写在这里。 Xintong Song 于2020年8月26日周三下午7:11写道： > ZK 日志里有 TaskExecutor 节点创建失败的相关信息吗？ > 另外，你这个 yarn-session 是什么时间创建的，运行多久啦？ > > 如果是zk 问题的话，我理解影响的应该是所有的yarnsession,可是只有这一个有问题 > >

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 Xintong Song

ZK 日志里有 TaskExecutor 节点创建失败的相关信息吗？另外，你这个 yarn-session 是什么时间创建的，运行多久啦？如果是zk 问题的话，我理解影响的应该是所有的yarnsession,可是只有这一个有问题 > 这个不一定的，ZK 的问题不见得是整个服务不可用，可能是与当前应用相关的某个状态出现了问题，造成只有这个作业的后续服务受到影响。我这边也只能是根据你的描述猜测可能的原因。是否方便提供下完整的 JM 日志，我这边看下是否能有所发现？ Thank you~ Xintong Song On Wed, Aug 26, 2020 at 5:16 PM

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang

如果是zk 问题的话，我理解影响的应该是所有的yarnsession,可是只有这一个有问题 Xintong Song 于2020年8月26日周三16:50写道： > 按照我们目前掌握的信息，我这边的初步判断是 ZK 的问题。至于具体 ZK 什么问题，建议你咨询一下 ZK 的专家，看一下为什么节点 create > > 不成功。这方面我也不是很熟悉。 > > > > Thank you~ > > > > Xintong Song > > > > > > > > On Wed, Aug 26, 2020 at 4:42 PM song wang > wrote: > > > > > 你好

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang

你好，我找到了taskmanager的日志，发现在与jobmanager同样的时间点：2020-08-22 05:39:24，也发生了与resourcemanager 心跳超时的问题，然后就是报无法解析resourcemanager地址的错误，最后超过最大registration时间，taskamaner退出。日志如下： 2020-08-22 05:39:24,479 INFO org.apache.flink.runtime.taskexecutor.TaskExecutor - The heartbeat of ResourceManager with id 6724e1ef8e

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 Xintong Song

按照我们目前掌握的信息，我这边的初步判断是 ZK 的问题。至于具体 ZK 什么问题，建议你咨询一下 ZK 的专家，看一下为什么节点 create 不成功。这方面我也不是很熟悉。 Thank you~ Xintong Song On Wed, Aug 26, 2020 at 4:42 PM song wang wrote: > 你好，报错之前是有这个jobmanager 日志的， > 2020-08-22 05:35:32,944 INFO org.apache.flink.yarn.YarnResourceManager > - Disconn

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang

你好，报错之前是有这个jobmanager 日志的， 2020-08-22 05:35:32,944 INFO org.apache.flink.yarn.YarnResourceManager - Disconnect job manager a523ce29077177cd3722ab2a8c9c40a9 @akka.tcp://flink@hostname:16098/user/jobmanager_32 for job 615cc1aaec726a4c42758e47772a81fa from the resource manager. zk 这个

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song

另外，可以看下 TM 日志。如果有正在运行的 TM，那么说明 RM 和 TM 之间的心跳是正常的，也就证明 RM 是没有问题的。如果没有 TM 在运行，有可能是因为长时间空闲没有任务运行被释放了，可以找最近被释放的 TM 的日志看下是因为心跳超时释放的，还是空闲超市 RM 主动释放的。 Thank you~ Xintong Song On Wed, Aug 26, 2020 at 11:07 AM Xintong Song wrote: > 这个报错看起来是 RM 和 RestServer 服务都是正常的，反倒是 JobMaster 没有拿到 leader，所以 RM 没有响

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song

这个报错看起来是 RM 和 RestServer 服务都是正常的，反倒是 JobMaster 没有拿到 leader，所以 RM 没有响应 JM 的请求。你看下最早出现心跳超时 RM-JM 连接断开的时候，jobmanager 日志里面有没有 "Disconnect job manager xxx for job xxx from the resource manager." 这样的信息，描述的是 RM 主动断开了与 JM 的连接。另外，ZK 这个报错是只出现了一次，还是对每个提交后无法调度的作业都出现了？ Thank you~ Xintong Song On Wed, Au

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 song wang

1. 我在jobmanager日志中并没有找到相关的日志信息； 2. 用的是zk，看当时的日志有如下报错： 2020-08-22 05:38:30,974 INFO org.apache.zookeeper.server.PrepRequestProcessor: Got user-level KeeperException when processing sessionid:0x26ea6955ea90581 type:create cxid:0x32311f1 zxid:0x2079a5014 txntype:-1 reqpath:n/a Error Path:/flink-bdp/ap

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song

> > 1. 怎么可以确认是leader丢失呢？ > 看下是否能找到类似 "ResourceManager xxx was revoked leadership" 的日志 > 2. 通常是什么原因造成的呢？比如网络延迟？或者机器负载过高？网络原因是一种可能。另外也可能是 HA service 有问题，要看你集群用的是什么 HA（比如ZooKeeper），排查下 HA 的服务状态是否正常。 > 3. 有什么办法可以恢复吗？要根据具体原因才能知道如何恢复。你现在是 yarn-session 上还有正在运行的作业吗？有可能试下停掉再重启 yarn-session 吗？或者集群上

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 song wang

你好，现在yarn-session上还是可以提交新作业的。只是运行时无法分配slot，报错无法解析 resourcemanager 地址。如果是RM leadership丢失的话， 1. 怎么可以确认是leader丢失呢？ 2. 通常是什么原因造成的呢？比如网络延迟？或者机器负载过高？ 3. 有什么办法可以恢复吗？ Xintong Song 于2020年8月25日周二下午5:26写道： > > > > 出现这个报错后就提交不了任务了 > > > 我确认一下，你之前这句话的意思，是出现这个报错之后，新的作业不能提交了，还是新的作业能提交但是提交之后页报这个找不到 RM 的错？ >

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song

> > 出现这个报错后就提交不了任务了 > 我确认一下，你之前这句话的意思，是出现这个报错之后，新的作业不能提交了，还是新的作业能提交但是提交之后页报这个找不到 RM 的错？从 RM 心跳超时但是整个进程还在运行这个现象来看，比较符合 RM leadership 丢失的情况，这种情况下 RM 会停止服务。如果是新的作业干脆就无法提交了，也符合 rest server leadership 丢失的情况。我目前怀疑是 HA 出现问题，导致 RM 和 rest server 都认为自己不再是 leader，但是又迟迟没有新的 leader 产生。所以对于 JobMaster，由于没有发现

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 song wang

hi, Xintong：我仔细查看了下日志，发现在报错"Could not resolve ResourceManager address"之前有如下日志： 2020-08-22 05:39:24,473 INFO org.apache.flink.runtime.jobmaster.JobMaster - The heartbeat of ResourceManager with id 6724e1ef8ee1c5fe5212eec6182319b6 timed out. 2020-08-22 05:39:24,473 INFO org.apac

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 song wang

是的，用的是yarn-session的方式提交的任务，日志有很多，我再查查日志 Xintong Song 于2020年8月25日周二上午10:55写道： > 按你的描述，我理解是在 yarn 上起了一个 flink session，然后往这个 session > 里提交作业，一开始能正常提交运行，后来再作业开始出现问题？ > > 具体问题的原因还是要看日志才能确定，这个有可能是 ResourceManager，也有可能是 HA 或者 Akka 的问题，仅凭现象描述很难判断。 > > > Thank you~ > > Xintong Song > > > > On Tue, Aug 2

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 Xintong Song

按你的描述，我理解是在 yarn 上起了一个 flink session，然后往这个 session 里提交作业，一开始能正常提交运行，后来再作业开始出现问题？具体问题的原因还是要看日志才能确定，这个有可能是 ResourceManager，也有可能是 HA 或者 Akka 的问题，仅凭现象描述很难判断。 Thank you~ Xintong Song On Tue, Aug 25, 2020 at 10:23 AM song wang wrote: > > 你好，这个报错是任务启动了很长一段时间后才发生的，之前一直正常运行，出现这个报错后就提交不了任务了，感觉是Reso

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 song wang

你好，这个报错是任务启动了很长一段时间后才发生的，之前一直正常运行，出现这个报错后就提交不了任务了，感觉是ResourceManager出现了问题，ResourceManager有可能自己死掉吗？另外，这个现场还没有关掉，有什么办法排查下jobmaster和ResourceManager是否正常吗？ Xintong Song 于2020年8月25日周二上午9:46写道： > 从日志上看是 JobMaster 连不上 ResourceManager。这两个组件应该是在同一个进程内的，通过 akka 进行本地通信。 > 需要看下完整的日志，RM 是否成功启动并注册到了 akka 的

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 Xintong Song

从日志上看是 JobMaster 连不上 ResourceManager。这两个组件应该是在同一个进程内的，通过 akka 进行本地通信。需要看下完整的日志，RM 是否成功启动并注册到了 akka 的 actor system，以及注册的路径是否和 JM 尝试连接的路径一致。 Thank you~ Xintong Song On Mon, Aug 24, 2020 at 3:41 PM song wang wrote: > 各位老哥， flink > 运行在yarn上，偶尔报错无法解析ResourceManager地址，可是从对应的host上查找是有flink进程的，请问

报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 song wang

各位老哥， flink 运行在yarn上，偶尔报错无法解析ResourceManager地址，可是从对应的host上查找是有flink进程的，请问是什么原因呢？ flink 版本1.9.0 部分日志如下： ``` 2020-08-24 15:11:31,566 INFO org.apache.flink.runtime.jobmaster.JobMaster - Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager, r

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

18 matches

Site Navigation

Mail list logo

Footer information