zk的node是可以创建的,每次都是在新的job_id下边创建一个job_manager_lock。
yarn-session已经创建了3个月了,日志非常大,有好几个G,不好传。
非常感谢你的回复,不好意思一直打扰。我自己在研究下吧,有什么进展会写在这里。
Xintong Song 于2020年8月26日周三 下午7:11写道:
> ZK 日志里有 TaskExecutor 节点创建失败的相关信息吗?
> 另外,你这个 yarn-session 是什么时间创建的,运行多久啦?
>
> 如果是zk 问题的话,我理解影响的应该是所有的yarnsession,可是只有这一个有问题
> >
ZK 日志里有 TaskExecutor 节点创建失败的相关信息吗?
另外,你这个 yarn-session 是什么时间创建的,运行多久啦?
如果是zk 问题的话,我理解影响的应该是所有的yarnsession,可是只有这一个有问题
>
这个不一定的,ZK 的问题不见得是整个服务不可用,可能是与当前应用相关的某个状态出现了问题,造成只有这个作业的后续服务受到影响。
我这边也只能是根据你的描述猜测可能的原因。是否方便提供下完整的 JM 日志,我这边看下是否能有所发现?
Thank you~
Xintong Song
On Wed, Aug 26, 2020 at 5:16 PM
如果是zk 问题的话,我理解影响的应该是所有的yarnsession,可是只有这一个有问题
Xintong Song 于2020年8月26日 周三16:50写道:
> 按照我们目前掌握的信息,我这边的初步判断是 ZK 的问题。至于具体 ZK 什么问题,建议你咨询一下 ZK 的专家,看一下为什么节点 create
>
> 不成功。这方面我也不是很熟悉。
>
>
>
> Thank you~
>
>
>
> Xintong Song
>
>
>
>
>
>
>
> On Wed, Aug 26, 2020 at 4:42 PM song wang
> wrote:
>
>
>
> > 你好
你好,我找到了taskmanager的日志,发现在与jobmanager同样的时间点:2020-08-22
05:39:24,也发生了与resourcemanager
心跳超时的问题,然后就是报无法解析resourcemanager地址的错误,最后超过最大registration时间,taskamaner退出。
日志如下:
2020-08-22 05:39:24,479 INFO
org.apache.flink.runtime.taskexecutor.TaskExecutor - The heartbeat of
ResourceManager with id 6724e1ef8e
按照我们目前掌握的信息,我这边的初步判断是 ZK 的问题。至于具体 ZK 什么问题,建议你咨询一下 ZK 的专家,看一下为什么节点 create
不成功。这方面我也不是很熟悉。
Thank you~
Xintong Song
On Wed, Aug 26, 2020 at 4:42 PM song wang wrote:
> 你好,报错之前是有这个jobmanager 日志的,
> 2020-08-22 05:35:32,944 INFO org.apache.flink.yarn.YarnResourceManager
> - Disconn
你好,报错之前是有这个jobmanager 日志的,
2020-08-22 05:35:32,944 INFO org.apache.flink.yarn.YarnResourceManager
- Disconnect job manager a523ce29077177cd3722ab2a8c9c40a9
@akka.tcp://flink@hostname:16098/user/jobmanager_32 for job
615cc1aaec726a4c42758e47772a81fa from the resource manager.
zk 这个
另外,可以看下 TM 日志。如果有正在运行的 TM,那么说明 RM 和 TM 之间的心跳是正常的,也就证明 RM 是没有问题的。如果没有 TM
在运行,有可能是因为长时间空闲没有任务运行被释放了,可以找最近被释放的 TM 的日志看下是因为心跳超时释放的,还是空闲超市 RM 主动释放的。
Thank you~
Xintong Song
On Wed, Aug 26, 2020 at 11:07 AM Xintong Song wrote:
> 这个报错看起来是 RM 和 RestServer 服务都是正常的,反倒是 JobMaster 没有拿到 leader,所以 RM 没有响
这个报错看起来是 RM 和 RestServer 服务都是正常的,反倒是 JobMaster 没有拿到 leader,所以 RM 没有响应 JM
的请求。
你看下最早出现心跳超时 RM-JM 连接断开的时候,jobmanager 日志里面有没有 "Disconnect job manager xxx
for job xxx from the resource manager." 这样的信息,描述的是 RM 主动断开了与 JM 的连接。
另外,ZK 这个报错是只出现了一次,还是对每个提交后无法调度的作业都出现了?
Thank you~
Xintong Song
On Wed, Au
1. 我在jobmanager日志中并没有找到相关的日志信息;
2. 用的是zk,看当时的日志有如下报错:
2020-08-22 05:38:30,974 INFO
org.apache.zookeeper.server.PrepRequestProcessor: Got user-level
KeeperException when processing sessionid:0x26ea6955ea90581 type:create
cxid:0x32311f1 zxid:0x2079a5014 txntype:-1 reqpath:n/a Error
Path:/flink-bdp/ap
>
> 1. 怎么可以确认是leader丢失呢?
>
看下是否能找到类似 "ResourceManager xxx was revoked leadership" 的日志
> 2. 通常是什么原因造成的呢?比如网络延迟?或者机器负载过高?
网络原因是一种可能。另外也可能是 HA service 有问题,要看你集群用的是什么 HA(比如ZooKeeper),排查下 HA 的服务状态是否正常。
> 3. 有什么办法可以恢复吗?
要根据具体原因才能知道如何恢复。
你现在是 yarn-session 上还有正在运行的作业吗?有可能试下停掉再重启 yarn-session 吗?
或者集群上
你好,
现在yarn-session上还是可以提交新作业的。只是运行时无法分配slot,报错无法解析 resourcemanager 地址。
如果是RM leadership丢失的话,
1. 怎么可以确认是leader丢失呢?
2. 通常是什么原因造成的呢?比如网络延迟?或者机器负载过高?
3. 有什么办法可以恢复吗?
Xintong Song 于2020年8月25日周二 下午5:26写道:
> >
> > 出现这个报错后就提交不了任务了
> >
> 我确认一下,你之前这句话的意思,是出现这个报错之后,新的作业不能提交了,还是新的作业能提交但是提交之后页报这个找不到 RM 的错?
>
>
> 出现这个报错后就提交不了任务了
>
我确认一下,你之前这句话的意思,是出现这个报错之后,新的作业不能提交了,还是新的作业能提交但是提交之后页报这个找不到 RM 的错?
从 RM 心跳超时但是整个进程还在运行这个现象来看,比较符合 RM leadership 丢失的情况,这种情况下 RM 会停止服务。
如果是新的作业干脆就无法提交了,也符合 rest server leadership 丢失的情况。
我目前怀疑是 HA 出现问题,导致 RM 和 rest server 都认为自己不再是 leader,但是又迟迟没有新的 leader 产生。所以对于
JobMaster,由于没有发现
hi, Xintong:
我仔细查看了下日志,发现在报错"Could not resolve ResourceManager address"之前有如下日志:
2020-08-22 05:39:24,473 INFO org.apache.flink.runtime.jobmaster.JobMaster
- The heartbeat of ResourceManager with id
6724e1ef8ee1c5fe5212eec6182319b6 timed out.
2020-08-22 05:39:24,473 INFO org.apac
是的,用的是yarn-session的方式提交的任务,日志有很多,我再查查日志
Xintong Song 于2020年8月25日周二 上午10:55写道:
> 按你的描述,我理解是在 yarn 上起了一个 flink session,然后往这个 session
> 里提交作业,一开始能正常提交运行,后来再作业开始出现问题?
>
> 具体问题的原因还是要看日志才能确定,这个有可能是 ResourceManager,也有可能是 HA 或者 Akka 的问题,仅凭现象描述很难判断。
>
>
> Thank you~
>
> Xintong Song
>
>
>
> On Tue, Aug 2
按你的描述,我理解是在 yarn 上起了一个 flink session,然后往这个 session
里提交作业,一开始能正常提交运行,后来再作业开始出现问题?
具体问题的原因还是要看日志才能确定,这个有可能是 ResourceManager,也有可能是 HA 或者 Akka 的问题,仅凭现象描述很难判断。
Thank you~
Xintong Song
On Tue, Aug 25, 2020 at 10:23 AM song wang wrote:
>
> 你好,这个报错是任务启动了很长一段时间后才发生的,之前一直正常运行,出现这个报错后就提交不了任务了,感觉是Reso
你好,这个报错是任务启动了很长一段时间后才发生的,之前一直正常运行,出现这个报错后就提交不了任务了,感觉是ResourceManager出现了问题,ResourceManager有可能自己死掉吗?
另外,这个现场还没有关掉,有什么办法排查下jobmaster和ResourceManager是否正常吗?
Xintong Song 于2020年8月25日周二 上午9:46写道:
> 从日志上看是 JobMaster 连不上 ResourceManager。这两个组件应该是在同一个进程内的,通过 akka 进行本地通信。
> 需要看下完整的日志,RM 是否成功启动并注册到了 akka 的
从日志上看是 JobMaster 连不上 ResourceManager。这两个组件应该是在同一个进程内的,通过 akka 进行本地通信。
需要看下完整的日志,RM 是否成功启动并注册到了 akka 的 actor system,以及注册的路径是否和 JM 尝试连接的路径一致。
Thank you~
Xintong Song
On Mon, Aug 24, 2020 at 3:41 PM song wang wrote:
> 各位老哥, flink
> 运行在yarn上,偶尔报错无法解析ResourceManager地址,可是从对应的host上查找是有flink进程的,请问
各位老哥, flink
运行在yarn上,偶尔报错无法解析ResourceManager地址,可是从对应的host上查找是有flink进程的,请问是什么原因呢?
flink 版本1.9.0
部分日志如下:
```
2020-08-24 15:11:31,566 INFO org.apache.flink.runtime.jobmaster.JobMaster
- Could not resolve ResourceManager address
akka.tcp://flink@hostname:16098/user/resourcemanager, r
18 matches
Mail list logo