猜测是两个JM同时都在向ZK的rest_service_lock节点上写入自身地址,导致Flink客户端的任务有的提交到了一个JM,另一些任务提交到了另一个JM
通过手动修改ZK节点可以复现上述情况。 无法只通过重启ZK完全复现当时的集群, 不清楚上述情况的根本原因,是否有相似BUG出现 ---- 回复的原邮件 ---- | 发件人 | Zhanghao Chen<zhanghao.c...@outlook.com> | | 日期 | 2024年07月13日 12:41 | | 收件人 | user-zh@flink.apache.org | | 抄送至 | | | 主题 | Re: Flink Standalone-ZK-HA模式下,CLi任务提交 | 从日志看,ZK 集群滚动的时候发生了切主,两个 JM 都先后成为过 Leader,但是并没有同时是 Leader。 Best, Zhanghao Chen ________________________________ From: love_h1...@126.com <love_h1...@126.com> Sent: Friday, July 12, 2024 17:17 To: user-zh@flink.apache.org <user-zh@flink.apache.org> Subject: Flink Standalone-ZK-HA模式下,CLi任务提交 版本:Flink 1.11.6版本,Standalone HA模式,ZooKeeper 3.5.8版本 操作: 1. 只cancel了所有正在运行的Job,没有Stop Flink集群 2. 滚动重启Zookeeper集群 3. 使用 Flink run 命令提交多个Job 现象: 1. 部分Job提交失败,错误信息为 The rpc invocation size 721919700 exceeds the maximum akka framesize. 2. Flink 集群有两个JobManager节点的日志中出现了任务接收和执行的信息 疑问: 1. 使用Flink run 命令提交任务会提交到Flink 集群中的两个JobManager节点么 2. 重启Zookeeper集群会导致Flink集群中出现两个Leader角色的JobManager,这是否是一个特殊场景下的BUG