关于standalone集群中JobManager进程卡顿的问题

赵一旦 Tue, 24 Nov 2020 18:53:56 -0800

如题，standalone集群，目前我部署的模式都是所有机器同时启动jobmanager(StandaloneSessionClusterEntrypoint)+taskmanager。


问题是发布任务，取消任务等操作的时候FlinkWebUI很卡顿，有时候仅卡顿之后恢复正常，有时候则可能导致整个集群直接多个结点陆续失效（slot变少，有时候会自动变回来，估计是网络问题）。

（1）请问，这个是因为JobManager进程所在机器性能问题嘛，如果我单独一台机器跑JobManager会不会好一点。
（2）之前我提过个问题，当时主要是说关于HA问题，讲的是zk的进程失败导致任务全部重启的问题。
这里希望有人帮忙总结下，Flink standalone集群，<1> Jobmanager进程失败（但没有全部失败，多个JobManager有）
<2> ZK进程失败（但不影响ZK服务，比如3结点只失败1个，并且这1个可能是leader结点） <3>
TaskManager进程失败对任务的影响是怎么样的。


对于<3>，目前我采用slot-spread那种策略，所以基本失败一个tm，任务肯定都全部自动基于最新ckpt重启，这个我接受，没啥问题。
那么对于<1>和<2>的理论表现是什么呢？

目前没做过多实验，但之前遇到过的，最起码<2>情况下导致过整个集群出问题（比如任务全部吃重启等）。

关于standalone集群中JobManager进程卡顿的问题

回复