附一张有问题container的线程监控图 [image: image.png] zilong xiao <acidzz...@gmail.com> 于2020年12月8日周二 上午11:03写道:
> Hi Paul, > 线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink > 1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了DEBUG日志也没能找到root > cause。。 > > 另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解,作业只能提交到一个具体的集群吧? > > Paul Lam <paullin3...@gmail.com> 于2020年12月8日周二 上午10:45写道: > >> 我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用到的 HDFS 集群数目相同。 >> >> 你看看它们具体的线程名是不是完全相同(比如都是 user1@cluserA)?还有 HDFS client 的版本是什么? >> >> Best, >> Paul Lam >> >> > 2020年12月7日 18:11,zilong xiao <acidzz...@gmail.com> 写道: >> > >> > 在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread >> Dump发现有很多名为LeaseRenewer >> > 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原因,不知道社区是否有类似经历的小伙伴呢? >> > >> > Flink version: 1.11 >> > State backend:filesystem >> > checkpoint interval: 60s >> >>