Re: Flink 1.11版本LeaseRenewer线程不释放

zilong xiao Mon, 07 Dec 2020 19:05:45 -0800

附一张有问题container的线程监控图
[image: image.png]

zilong xiao <acidzz...@gmail.com> 于2020年12月8日周二 上午11:03写道：


> Hi Paul,
>     线程名称是一模一样的，都是user1@cluserA，HDFS client版本对于用户来说是透明的，作业使用的是Flink
> 1.11版本，该Flink版本使用HDFS版本好像是2.8.1，在Flink中和集群有持续交互的就只能想到checkpoint，开了DEBUG日志也没能找到root
> cause。。
>
>     另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解，作业只能提交到一个具体的集群吧？
>
> Paul Lam <paullin3...@gmail.com> 于2020年12月8日周二 上午10:45写道：
>
>> 我记得 LeaseRenewer 是 JVM 级别的，线程个数应该和用到的 HDFS 集群数目相同。
>>
>> 你看看它们具体的线程名是不是完全相同（比如都是 user1@cluserA）？还有 HDFS client 的版本是什么？
>>
>> Best,
>> Paul Lam
>>
>> > 2020年12月7日 18:11，zilong xiao <acidzz...@gmail.com> 写道：
>> >
>> > 在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread
>> Dump发现有很多名为LeaseRenewer
>> > 的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经历的小伙伴呢？
>> >
>> > Flink version: 1.11
>> > State backend：filesystem
>> > checkpoint interval: 60s
>>
>>

Re: Flink 1.11版本LeaseRenewer线程不释放

回复