subject:"Flink 1.11版本LeaseRenewer线程不释放"

Re: Flink 1.11版本LeaseRenewer线程不释放

2021-05-13 文章 zilong xiao

并没有定位到具体原因，只能靠重启作业缓解。。。 zhisheng 于2021年5月13日周四下午4:20写道： > 你好，这个问题后来定位到问题了吗？ > > 我们生产也有一个作业有这样的问题，Flink 版本是 1.10.0，这个作业是 JM 的线程数很多（快 6k），作业是 flink 读取 > Kafka，会关联 HBase ，开启了 Checkpoint，就这个作业有问题，很奇怪 > > https://tva1.sinaimg.cn/large/008i3skNgy1gqgvhdu674j31je0u0795.jpg > > zilong xiao 于2020年12月8日

Re: Flink 1.11版本LeaseRenewer线程不释放

2021-05-13 文章 zhisheng

你好，这个问题后来定位到问题了吗？我们生产也有一个作业有这样的问题，Flink 版本是 1.10.0，这个作业是 JM 的线程数很多（快 6k），作业是 flink 读取 Kafka，会关联 HBase ，开启了 Checkpoint，就这个作业有问题，很奇怪 https://tva1.sinaimg.cn/large/008i3skNgy1gqgvhdu674j31je0u0795.jpg zilong xiao 于2020年12月8日周二下午6:21写道： > 作业数据流是 kafka -> flink -> > http/prometheus，目前这类型的作业很多，但是就

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-08 文章 zilong xiao

作业数据流是 kafka -> flink -> http/prometheus，目前这类型的作业很多，但是就只有那几个有问题，而且是必现，每次都只能重启，然后看着线程数上涨。。我再debug看看~ Paul Lam 于2020年12月8日周二下午6:00写道： > Hi, > > 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话，的确是非常奇怪。 > > Best, > Paul Lam > > > 2020年12月8日 11:03，zilong xiao 写道： > > > > Hi Paul, > >

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-08 文章 Paul Lam

Hi, 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话，的确是非常奇怪。 Best, Paul Lam > 2020年12月8日 11:03，zilong xiao 写道： > > Hi Paul, >线程名称是一模一样的，都是user1@cluserA，HDFS client版本对于用户来说是透明的，作业使用的是Flink > 1.11版本，该Flink版本使用HDFS版本好像是2.8.1，在Flink中和集群有持续交互的就只能想到checkpoint，开了DEBUG日志也没能找到root > cau

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-07 文章 zilong xiao

附一张有问题container的线程监控图 [image: image.png] zilong xiao 于2020年12月8日周二上午11:03写道： > Hi Paul, > 线程名称是一模一样的，都是user1@cluserA，HDFS client版本对于用户来说是透明的，作业使用的是Flink > 1.11版本，该Flink版本使用HDFS版本好像是2.8.1，在Flink中和集群有持续交互的就只能想到checkpoint，开了DEBUG日志也没能找到root > cause。。 > > 另外您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-07 文章 zilong xiao

Hi Paul, 线程名称是一模一样的，都是user1@cluserA，HDFS client版本对于用户来说是透明的，作业使用的是Flink 1.11版本，该Flink版本使用HDFS版本好像是2.8.1，在Flink中和集群有持续交互的就只能想到checkpoint，开了DEBUG日志也没能找到root cause。。另外您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解，作业只能提交到一个具体的集群吧？ Paul Lam 于2020年12月8日周二上午10:45写道： > 我记得 LeaseRenewer 是 JVM 级别的，线程个数应该和用

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-07 文章 Paul Lam

我记得 LeaseRenewer 是 JVM 级别的，线程个数应该和用到的 HDFS 集群数目相同。你看看它们具体的线程名是不是完全相同（比如都是 user1@cluserA）？还有 HDFS client 的版本是什么？ Best, Paul Lam > 2020年12月7日 18:11，zilong xiao 写道： > > 在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread Dump发现有很多名为LeaseRenewer > 的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经

Flink 1.11版本LeaseRenewer线程不释放

2020-12-07 文章 zilong xiao

在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread Dump发现有很多名为LeaseRenewer 的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经历的小伙伴呢？ Flink version: 1.11 State backend：filesystem checkpoint interval: 60s

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Flink 1.11版本LeaseRenewer线程不释放

8 matches

Site Navigation

Mail list logo

Footer information