并没有定位到具体原因,只能靠重启作业缓解。。。
zhisheng 于2021年5月13日周四 下午4:20写道:
> 你好,这个问题后来定位到问题了吗?
>
> 我们生产也有一个作业有这样的问题,Flink 版本是 1.10.0,这个作业是 JM 的线程数很多(快 6k),作业是 flink 读取
> Kafka,会关联 HBase ,开启了 Checkpoint,就这个作业有问题,很奇怪
>
> https://tva1.sinaimg.cn/large/008i3skNgy1gqgvhdu674j31je0u0795.jpg
>
> zilong xiao 于2020年12月8日
你好,这个问题后来定位到问题了吗?
我们生产也有一个作业有这样的问题,Flink 版本是 1.10.0,这个作业是 JM 的线程数很多(快 6k),作业是 flink 读取
Kafka,会关联 HBase ,开启了 Checkpoint,就这个作业有问题,很奇怪
https://tva1.sinaimg.cn/large/008i3skNgy1gqgvhdu674j31je0u0795.jpg
zilong xiao 于2020年12月8日周二 下午6:21写道:
> 作业数据流是 kafka -> flink ->
> http/prometheus,目前这类型的作业很多,但是就
作业数据流是 kafka -> flink ->
http/prometheus,目前这类型的作业很多,但是就只有那几个有问题,而且是必现,每次都只能重启,然后看着线程数上涨。。 我再debug看看~
Paul Lam 于2020年12月8日周二 下午6:00写道:
> Hi,
>
> 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话,的确是非常奇怪。
>
> Best,
> Paul Lam
>
> > 2020年12月8日 11:03,zilong xiao 写道:
> >
> > Hi Paul,
> >
Hi,
我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话,的确是非常奇怪。
Best,
Paul Lam
> 2020年12月8日 11:03,zilong xiao 写道:
>
> Hi Paul,
>线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink
> 1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了DEBUG日志也没能找到root
> cau
附一张有问题container的线程监控图
[image: image.png]
zilong xiao 于2020年12月8日周二 上午11:03写道:
> Hi Paul,
> 线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink
> 1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了DEBUG日志也没能找到root
> cause。。
>
> 另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解
Hi Paul,
线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink
1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了DEBUG日志也没能找到root
cause。。
另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解,作业只能提交到一个具体的集群吧?
Paul Lam 于2020年12月8日周二 上午10:45写道:
> 我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用
我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用到的 HDFS 集群数目相同。
你看看它们具体的线程名是不是完全相同(比如都是 user1@cluserA)?还有 HDFS client 的版本是什么?
Best,
Paul Lam
> 2020年12月7日 18:11,zilong xiao 写道:
>
> 在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread Dump发现有很多名为LeaseRenewer
> 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原因,不知道社区是否有类似经
在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread Dump发现有很多名为LeaseRenewer
的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原因,不知道社区是否有类似经历的小伙伴呢?
Flink version: 1.11
State backend:filesystem
checkpoint interval: 60s