感谢您的回复,checkpoint使用的rocksDB,现在查看GC日志得到以下信息,堆内存使用正常,线程数使用在500左右,线程回收,但是线程占用的内存好像并没有回收掉。
在 2019/8/27 下午5:02,“Xintong Song”<tonysong...@gmail.com> 写入: 你用的是heap state backend吗?可以看下checkpoint size是否持续在增大,如果是的话很可能就是state增大导致的。作业运行后,随着处理的数据越来越多,state的key数量也会越来越多,大小随之增大。解决方案要么是改用RocksDB,要么是把tm内存配大为state增大留出富裕。 另外,如果checkpoint size持续增长没有趋于平缓的趋势,那么也可能state的使用有问题。 如果观察到不是state的问题,那么可能需要dump下tm的内存,看看是否哪里有内存泄露的情况。 Thank you~ Xintong Song On Mon, Aug 26, 2019 at 10:46 AM 张坤 <kun.zh...@okcoin.net> wrote: > Hi: > > 最近在使用Flink(1.7.2)提交任务到yarn(per > job),任务在yarn上运行几个小时就会被kill掉,观察到任务的内存一直在增长,任务提交时有内存参数设置,任务逻辑为kafka数据简单处理后,注册成table,使用窗口聚合, > > 大家有没有遇到类似的问题,原因是什么?怎么解决或者优化?谢谢! > >