感谢您的回复,checkpoint使用的rocksDB,现在查看GC日志得到以下信息,堆内存使用正常,线程数使用在500左右,线程回收,但是线程占用的内存好像并没有回收掉。

在 2019/8/27 下午5:02,“Xintong Song”<tonysong...@gmail.com> 写入:

    你用的是heap state backend吗?可以看下checkpoint
    
size是否持续在增大,如果是的话很可能就是state增大导致的。作业运行后,随着处理的数据越来越多,state的key数量也会越来越多,大小随之增大。解决方案要么是改用RocksDB,要么是把tm内存配大为state增大留出富裕。
    
    另外,如果checkpoint size持续增长没有趋于平缓的趋势,那么也可能state的使用有问题。
    
    如果观察到不是state的问题,那么可能需要dump下tm的内存,看看是否哪里有内存泄露的情况。
    
    Thank you~
    
    Xintong Song
    
    
    
    On Mon, Aug 26, 2019 at 10:46 AM 张坤 <kun.zh...@okcoin.net> wrote:
    
    > Hi:
    >
    >        最近在使用Flink(1.7.2)提交任务到yarn(per
    > 
job),任务在yarn上运行几个小时就会被kill掉,观察到任务的内存一直在增长,任务提交时有内存参数设置,任务逻辑为kafka数据简单处理后,注册成table,使用窗口聚合,
    >
    > 大家有没有遇到类似的问题,原因是什么?怎么解决或者优化?谢谢!
    >
    >
    




回复