Hi, 我觉得这个也许可以先从业务上解决。比如你可以有另一个作业定期去 HDFS 上把过期的数据清理掉(比如半个月前的?)。
另外,我也开了一个 issue 去跟进这个问题,看看社区里面对这块比较熟的同学有没有更好的建议。FLINK-18357 <https://issues.apache.org/jira/browse/FLINK-18357> 我的一个初步的想法是,是否可以有一个 inactive-interval 去标记一个子目录已经不会有新文件产生了,这样 checkpoint 就不用跟踪这个子目录下的所有文件。 Best, Jark On Wed, 17 Jun 2020 at 14:04, star <3149768...@qq.com> wrote: > > > > env.readFile(format,path, FileProcessingMode.PROCESS_CONTINUOUSLY, 60000) > > > 上面是一个监控目录里的数据的source > format设置成递归监控一个父目录A , A下面是日期目录 ,如: > > > A/20200101/ > A/20200102/ > A/20200103/ > ....... > ....... > > > > 随着时间的增加,比如到6月需要监控近200个目录,每个目录又有500个文件,每次ck需要同步的状态就是200*500个文件的消费的offset,这样经常ck超时, > > > 请问这种可以清理历史状态吗,比如业务上知乎有近7天的目录才会有数据更新,历史的就可以不监控了。