Re: flink1.10.1/1.11.1 使用sql 进行group 和时间窗口操作后状态越来越大

Congxian Qiu Wed, 05 Aug 2020 00:31:39 -0700

Hi op
   这个情况比较奇怪。我想确认下：
   1）你所有作业都遇到 checkpoint size 不断变大的情况，还是只有这个类型的作业遇到这个问题呢？
   2）是否尝试过 RocksDBStateBackend 呢（全量和增量）？情况如何呢


   另外，你 TTL 其他的配置是怎么设置的呢？

从原理上来说，checkpoint 就是 state 的一个快照，如果 checkpoint 越来越大，那么就是 state 越来越多。
Best,
Congxian


op <520075...@qq.com> 于2020年8月5日周三 下午2:46写道：

> &nbsp; &nbsp;
> 你好，我使用的是FsStateBackend&nbsp;状态后端，调到5分钟也是一样，看了下checkpoint花费的时间都在300ms左右，我们的业务数据量每天基本一样，
> &nbsp; &nbsp;设置空闲状态清理时间为1440minute，按道理运行一天以后状态大小会趋于平稳，但是目前运行了5天，
> &nbsp; &nbsp;观察到的checkpoint shared 目录大小一直在增加，也确认过group
> by的key只会在处理当天出现，就是说这天的状态当天过后就会处于空闲状态，
> &nbsp; &nbsp;运行5天能满足清理条件
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> qcx978132...@gmail.com&gt;;
> 发送时间:&nbsp;2020年8月3日(星期一) 下午5:50
> 收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;
>
> 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
>
>
>
> Hi
> &nbsp;&nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢？从 shared
> 目录的数据量看，有增长，后续基本持平。现在
> Checkpointed Data Size 是增量的大小[1]，而不是整个 checkpoint 的数据量的大小，如果 checkpoint
> 之间，数据改动很多的话，这个值会变大
>
> [1]
>
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
> Best,
> Congxian
>
>
> op <520075...@qq.com&gt; 于2020年8月3日周一 下午2:18写道：
>
> &gt; &amp;nbsp; &amp;nbsp;
> &gt; 同问，我也遇到了状态越来越大的情况，使用的是1.11.0版本，用hdfs保存checkpoint，checkpoint间隔3分钟，
> &gt; 逻辑是按照 事件day 和 id 进行groupby
> &gt; 然后有十几个聚合指标，运行了7天左右，状态一直在增加，设置了失效时间，然后watermark看着也正常在走
> &gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
> &gt; Time.minutes(1440+10))
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
> &gt; 发件人:
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> &nbsp; "user-zh"
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> &nbsp; <
> &gt; 384939...@qq.com&amp;gt;;
> &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 中午1:50
> &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@flink.apache.org&amp;gt;;
> &gt;
> &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
> &gt;
> &gt;
> &gt;
> &gt; hi，您好：
> &gt; 我改回增量模式重新收集了一些数据：
> &gt; 1、数据处理速度：3000条每秒，是测试环境的，压力比较稳定，几乎没有波动
> &gt; 2、checkpoint是interval设置的是5秒
> &gt; 3、目前这个作业是每分钟一个窗口
> &gt; 4、并行度设置的1，使用on-yarn模式
> &gt;
> &gt; 刚启动的时候，如下：
> &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;gt;
> &gt;
> &gt; 18分钟后，如下：
> &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;gt;
> &gt;
> &gt; checkpoints设置：
> &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;gt;
> &gt;
> &gt; hdfs上面大小：
> &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;gt;
> &gt;
> &gt; 页面上看到的大小：
> &gt; <
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt
> ;
> &gt;
> &gt;
> &gt; Congxian Qiu wrote
> &gt; &amp;gt; Hi&amp;nbsp;&amp;nbsp; 鱼子酱
> &gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 能否把在使用增量 checkpoint
> 的模式下，截图看一下 checkpoint
> &gt; size 的走势呢？另外可以的话，也麻烦你在每次
> &gt; &amp;gt; checkpoint 做完之后，到 hdfs 上 ls 一下 checkpoint 目录的大小。
> &gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> 另外有一个问题还需要回答一下，你的处理速度大概是多少，state 的更新频率能否评估一下呢？
> &gt; &amp;gt;
> &gt; &amp;gt; Best,
> &gt; &amp;gt; Congxian
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; 鱼子酱 <
> &gt;
> &gt; &amp;gt; 384939718@
> &gt;
> &gt; &amp;gt;&amp;gt; 于2020年7月30日周四 上午10:43写道：
> &gt; &amp;gt;
> &gt; &amp;gt;&amp;gt; 感谢！
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt; flink1.11.1版本里面，我尝试了下面两种backend，目前运行了20多个小时，
> &gt; &amp;gt;&amp;gt; 能够看到状态的大小在一个区间内波动，没有发现一直增长的情况了。
> &gt; &amp;gt;&amp;gt; StateBackend backend =new
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt;
> RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &amp;gt;&amp;gt; StateBackend backend =new
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt;
> FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt; 这样看，有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
> &gt; &amp;gt;&amp;gt; RocksDBStateBackend：
> &gt; &amp;gt;&amp;gt; &amp;amp;lt;
> &gt; http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt
> ;
> &gt; &amp;gt;&amp;gt; FsStateBackend：
> &gt; &amp;gt;&amp;gt; &amp;amp;lt;
> &gt; http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt
> ;
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt; --
> &gt; &amp;gt;&amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/
> &gt <http://apache-flink.147419.n8.nabble.com/&gt>; &amp;gt;&amp;gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; --
> &gt; Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

回复

Re: flink1.10.1/1.11.1 使用sql 进行group 和时间窗口操作后状态越来越大