Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-23 文章 yuanfeng hu


> 2024年1月18日 14:59,fufu  写道:
> 
> 看hdfs上shard文件比chk-xxx要大很多。
> 
> 
> 
> 在 2024-01-18 14:49:14,"fufu"  写道:
> 
> 是datastream作业,窗口算子本身没有设置TTL,其余算子设置了TTL,是在Flink 
> UI上看到窗口算子的size不断增大,一天能增加个600~800M,持续不断的增大。以下图为例:ID为313的cp比ID为304的大了将近10M,一直运行,会一直这么增加下去。cp文件和rocksdb文件正在看~
> 
> 在 2024-01-18 10:56:51,"Zakelly Lan"  写道:
> 
>> 你好,能提供一些详细的信息吗,比如:是datastream作业吧?是否设置了State
>> TTL?观测到逐渐变大是通过checkpoint监控吗,总量是什么级别。cp文件或者本地rocksdb目录下哪些文件最大
>> 
>> On Wed, Jan 17, 2024 at 4:09 PM fufu  wrote:
>> 
>>> 
>>> 我有一个Flink任务,使用的是flink1.14.6版本,任务中有一个增量(AggregateFunction)+全量(ProcessWindowFunction)的窗口,任务运行的时候这个算子的状态在不断增大,每天能增大个几百M这种,这个问题怎么排查?使用的事件时间,水位线下发正常,其余的算子都正常,就这个算子在不断增长,非常诡异。在网上搜到一个类似的文章:
>>> https://blog.csdn.net/RL_LEEE/article/details/123864487,想尝试下,但不知道manifest大小如何设置,没有找到对应的参数,
>>> 请社区指导下,或者有没有别的解决方案?感谢社区!
Manifest  
文件是会一直增大的,flink没有提供参数给你设置,如果需要设置的话需要实现ConfigurableRocksDBOptionsFactory,在我们的实践中合理设置manifest大小是对checkpoint大小有作用的

Re: Re:Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-17 文章 Zakelly Lan
图挂了看不到,不然你把文字信息简单复制下来看看?
另外你的ProcessWindowFunction里是否会访问state,如果访问了,是否实现了clear方法?

On Thu, Jan 18, 2024 at 3:01 PM fufu  wrote:

> 看hdfs上shard文件比chk-xxx要大很多。
>
>
>
> 在 2024-01-18 14:49:14,"fufu"  写道:
>
> 是datastream作业,窗口算子本身没有设置TTL,其余算子设置了TTL,是在Flink
> UI上看到窗口算子的size不断增大,一天能增加个600~800M,持续不断的增大。以下图为例:ID为313的cp比ID为304的大了将近10M,一直运行,会一直这么增加下去。cp文件和rocksdb文件正在看~
>
> 在 2024-01-18 10:56:51,"Zakelly Lan"  写道:
>
> >你好,能提供一些详细的信息吗,比如:是datastream作业吧?是否设置了State
> >TTL?观测到逐渐变大是通过checkpoint监控吗,总量是什么级别。cp文件或者本地rocksdb目录下哪些文件最大
> >
> >On Wed, Jan 17, 2024 at 4:09 PM fufu  wrote:
> >
> >>
> >>
> 我有一个Flink任务,使用的是flink1.14.6版本,任务中有一个增量(AggregateFunction)+全量(ProcessWindowFunction)的窗口,任务运行的时候这个算子的状态在不断增大,每天能增大个几百M这种,这个问题怎么排查?使用的事件时间,水位线下发正常,其余的算子都正常,就这个算子在不断增长,非常诡异。在网上搜到一个类似的文章:
> >> https://blog.csdn.net/RL_LEEE/article/details/123864487
> ,想尝试下,但不知道manifest大小如何设置,没有找到对应的参数,
> >> 请社区指导下,或者有没有别的解决方案?感谢社区!
>


Re:Re:Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-17 文章 fufu
看hdfs上shard文件比chk-xxx要大很多。



在 2024-01-18 14:49:14,"fufu"  写道:

是datastream作业,窗口算子本身没有设置TTL,其余算子设置了TTL,是在Flink 
UI上看到窗口算子的size不断增大,一天能增加个600~800M,持续不断的增大。以下图为例:ID为313的cp比ID为304的大了将近10M,一直运行,会一直这么增加下去。cp文件和rocksdb文件正在看~

在 2024-01-18 10:56:51,"Zakelly Lan"  写道:

>你好,能提供一些详细的信息吗,比如:是datastream作业吧?是否设置了State
>TTL?观测到逐渐变大是通过checkpoint监控吗,总量是什么级别。cp文件或者本地rocksdb目录下哪些文件最大
>
>On Wed, Jan 17, 2024 at 4:09 PM fufu  wrote:
>
>>
>> 我有一个Flink任务,使用的是flink1.14.6版本,任务中有一个增量(AggregateFunction)+全量(ProcessWindowFunction)的窗口,任务运行的时候这个算子的状态在不断增大,每天能增大个几百M这种,这个问题怎么排查?使用的事件时间,水位线下发正常,其余的算子都正常,就这个算子在不断增长,非常诡异。在网上搜到一个类似的文章:
>> https://blog.csdn.net/RL_LEEE/article/details/123864487,想尝试下,但不知道manifest大小如何设置,没有找到对应的参数,
>> 请社区指导下,或者有没有别的解决方案?感谢社区!


Re:Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-17 文章 fufu
是datastream作业,窗口算子本身没有设置TTL,其余算子设置了TTL,是在Flink 
UI上看到窗口算子的size不断增大,一天能增加个600~800M,持续不断的增大。以下图为例:ID为313的cp比ID为304的大了将近10M,一直运行,会一直这么增加下去。cp文件和rocksdb文件正在看~

在 2024-01-18 10:56:51,"Zakelly Lan"  写道:

>你好,能提供一些详细的信息吗,比如:是datastream作业吧?是否设置了State
>TTL?观测到逐渐变大是通过checkpoint监控吗,总量是什么级别。cp文件或者本地rocksdb目录下哪些文件最大
>
>On Wed, Jan 17, 2024 at 4:09 PM fufu  wrote:
>
>>
>> 我有一个Flink任务,使用的是flink1.14.6版本,任务中有一个增量(AggregateFunction)+全量(ProcessWindowFunction)的窗口,任务运行的时候这个算子的状态在不断增大,每天能增大个几百M这种,这个问题怎么排查?使用的事件时间,水位线下发正常,其余的算子都正常,就这个算子在不断增长,非常诡异。在网上搜到一个类似的文章:
>> https://blog.csdn.net/RL_LEEE/article/details/123864487,想尝试下,但不知道manifest大小如何设置,没有找到对应的参数,
>> 请社区指导下,或者有没有别的解决方案?感谢社区!


Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-17 文章 Zakelly Lan
你好,能提供一些详细的信息吗,比如:是datastream作业吧?是否设置了State
TTL?观测到逐渐变大是通过checkpoint监控吗,总量是什么级别。cp文件或者本地rocksdb目录下哪些文件最大

On Wed, Jan 17, 2024 at 4:09 PM fufu  wrote:

>
> 我有一个Flink任务,使用的是flink1.14.6版本,任务中有一个增量(AggregateFunction)+全量(ProcessWindowFunction)的窗口,任务运行的时候这个算子的状态在不断增大,每天能增大个几百M这种,这个问题怎么排查?使用的事件时间,水位线下发正常,其余的算子都正常,就这个算子在不断增长,非常诡异。在网上搜到一个类似的文章:
> https://blog.csdn.net/RL_LEEE/article/details/123864487,想尝试下,但不知道manifest大小如何设置,没有找到对应的参数,
> 请社区指导下,或者有没有别的解决方案?感谢社区!


RocksDB增量模式checkpoint大小持续增长的问题

2024-01-17 文章 fufu
我有一个Flink任务,使用的是flink1.14.6版本,任务中有一个增量(AggregateFunction)+全量(ProcessWindowFunction)的窗口,任务运行的时候这个算子的状态在不断增大,每天能增大个几百M这种,这个问题怎么排查?使用的事件时间,水位线下发正常,其余的算子都正常,就这个算子在不断增长,非常诡异。在网上搜到一个类似的文章:https://blog.csdn.net/RL_LEEE/article/details/123864487,想尝试下,但不知道manifest大小如何设置,没有找到对应的参数,
 请社区指导下,或者有没有别的解决方案?感谢社区!