subject:"Kafka 数据源无法实现基于事件时间的窗口聚合"

Re: Re: Kafka 数据源无法实现基于事件时间的窗口聚合

2023-02-08 文章 yidan zhao

riginal Email > > > > Sender:"Weihua Hu"< huweihua....@gmail.com >; > > Sent Time:2023/2/7 18:48 > > To:"user-zh"< user-zh@flink.apache.org >; > > Subject:Re: Kafka 数据源无法实现基于事件时间的窗口聚合 > > > Hi, > > 问题应该是 kafka source 配置

回复： Kafka 数据源无法实现基于事件时间的窗口聚合

2023-02-07 文章 drewfranklin

Hi ,应该是Kafka 可能存在空闲分区，如果只是partition 数量少于并发数的话，并不会影响水位推进，只是会浪费资源。默认程序不指定并行度，使用电脑cpu 核数。如果是table api 的话，可以添加如下参数解决，table.exec.source.idle-timeout | | 飞雨 | | bigdata drewfrank...@126.com | 回复的原邮件 | 发件人 | Weihua Hu | | 发送日期 | 2023年02月7日 18:48 | | 收件人 | | | 主题 | Re: Kafka 数据源无法实现基于事件

Re: Kafka 数据源无法实现基于事件时间的窗口聚合

2023-02-07 文章 Weihua Hu

Hi, 问题应该是 kafka source 配置了多并发运行，但数据量比较少（或者 topic 的 partition 数量小于 task 的并发数量），不是所有的 source task 都消费到了数据并产生 watermark，导致下游聚合算子无法对齐 watermark 触发计算。可以尝试通过以下办法解决： 1. 将 source 并发控制为 1 2. 为 watermark 策略开始 idleness 处理，参考 [#1] fromElement 数据源会强制指定并发为 1 [#1] https://nightlies.apache.org/flink/flink-docs