Re: Re: Kafka 数据源无法实现基于事件时间的窗口聚合

2023-02-08 文章 yidan zhao
riginal Email > > > > Sender:"Weihua Hu"< huweihua....@gmail.com >; > > Sent Time:2023/2/7 18:48 > > To:"user-zh"< user-zh@flink.apache.org >; > > Subject:Re: Kafka 数据源无法实现基于事件时间的窗口聚合 > > > Hi, > > 问题应该是 kafka source 配置

回复: Kafka 数据源无法实现基于事件时间的窗口聚合

2023-02-07 文章 drewfranklin
Hi ,应该是Kafka 可能存在空闲分区,如果只是partition 数量少于并发数的话,并不会影响水位推进,只是会浪费资源。默认程序不指定并行度,使用电脑cpu 核数。 如果是table api 的话,可以添加如下参数解决,table.exec.source.idle-timeout | | 飞雨 | | bigdata drewfrank...@126.com | 回复的原邮件 | 发件人 | Weihua Hu | | 发送日期 | 2023年02月7日 18:48 | | 收件人 | | | 主题 | Re: Kafka 数据源无法实现基于事件

Re: Kafka 数据源无法实现基于事件时间的窗口聚合

2023-02-07 文章 Weihua Hu
Hi, 问题应该是 kafka source 配置了多并发运行,但数据量比较少(或者 topic 的 partition 数量小于 task 的并发数量),不是所有的 source task 都消费到了数据并产生 watermark,导致下游聚合算子无法对齐 watermark 触发计算。 可以尝试通过以下办法解决: 1. 将 source 并发控制为 1 2. 为 watermark 策略开始 idleness 处理,参考 [#1] fromElement 数据源会强制指定并发为 1 [#1] https://nightlies.apache.org/flink/flink-docs