riginal Email
>
>
>
> Sender:"Weihua Hu"< huweihua....@gmail.com >;
>
> Sent Time:2023/2/7 18:48
>
> To:"user-zh"< user-zh@flink.apache.org >;
>
> Subject:Re: Kafka 数据源无法实现基于事件时间的窗口聚合
>
>
> Hi,
>
> 问题应该是 kafka source 配置
Hi ,应该是Kafka 可能存在空闲分区,如果只是partition
数量少于并发数的话,并不会影响水位推进,只是会浪费资源。默认程序不指定并行度,使用电脑cpu 核数。
如果是table api 的话,可以添加如下参数解决,table.exec.source.idle-timeout
| |
飞雨
|
|
bigdata
drewfrank...@126.com
|
回复的原邮件
| 发件人 | Weihua Hu |
| 发送日期 | 2023年02月7日 18:48 |
| 收件人 | |
| 主题 | Re: Kafka 数据源无法实现基于事件
Hi,
问题应该是 kafka source 配置了多并发运行,但数据量比较少(或者 topic 的 partition 数量小于 task
的并发数量),不是所有的 source task 都消费到了数据并产生 watermark,导致下游聚合算子无法对齐 watermark 触发计算。
可以尝试通过以下办法解决:
1. 将 source 并发控制为 1
2. 为 watermark 策略开始 idleness 处理,参考 [#1]
fromElement 数据源会强制指定并发为 1
[#1]
https://nightlies.apache.org/flink/flink-docs