可以考虑增加一层预聚合,参考这里的count distinct:
https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/tuning/

焦童 <asd994144...@gmail.com> 于2024年8月27日周二 11:07写道:

> hello all,
> 我在使用flink sql 进行数据处理的时候遇到了如下问题:Flink
> 算子节点存在数据倾斜,但是并非数据量倾斜,而是数据大小倾斜,这是因为每天会存在一些特殊的数据,此类数据是相同分组 id,因此会进入同一个
> subtask 中,从而导致 subtask busy,但是并非每天相同 id,但是此类数据属于正常数据。该算子join之后会进入 udf
> 函数中进行复杂的业务逻辑整合和计算,因此个人认为这也是导致该 subtask busy
> 的一个主要原因。针对此类问题,希望各位有什么比较好的解决方案吗。谢谢
> Flink 版本:1.11
>

回复