Re: 数据大小倾斜，数据量不倾斜

Jiangang Liu Tue, 27 Aug 2024 04:47:52 -0700

可以考虑增加一层预聚合，参考这里的count distinct：
https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/tuning/


焦童 <[email protected]> 于2024年8月27日周二 11:07写道：

> hello all，
> 我在使用flink sql 进行数据处理的时候遇到了如下问题：Flink
> 算子节点存在数据倾斜，但是并非数据量倾斜，而是数据大小倾斜，这是因为每天会存在一些特殊的数据，此类数据是相同分组 id，因此会进入同一个
> subtask 中，从而导致 subtask busy，但是并非每天相同 id，但是此类数据属于正常数据。该算子join之后会进入 udf
> 函数中进行复杂的业务逻辑整合和计算，因此个人认为这也是导致该 subtask busy
> 的一个主要原因。针对此类问题，希望各位有什么比较好的解决方案吗。谢谢
> Flink 版本：1.11
>

Re: 数据大小倾斜，数据量不倾斜

回复