hello all,
我在使用flink sql 进行数据处理的时候遇到了如下问题:Flink
算子节点存在数据倾斜,但是并非数据量倾斜,而是数据大小倾斜,这是因为每天会存在一些特殊的数据,此类数据是相同分组 id,因此会进入同一个 subtask
中,从而导致 subtask busy,但是并非每天相同 id,但是此类数据属于正常数据。该算子join之后会进入 udf
函数中进行复杂的业务逻辑整合和计算,因此个人认为这也是导致该 subtask busy 的一个主要原因。针对此类问题,希望各位有什么比较好的解决方案吗。谢谢
Flink 版本:1.11
在Flink SQL 中如何将 retract 流中-D、-U 直接过滤 只下发+I 和
+U数据,通过写udf可以做到吗,那在udf中怎么判断当前数据是什么类型呢(+I or -D?)
谢谢你的建议 但是top-1也会产生回撤信息
> 2024年4月30日 15:27,ha.fen...@aisino.com 写道:
>
> 可以参考这个
> https://nightlies.apache.org/flink/flink-docs-release-1.19/zh/docs/dev/table/sql/queries/deduplication/
> 1.11版本不知道是不是支持
>
> From: 焦童
> Date: 2024-04-30 11:25
> To: user-zh
> Subjec
Hello ,
我使用Flink 1.11 版本 sql 进行数据去重(通过 group by
形式)但是这会产生回撤流,下游存储不支持回撤流信息仅支持append,在DataStream
中我可以通过状态进行去重,但是在sql中如何做到去重且不产生回撤流呢。谢谢各位