退订

2023-07-12 文章 wang
退订

Re: 如果DataSet API 被彻底废掉了,那我如何用DataStream实现分区、排序这个需求?

2023-07-12 文章 jinzhuguang
嗨你好,用于sort的中间数据是存储在状态后端当中吗,数据量很大的情况下。 > 2023年7月12日 19:48,weijie guo 写道: > > 你好, > 首先,Batch Shuffle 的中间数据都是会落盘的。其次,对于 Sort 这个操作来说,上面给出的解法和Dataset一致,都不会落盘。 > > Best regards, > > Weijie > > > jinzhuguang 于2023年7月12日周三 17:28写道: > >> 如果我的数据量很大,内存装不下,flink在batch >>

Re: 如果DataSet API 被彻底废掉了,那我如何用DataStream实现分区、排序这个需求?

2023-07-12 文章 weijie guo
你好, 首先,Batch Shuffle 的中间数据都是会落盘的。其次,对于 Sort 这个操作来说,上面给出的解法和Dataset一致,都不会落盘。 Best regards, Weijie jinzhuguang 于2023年7月12日周三 17:28写道: > 如果我的数据量很大,内存装不下,flink在batch > mode下的行为是否会像传统的批处理系统,例如hive那样,会进行shuffe、中间数据落盘等操作。 > > > 2023年7月12日 17:05,weijie guo 写道: > > > > >

Re: 如果DataSet API 被彻底废掉了,那我如何用DataStream实现分区、排序这个需求?

2023-07-12 文章 jinzhuguang
如果我的数据量很大,内存装不下,flink在batch mode下的行为是否会像传统的批处理系统,例如hive那样,会进行shuffe、中间数据落盘等操作。 > 2023年7月12日 17:05,weijie guo 写道: > > 你好,对于DataSet中不按照key进行全量聚合/排序的API(例如,sortPartition/mapPartition),DataStream上目前没有直接提供相同的API,但可以通过组合DataStream上现有的API实现相同的功能。 > 以mapPartition为例,可以通过以下三个步骤实现相同的功能: > 1.

Re: 如果DataSet API 被彻底废掉了,那我如何用DataStream实现分区、排序这个需求?

2023-07-12 文章 weijie guo
你好,对于DataSet中不按照key进行全量聚合/排序的API(例如,sortPartition/mapPartition),DataStream上目前没有直接提供相同的API,但可以通过组合DataStream上现有的API实现相同的功能。 以mapPartition为例,可以通过以下三个步骤实现相同的功能: 1. dataStream.map(record -> (subtaskIndex, record)),为每个Record增加处理该record时子任务编号。 2.

flink sql 传参数问题

2023-07-12 文章 1
Hello: 请教2个问题。 1、flink 使用sql-client.sh -f xx.sql 怎么传递参数修改sql里面的文件。比如MySQL,Kafka的连接地址。 2、flink sql消费Kafka 设置group-offset,group.id之前没提交过,会直接报错。怎么设置成没提交过从earliest消费等等。 感谢大家

Re: 如果DataSet API 被彻底废掉了,那我如何用DataStream实现分区、排序这个需求?

2023-07-12 文章 yuxia
Flink 社区在这个 thread 讨论了这个问题,之后会出一个 guideline 来帮助用户迁移 DataSet API [1] https://lists.apache.org/thread/r0y9syc6k5nmcxvnd0hj33htdpdj9k6m Best regards, Yuxia - 原始邮件 - 发件人: "jinzhuguang" 收件人: "user-zh" 发送时间: 星期二, 2023年 7 月 11日 下午 7:16:06 主题: 如果DataSet API 被彻底废掉了,那我如何用DataStream实现分区、排序这个需求?