Flink SQL 有办法access State吗

2021-12-13 文章 Pinjie Huang
之前的DataStream API 我们可以通过State进行一些复杂的逻辑。比如所有message的某个field的最大值。Flink SQL有类似的方法吗?

Re: [DISCUSS] Change some default config values of blocking shuffle

2021-12-13 文章 Jingsong Li
Hi Yingjie, Thanks for your explanation. I have no more questions. +1 On Tue, Dec 14, 2021 at 3:31 PM Yingjie Cao wrote: > > Hi Jingsong, > > Thanks for your feedback. > > >>> My question is, what is the maximum parallelism a job can have with the > >>> default configuration? (Does this break o

Re: [DISCUSS] Change some default config values of blocking shuffle

2021-12-13 文章 Yingjie Cao
Hi Jingsong, Thanks for your feedback. >>> My question is, what is the maximum parallelism a job can have with the default configuration? (Does this break out of the box) Yes, you are right, these two options are related to network memory and framework off-heap memory. Generally, these changes w

Re: [DISCUSS] Change some default config values of blocking shuffle

2021-12-13 文章 Jingsong Li
Hi Yingjie, +1 for this FLIP. I'm pretty sure this will greatly improve the ease of batch jobs. Looks like "taskmanager.memory.framework.off-heap.batch-shuffle.size" and "taskmanager.network.sort-shuffle.min-buffers" are related to network memory and framework.off-heap.size. My question is, wha

Re: BroadcastConnectedStream处理顺序问题

2021-12-13 文章 yidan zhao
应该在open中做全量数据的初始化。然后broadcastState做增量的更新。 Caizhi Weng 于2021年12月14日周二 09:50写道: > Hi! > > 可以看一下 event time temporal join [1] 是否满足需求。 > > [1] > > https://nightlies.apache.org/flink/flink-docs-release-1.13/zh/docs/dev/table/sql/queries/joins/#event-time-temporal-join > > casel.chen 于2021年12月12日周日 1

Re: [DISCUSS] Change some default config values of blocking shuffle

2021-12-13 文章 Yingjie Cao
Hi Jiangang, Thanks for your suggestion. >>> The config can affect the memory usage. Will the related memory configs be changed? I think we will not change the default network memory settings. My best expectation is that the default value can work for most cases (though may not the best) and for

Re: [DISCUSS] Change some default config values of blocking shuffle

2021-12-13 文章 Yingjie Cao
Hi Yun, Thanks for your feedback. I think setting taskmanager.network.sort-shuffle.min-parallelism to 1 and using sort-shuffle for all cases by default is a good suggestion. I am not choosing this value mainly because two reasons: 1. The first one is that it increases the usage of network memory

????

2021-12-13 文章 GY.Nan

Re: BroadcastConnectedStream处理顺序问题

2021-12-13 文章 Caizhi Weng
Hi! 可以看一下 event time temporal join [1] 是否满足需求。 [1] https://nightlies.apache.org/flink/flink-docs-release-1.13/zh/docs/dev/table/sql/queries/joins/#event-time-temporal-join casel.chen 于2021年12月12日周日 11:12写道: > 有一个场景是通过一张mysql的控制表来控制kafka流中的元素分流到不同下游sink,例如事实表的kafka和维表hbase等。 > 可我发现BroadcastConn

Re: Flink 升级到1.13.2后出现新的问题

2021-12-13 文章 Caizhi Weng
Hi! 从 Flink 1.13 开始,引入了新的时间类型 timestamp_ltz,对应一个时间点,可以认为是 Java 的 Interval。之间的时间类型 timestamp 可以认为对应一个字符串。具体区别详见 [1]。 现在 current_timestamp 函数会返回 timestamp_ltz,不能直接和 timestamp 类型做运算。 [1] https://nightlies.apache.org/flink/flink-docs-master/zh/docs/dev/table/timezone/ Pinjie Huang 于2021年12月13日周一 1

flinksql source 算子并行度与数据分发策略

2021-12-13 文章 janke
您好,目前flinkSQL KafkaConnector目前不支持Source算子并行度配置以及数据分发策略选择: 导致的问题: 1、当并行度 > source中间件消息分区时, 超出的部分会空跑占用资源 2、假设: 并行度>消息分区, source vertex: Source: TableSourceScan->Calc(select…); 当Calc(select..)为cpu密集(json解析)算子,其将会成为任务的性能瓶颈,Calc算子无法享受到扩容带来的资源(超出kafka分区的并发没有数据流入)。 请问下目前社区有没有现有的 / 计划中的解决方案?

flinksql source 算子并行度与数据分发策略

2021-12-13 文章 吴Janick
您好,目前flinkSQL KafkaConnector目前不支持Source算子并行度配置以及数据分发策略选择: 导致的问题: 1、当并行度 > source中间件消息分区时, 超出的部分会空跑占用资源 2、假设: 并行度>消息分区, source vertex: Source: TableSourceScan->Calc(select…); 当Calc(select..)为cpu密集(json解析)算子,其将会成为任务的性能瓶颈,Calc算子无法享受到扩容带来的资源(超出kafka分区的并发没有数据流入)。 请问下目前社区有没有现有的 / 计划中的解决方案?

flinksql source 算子并行度与数据分发策略

2021-12-13 文章 吴Janick
您好,目前flinkSQL KafkaConnector目前不支持Source算子并行度配置以及数据分发策略选择: 导致的问题: 1、当并行度 > source中间件消息分区时, 超出的部分会空跑占用资源 2、假设: 并行度>消息分区, source vertex: Source: TableSourceScan->Calc(select…); 当Calc(select..)为cpu密集(json解析)算子,其将会成为任务的性能瓶颈,Calc算子无法享受到扩容带来的资源(超出kafka分区的并发没有数据流入)。 请问下目前社区有没有现有的 / 计划中的解决方案?