答复: Upsert Kafka 的format 为什么要求是INSERT-ONLY的

2021-03-14 文章 刘首维
Hi Shengkai, 感谢回复 让我理解一下: 在ChangelogNormalize中 1. Rowkind是未生效的 2. null表达墓碑 3. 保存全量数据的overhead 如果我的理解是对的,那么假设遇到了不论是+u i,还是-u,d 都会被理解为是一次insert,从而促使下游emit record? 我们现在有若干自定义的Format,如果为了适配Upsert Kafka,format需要对d,(-u) 事件发射value == null的Record吗 ___

flink1.12版本,使用yarn-application模式提交任务失败

2021-03-14 文章 todd
通过脚本提交flink作业,提交命令: /bin/flink run-application -t yarn-application -Dyarn.provided.lib.dirs="hdfs://xx/flink120/" hdfs://xx/flink-example.jar --sqlFilePath /xxx/kafka2print.sql flink使用的Lib及user jar已经上传到Hdfs路径,但是抛出以下错误: --- The program fin

Re: Upsert Kafka 的format 为什么要求是INSERT-ONLY的

2021-03-14 文章 Shengkai Fang
Hi. 当初的设计是基于kafka的compacted topic设计的,而compacted topic有自身的表达changelog的语法,例如:使用value 为 null 表示tombstone message。从这个角度出发的话,我们仅从kafka的角度去理解数据,而非从format的角度去解析数据。 这当然引入了一些问题,例如当利用upsert-kafka读取数据的时候需要维护一个state以记住读取的所有的key。 Best, Shengkai 刘首维 于2021年3月15日周一 上午11:48写道: > Hi all, > > > > 最近在测试Upser

回复:1.12 yarn-per-job提交作业失败

2021-03-14 文章 smq
感谢解答 -- 原始邮件 -- 发件人: Paul Lam https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#yarn-application-queue ; Best, Paul L

回复:1.12 yarn-per-job提交作业失败

2021-03-14 文章 smq
多谢回答 -- 原始邮件 -- 发件人: Paul Lam https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#yarn-application-queue ; Best, Paul L

Re: 1.12 yarn-per-job提交作业失败

2021-03-14 文章 Paul Lam
从 Flink 1.12 开始,-yqu 等 YARN 相关的参数被移除了,可以使用 [1] 来代替。 [1 ]https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#yarn-application-queue Best, Paul Lam > 2021

Upsert Kafka 的format 为什么要求是INSERT-ONLY的

2021-03-14 文章 刘首维
Hi all, 最近在测试Upsert Kafka,在验证的过程中,发现Validation的时候要求format的changelog-mode 必须是insert-only的,请问这是什么原因呢。 如果不是的话,请直接指正我,谢谢。 Flink version 1.12.1

Flink sql 实现全局row_number()分组排序

2021-03-14 文章 Tian Hengyu
在做实时数仓的时候,有需求要使用flink sql实现全局的row_number(),请教下各位有啥方案吗? 目前想的是,将流进行row number处理后存储到hbase中,然后每次处理流数据都和hbase进行关联,row_number处理后将最新结果存入hbase中,即通过对hbase的实时读写实现全局row_number(). 请问以上方法可行不,,实时读hbase关联,然后在写入最新数据到hbase,效率会有问题吗,这样能满足实时的需求吗? -- Sent from: http://apache-flink.147419.n8.nabble.com/

??????????????????flink ????????????????????????kafka,mysql??

2021-03-14 文章 Asahi Lee
??         ??flink ??

1.12 yarn-per-job提交作业失败

2021-03-14 文章 smq
我在用这个命令提交的时候会报 flink Application rejected by queue placement policy 这个应该是没有指定queue  但是我在命令中加了-yqu 这个参数,在web界面看quene 的时候,不是我指定的,而是default 。 另外,我用旧命令提交作业可以正常运行。请问有人碰到过这个问题吗。

pyflink使用的一些疑问

2021-03-14 文章 qian he
你好, 最近项目想使用flink进行分布式计算,之前项目是Python的pandas项目,想尝试用pyflink进行项目改造,在使用dataset做批处理时,对于Java的版本没有相关map reduce函数,所以有以下疑问: 1.Python flink的SDK还没支持dataset吗? 2.是不是有其他替代方法? 3.如果还没支持,有计划支持的时间吗? 4.flink table为啥不支持map reduce操作? 5.我们项目使用dataframe来处理数据,能放到flink上做分布式运算吗?dataframe直接转化为table的方式,table不支持map reduce操作,对应