从kafka sink 到hbase丢失数据

2021-04-07 Thread
Dear 开发者: 目前发现从kafka sink到 hbase 会丢数据,相同的sql ,如果用jdbc方式 来sink 则不会丢失数据,具体建表sql 和任务sql 如下 flink 版本 1.12 源表: 使用canal-json 接入 create table rt_ods.ods_za_log_member_base_info( MemberId bigint COMMENT '用户ID', NickName string COMMENT '用户昵称', proctime as PROCTIME() ) WITH (

Flink-SQL-Client 啥时候支持GateWay Mode

2020-12-18 Thread
Dear developer: 想问下flink-sql client 啥时候支持GateWay Mode呢? 就好像Spark 有spark thrift server ,我们可以通过jdbc方式调用 我在 Apache Flink Home / Flink Improvement Proposals 这个里面看到是有 GateWay Mode 的计划的,19年7月提的, 想问下这个的具体进度,最近几个版本会有规划吗? GateWay Mode这个模式很符合业务实际场景, 这样我们可以通过JDBC/Rest API的方式调用,提交SQL;

Re:Re: 关于flink-sql 元数据问题

2020-12-14 Thread
Hi , 的确tableEnv.execute 和tableEnv.executeSql 这两个方法不该一起用 现在会报另一个错,去掉tableEnv.execute 方法, 代码如下: final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); EnvironmentSettings bsSettings =

关于flink-sql 元数据问题

2020-12-11 Thread
开发者好: 目前想把flink-sql 建表的操作集成到我们自己的平台中,但是发现一个比较尴尬的现象,如果使用Table api ,应用中只有create 语句的话,那么应用执行会报错,报没有定义算子:The main method caused an error: No operators defined in streaming topology. Cannot generate StreamGraph. 但是,这个表却创建成功了,代码如下: final StreamExecutionEnvironment env =

关于dataStream 转成kafka流表 新建的表是否可以保存到已存在的catalog里面

2020-12-07 Thread
Hi 开发者好: 目前有此场景: 业务已经有埋点上报的数据在kafka ,现在想使用对应的kafka数据 转换成 table, 由于这个 kafka的数据格式不是json格式,所以没法直接使用 flink-sql 的kafka-connector 用sql DDL的方式建kafka 表; 现在在尝试对kafka的数据做一次 map转换,返回 json格式,然后再基于此json格式 创建 kafka 流表 但是这种做法好像无法把表的元数据持久化,即在其他session无法读取到建的这个表; 是否有对应的方法,通过对kafka流做一定转换 ,然后再转换成 可以持久化到对应

Re:Re:union all 丢失部分数据

2020-11-04 Thread
>Best, >Hailong Wang > > > > >在 2020-11-04 17:20:23,"夜思流年梦" 写道: >>开发者好: >> 目前有此场景:算不同部门的总收入和所有部门的总收入,打算把两部分SQL union all ,但是实际情况发现 union >> all的时候会丢一部分数据,要么是各个部门的数据少了,要么是所有部门的总收入少了 >> 如果把union all 的两段SQL 分别独立出

Re:回复: union all 丢失部分数据

2020-11-04 Thread
的场景。 >我觉得你应该这样组装 你的sql : >```sql > >Insert into xxx >Select > d1, > d2, > count(1) >From ( > Select * from a > Union all > Select * from b, >) >Group by d1, d2 > >``` > >发送自 Windows 10 版邮件<https://go.microso

TUMBLE函数不支持 回撤流

2020-11-03 Thread
'DWD_XXX', 'scan.startup.mode' = 'group-offsets', 'format' = 'changelog-json'); 在 2020-10-30 14:53:09,"admin" <17626017...@163.com> 写道: >Hi, >能贴一下完整的sql吗,数据源是CDC的数据吗? > >> 2020年10月30日 下午2:48,夜思流年梦 写道: >> >> 开发者你好: >> 现有此场景: &

Re:Re: TUMBLE函数不支持 回撤流

2020-10-30 Thread
p.servers' = 'XXX', 'topic' = 'DWD_XXX', 'scan.startup.mode' = 'group-offsets', 'format' = 'changelog-json'); 在 2020-10-30 14:53:09,"admin" <17626017...@163.com> 写道: >Hi, >能贴一下完整的sql吗,数据源是CDC的数据吗? > >> 2020年10月30日 下午2:48,夜思流年梦 写道: >> >>

TUMBLE函数不支持 回撤流

2020-10-30 Thread
开发者你好: 现有此场景: 求每个小时的收入,打算用TUMBLE函数,但是发现不支持 回撤流 select > HOUR(TUMBLE_START(write_time,interval '1' HOUR)) as ftime > ,sum(amt) as paymoney_h > from > group by TUMBLE(write_time,interval '1' HOUR); 报错: org.apache.flink.table.api.TableException: GroupWindowAggregate doesn't support

Re:Re: 关于flink-sql 维表join问题

2020-10-28 Thread
batch + 调度更好一点呢? > >Best, >Jark > >On Tue, 27 Oct 2020 at 16:08, 夜思流年梦 wrote: > >> 目前在准备搞实时数仓:碰到一个问题: >> 比如统计一个所有员工所有的业绩的报表,这个报表需要关联1个员工维表,4个业绩相关流表; >> 如果是正常SQL的话是这样join : >> >> >> 维表 left join 流表 1 >> left join 流表 2 >> left join

关于flink-sql 维表join问题

2020-10-27 Thread
目前在准备搞实时数仓:碰到一个问题: 比如统计一个所有员工所有的业绩的报表,这个报表需要关联1个员工维表,4个业绩相关流表; 如果是正常SQL的话是这样join : 维表 left join 流表 1 left join 流表 2 left join 流表 3 left join 流表 4 因为flink-sql 的temporal join 不支持 维表在左边 left join 流表, 故只能 流表在左,维表在右来join 即:select * from table a left join dim_XXX FOR SYSTEM_TIME AS OF

flinksql 不支持 % 运算

2020-10-26 Thread
flink 版本1.11 目前flink-sql 好像不支持取余运算,会报错: 比如:SELECT * FROM Orders WHERE a % 2 = 0 Percent remainder '%' is not allowed under the current SQL conformance level 看了下flink 的issue ,已经有人碰到过了,说是要1.12版本修复 想问下:如果再1.11版本,flink-sql 要怎么操作才能支持 % 运算呢? 可以通过修改配置文件来实现么?比如flink-conf.yaml

关于flink-sql count/sum 数据如何每天重新计算

2020-10-19 Thread
现有此场景: 计算每天员工的业绩(只计算当天的) 现在我用flink-sql 的方式,insert into select current_date, count(1) ,worker from XX where writeTime>=current_date group by worker; 把数据按天分区的方式先把数据sink到mysql 但是发现落地到mysql的数据把前几天的数据都给算进来了,如何只算今天的数据? 另外还有一个疑惑,如何既计算当天数据,又包含了本月的所有数据?

Re:Re: 关于flink-sql Join Temporal Tables join 维表问题

2020-10-12 Thread
-cdc > ... >); > >select user_id, count(*) as order_num >from (select * from users left join orders on users.user_id = >orders.user_id) >group by user_id; > > >[1]: https://github.com/ververica/flink-cdc-connectors > >On Mon, 12 Oct 2020 at 15:17, caozhen wrote: &g

Re:Re: 关于flink-sql Join Temporal Tables join 维表问题

2020-10-12 Thread
是这样子的,比如要统计所有员工的今天的订单数量,如果是订单表left join 员工表的话,那么今天没有订单数量的就无法出现在结果表集合中; 把员工表放在左边left join 订单表的话那么就是所有员工的今天订单数量都会 出现 在 2020-10-12 15:17:07,"caozhen" 写道: > >我理解这个场景下 员工维表在右边没啥问题。 > >join过程中需要去员工维表拿哪些字段? > > > >夜思流年梦 wrote >> 现在有一个场景: 一个员工维表,一

关于flink-sql Join Temporal Tables join 维表问题

2020-10-11 Thread
现在有一个场景: 一个员工维表,一个订单表(监听mysql binlog的一个流表),想实时计算出所有员工的订单数; 目前flink-sql 支持Join Temporal Tables ,但是官方文档上是这么说的:仅支持带有处理时间的 temporal tables 的 inner 和 left join。 而这个场景必须是维表在左边,但实际情况是维表在左边无法进行left join :会报错:ClassCastException: org.apache.calcite.rel.logical.LogicalProject cannot be cast to