看下你的 Flink 版本是多少,如果是高版本的话,社区有提供 DataStream 的 HBase Sink。
Best,
LakeShen.
Zorro 于2021年5月31日周一 下午2:41写道:
> 由于你的DDL是变化的,无法提前预知所有字段,所以首先可以确定的是这个场景无法使用Flink SQL解决。
>
> 如果使用DataStream解决的话是可行的,唯一可能存在的问题就是目前社区没有提供DataStream的HBase sink。
> 如果你需要在DataStream中使用HBase sink的话,可能需要你自定义一个HBase sink或者基于社区的HBase
由于你的DDL是变化的,无法提前预知所有字段,所以首先可以确定的是这个场景无法使用Flink SQL解决。
如果使用DataStream解决的话是可行的,唯一可能存在的问题就是目前社区没有提供DataStream的HBase sink。
如果你需要在DataStream中使用HBase sink的话,可能需要你自定义一个HBase sink或者基于社区的HBase SQL
connector做一些更改。不过这些更改是需要在Java代码层面的。
至于其他的处理逻辑可以用pyFlink很方便的改写。
--
Sent from:
现状:
目前实时数仓的存储和对外数据服务使用hbase,列是不固定的。
举个例子,如果用户新增了一个指标并生成了数据,来源系统的数据总线(kafka)会把生成的数据发送过来(没有声明是新的指标),
hbase中需要增加一个指标名称的列并保存和更新相应数据。(实际场景比这个复杂一些)
之前是用python脚本(数据平台完全是python开发的)实现的,实现很简单,但是性能上有一些瓶颈。现在想切换到pyflink,不知道有没有好的方式。