我觉得 流处理中,无论是一个一个处理,还是一批一批处理,强调了 连续性,自定义sql 在连续性的保证上,想到的比较好的方式是自增 id
的方式(这就意味着只接受 insert 操作),而在一批数据中 排序、去重,其实对于整体而言 收效不好说, 除非
每一批数据都严格的分区(如不同日期),不过过滤是有好处的。

Michael Ran <greemqq...@163.com> 于2022年4月1日周五 11:00写道:

> 这个当初提过自定义SQL 数据集,但是社区否定了这种做法- -,但是从功能上来说,我们也是实现的自定义SQL结果集,进行join
> 之类的操作,在大数据集,以及一些数据排序、剔除重复等场景有一定优势
> 在 2022-04-01 10:12:55,"Lincoln Lee" <lincoln.8...@gmail.com> 写道:
> >@Peihui  当前社区的 jdbc table source 实现了这些接口:
> >ScanTableSource,
> >LookupTableSource,
> >SupportsProjectionPushDown,
> >SupportsLimitPushDown
> >
> >其中 lookup table source 用于维表的 kv lookup 查询,  scan table source 支持了
> >projection 和 limit 下推, 如果有需求做其他 pushdown.可以尝试自行扩展 connector 来实现比如
> >filter/aggregate pushdown 满足前置过滤需求
> >
> >
> >Best,
> >Lincoln Lee
> >
> >
> >r pp <pr123sha...@gmail.com> 于2022年3月31日周四 18:40写道:
> >
> >> hi,不是很清楚你的问题~ 你的数据量很大,是多久的一天,还是一秒,source怎么就无力了
> >>
>


-- 
Best,
  pp

回复