我觉得 流处理中,无论是一个一个处理,还是一批一批处理,强调了 连续性,自定义sql 在连续性的保证上,想到的比较好的方式是自增 id 的方式(这就意味着只接受 insert 操作),而在一批数据中 排序、去重,其实对于整体而言 收效不好说, 除非 每一批数据都严格的分区(如不同日期),不过过滤是有好处的。
Michael Ran <greemqq...@163.com> 于2022年4月1日周五 11:00写道: > 这个当初提过自定义SQL 数据集,但是社区否定了这种做法- -,但是从功能上来说,我们也是实现的自定义SQL结果集,进行join > 之类的操作,在大数据集,以及一些数据排序、剔除重复等场景有一定优势 > 在 2022-04-01 10:12:55,"Lincoln Lee" <lincoln.8...@gmail.com> 写道: > >@Peihui 当前社区的 jdbc table source 实现了这些接口: > >ScanTableSource, > >LookupTableSource, > >SupportsProjectionPushDown, > >SupportsLimitPushDown > > > >其中 lookup table source 用于维表的 kv lookup 查询, scan table source 支持了 > >projection 和 limit 下推, 如果有需求做其他 pushdown.可以尝试自行扩展 connector 来实现比如 > >filter/aggregate pushdown 满足前置过滤需求 > > > > > >Best, > >Lincoln Lee > > > > > >r pp <pr123sha...@gmail.com> 于2022年3月31日周四 18:40写道: > > > >> hi,不是很清楚你的问题~ 你的数据量很大,是多久的一天,还是一秒,source怎么就无力了 > >> > -- Best, pp