Re: Re: flink jdbc source oom

r pp Sat, 02 Apr 2022 01:08:43 -0700

我觉得 流处理中，无论是一个一个处理，还是一批一批处理，强调了 连续性，自定义sql 在连续性的保证上，想到的比较好的方式是自增 id
的方式（这就意味着只接受 insert 操作），而在一批数据中 排序、去重，其实对于整体而言 收效不好说， 除非
每一批数据都严格的分区(如不同日期)，不过过滤是有好处的。


Michael Ran <greemqq...@163.com> 于2022年4月1日周五 11:00写道：

> 这个当初提过自定义SQL 数据集，但是社区否定了这种做法- -，但是从功能上来说，我们也是实现的自定义SQL结果集，进行join
> 之类的操作，在大数据集，以及一些数据排序、剔除重复等场景有一定优势
> 在 2022-04-01 10:12:55，"Lincoln Lee" <lincoln.8...@gmail.com> 写道：
> >@Peihui  当前社区的 jdbc table source 实现了这些接口:
> >ScanTableSource,
> >LookupTableSource,
> >SupportsProjectionPushDown,
> >SupportsLimitPushDown
> >
> >其中 lookup table source 用于维表的 kv lookup 查询,  scan table source 支持了
> >projection 和 limit 下推, 如果有需求做其他 pushdown.可以尝试自行扩展 connector 来实现比如
> >filter/aggregate pushdown 满足前置过滤需求
> >
> >
> >Best,
> >Lincoln Lee
> >
> >
> >r pp <pr123sha...@gmail.com> 于2022年3月31日周四 18:40写道：
> >
> >> hi，不是很清楚你的问题~ 你的数据量很大，是多久的一天，还是一秒，source怎么就无力了
> >>
>


-- 
Best，
  pp

Re: Re: flink jdbc source oom

回复