Hi,

感谢Jark发起这个话题的讨论,这个功能对于Flink SQL来讲是一个非常重要的扩展。

问卷已填,再此再提几个小想法:
1. 希望对接binlog时可以有全量初始化的能力,这样在Flink中我们就有了一个全表的实时状态,方便其他表与之进行join。
2. 希望能够自动生成watermark,这样子可以尽可能的减少接入成本。因为有些场景是其他的append
log数据可以跟实时维护的表进行join;也有些场景是两个binlog形成的动态表互相join。
3. 希望可以把binlog以state的形式存储在flink里,除了第一次启动需要全量加载,后续的运维都可以再此基础上只接收增量即可。
4. 如此之外,如果能有schema变更感知能力是最好的。(当然这个可能很难体现在SQL里面,毕竟SQL作业在启动时就已经确定了table
的schema)
5.
最后一点,感觉不太符合flink现在的定位,但是可能会有用户会这样来使用。就是直接把flink作为一个数据同步工具,消费binlog,直接同步到其他存储里面。(可能基本不需要做任何加工的那种,而且最好是能够有自动感知schema变更,同时可以变更下游的存储系统的schema)

Jark Wu <imj...@gmail.com> 于2020年3月11日周三 下午3:00写道:

> Hi, 大家好,
>
> Flink 社区目前正在对接一些 CDC (Change Data Capture) 工具,以期在下个版本能支持读取和处理常见的 binlog
> 数据,所以需要调研下大家目前主要使用的 CDC 工具是什么。
>
> 欢迎大家填下问卷调查,您的反馈对我们非常重要,谢谢!
>
> http://apacheflink.mikecrm.com/wDivVQ1
>
> 也欢迎大家在这个邮件下讨论关于 Flink 对接 CDC 的一些想法、需求、期望。
>
> Best,
> Jark
>


-- 

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: libenc...@gmail.com; libenc...@pku.edu.cn

回复