Re: [SURVEY] 您在使用什么数据变更同步工具(CDC)？

Benchao Li Wed, 11 Mar 2020 08:53:11 -0700

Hi，

感谢Jark发起这个话题的讨论，这个功能对于Flink SQL来讲是一个非常重要的扩展。


问卷已填，再此再提几个小想法：
1. 希望对接binlog时可以有全量初始化的能力，这样在Flink中我们就有了一个全表的实时状态，方便其他表与之进行join。
2. 希望能够自动生成watermark，这样子可以尽可能的减少接入成本。因为有些场景是其他的append
log数据可以跟实时维护的表进行join；也有些场景是两个binlog形成的动态表互相join。
3. 希望可以把binlog以state的形式存储在flink里，除了第一次启动需要全量加载，后续的运维都可以再此基础上只接收增量即可。
4. 如此之外，如果能有schema变更感知能力是最好的。（当然这个可能很难体现在SQL里面，毕竟SQL作业在启动时就已经确定了table
的schema）
5.
最后一点，感觉不太符合flink现在的定位，但是可能会有用户会这样来使用。就是直接把flink作为一个数据同步工具，消费binlog，直接同步到其他存储里面。（可能基本不需要做任何加工的那种，而且最好是能够有自动感知schema变更，同时可以变更下游的存储系统的schema）

Jark Wu <imj...@gmail.com> 于2020年3月11日周三 下午3:00写道：

> Hi, 大家好，
>
> Flink 社区目前正在对接一些 CDC (Change Data Capture) 工具，以期在下个版本能支持读取和处理常见的 binlog
> 数据，所以需要调研下大家目前主要使用的 CDC 工具是什么。
>
> 欢迎大家填下问卷调查，您的反馈对我们非常重要，谢谢！
>
> http://apacheflink.mikecrm.com/wDivVQ1
>
> 也欢迎大家在这个邮件下讨论关于 Flink 对接 CDC 的一些想法、需求、期望。
>
> Best,
> Jark
>


-- 

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: libenc...@gmail.com; libenc...@pku.edu.cn

Re: [SURVEY] 您在使用什么数据变更同步工具(CDC)？

回复