Re:咨询多条flink cdc作业消费同一个库下不同表优化方案

2022-09-25 文章 Xuyang
Hi,我理解你的业务可能需要的是,在全量阶段直接读取mysql数据,在增量阶段切换读取kafka的source? 如果是上述的需求的话,可以尝试下使用Hybrid source[1],从而在运行时实现不同源的切换。只不过可能需要参考现有connector的逻辑,copy出一个自定义的source [1]https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/connectors/datastream/hybridsource/ -- Best! Xuyang 在

咨询多条flink cdc作业消费同一个库下不同表优化方案

2022-09-25 文章 casel.chen
目前业内针对多条flink cdc作业消费同一个库下不同表为了防止对数据库方产生很大查询压力,一般都是发到kafka,但这样的话下游作业只能获取到实时增量数据进行处理,如果下游作业需要获取全量数据处理的话,还得再回过头来使用cdc connector,但这样会产生上述副作用。我在想作业是否能够在获取到全量数据之后做一个checkpoint,接下来就可以改使用kafka connector? 续接的点是binlog offset,即cdc connector消费到的binlog offset要续接上kafka connector某个消息带的binlog