date:20220925

flink的消费速率是否可以调整

2022-09-25 文章 Jason_H

Hi，各位大佬：我们在使用flink消费kafka的时候，是否可以在代码中自定义消费速率，来调整源端的消费能力。 | | Jason_H | | hyb_he...@163.com |

Re:咨询多条flink cdc作业消费同一个库下不同表优化方案

2022-09-25 文章 Xuyang

Hi，我理解你的业务可能需要的是，在全量阶段直接读取mysql数据，在增量阶段切换读取kafka的source？如果是上述的需求的话，可以尝试下使用Hybrid source[1]，从而在运行时实现不同源的切换。只不过可能需要参考现有connector的逻辑，copy出一个自定义的source [1]https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/connectors/datastream/hybridsource/ -- Best！ Xuyang 在 202

咨询多条flink cdc作业消费同一个库下不同表优化方案

2022-09-25 文章 casel.chen

目前业内针对多条flink cdc作业消费同一个库下不同表为了防止对数据库方产生很大查询压力，一般都是发到kafka，但这样的话下游作业只能获取到实时增量数据进行处理，如果下游作业需要获取全量数据处理的话，还得再回过头来使用cdc connector，但这样会产生上述副作用。我在想作业是否能够在获取到全量数据之后做一个checkpoint，接下来就可以改使用kafka connector? 续接的点是binlog offset，即cdc connector消费到的binlog offset要续接上kafka connector某个消息带的binlog offset。不知道这种想法是否

flink cdc作业是否支持将湖表作为源表source?

2022-09-25 文章 casel.chen

多条flink cdc作业场景直接接mysql会对数据库造成很大压力，一种办法是flink cdc下游接kafka，但这种只适用于多个下游作业只需要消费增量数据情况，如果多个下游作业需要消费存量+增量的话是不是可以考虑使用hudi/iceberg这种湖表替代kafka，像普通mysql一样flink cdc在全量快照阶段先查询湖表已有数据，再在增量快照阶段依赖湖表支持streaming query能力获取到实时全量数据？