flink的消费速率是否可以调整

2022-09-25 文章 Jason_H
Hi,各位大佬: 我们在使用flink消费kafka的时候,是否可以在代码中自定义消费速率,来调整源端的消费能力。 | | Jason_H | | hyb_he...@163.com |

Re:咨询多条flink cdc作业消费同一个库下不同表优化方案

2022-09-25 文章 Xuyang
Hi,我理解你的业务可能需要的是,在全量阶段直接读取mysql数据,在增量阶段切换读取kafka的source? 如果是上述的需求的话,可以尝试下使用Hybrid source[1],从而在运行时实现不同源的切换。只不过可能需要参考现有connector的逻辑,copy出一个自定义的source [1]https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/connectors/datastream/hybridsource/ -- Best! Xuyang 在 202

咨询多条flink cdc作业消费同一个库下不同表优化方案

2022-09-25 文章 casel.chen
目前业内针对多条flink cdc作业消费同一个库下不同表为了防止对数据库方产生很大查询压力,一般都是发到kafka,但这样的话下游作业只能获取到实时增量数据进行处理,如果下游作业需要获取全量数据处理的话,还得再回过头来使用cdc connector,但这样会产生上述副作用。我在想作业是否能够在获取到全量数据之后做一个checkpoint,接下来就可以改使用kafka connector? 续接的点是binlog offset,即cdc connector消费到的binlog offset要续接上kafka connector某个消息带的binlog offset。不知道这种想法是否

flink cdc作业是否支持将湖表作为源表source?

2022-09-25 文章 casel.chen
多条flink cdc作业场景直接接mysql会对数据库造成很大压力,一种办法是flink cdc下游接kafka,但这种只适用于多个下游作业只需要消费增量数据情况,如果多个下游作业需要消费存量+增量的话是不是可以考虑使用hudi/iceberg这种湖表替代kafka,像普通mysql一样flink cdc在全量快照阶段先查询湖表已有数据,再在增量快照阶段依赖湖表支持streaming query能力获取到实时全量数据?