Flink目前无法做到无缝升级,需要走stop-with-savepoint、start
job的流程,但是在这之间可以做一些优化来缩短恢复时间。比如,把新作业先启动起来,申请好资源,同时停掉老作业,将做好的savepoint用来触发新作业的执行。

casel.chen <casel_c...@126.com> 于2022年11月29日周二 08:38写道:

> 线上有一个流量较大的flink sql作业需要升级添加业务字段,当前主要是kafka (canal) 多表关联写入 mongodb
> 数据同步场景,除了source offset外无其他状态,如何让用户对升级无感呢?
> 常规的停止作业再启动作业至少要几十秒,会造成消息积压告警,有没有可能先启新作业待运行平稳后再停止老作业?kafka
> group使用同一个,作业启动从group-offsets开始可以吗?另外,如果是有大状态作业又要如何无缝升级?

Reply via email to