Re: Flink 误报checkpoint失败

2023-05-03 文章 Yanfei Lei
hi, 扩缩容会重启作业,在作业重启期间,job manager 先启动了,还有部分task manager没启动就有可能报“Not all required tasks are currently running..”的错误,作业的所有task完全启动后这个错误就会消失。 Best, Yanfei Chen Yang 于2023年5月4日周四 09:44写道: > > 您好, > > 我的 Flink job是以 reactive 模式运行,然后用了 Kubernetes HPA 来自动扩容/缩容 > TaskManager。每当TaskManager >

Flink 误报checkpoint失败

2023-05-03 文章 Chen Yang
您好, 我的 Flink job是以 reactive 模式运行,然后用了 Kubernetes HPA 来自动扩容/缩容 TaskManager。每当TaskManager 扩容/缩容的时候,Flink会在日志中报错:因为扩缩容之前的TaskManager没有在运行导致checkpoint失败,同时也有checkpoint失败的警报。 但实际上checkpoint 还能顺利进行, job也没有运行错误。 重启job后这个错误就会消失。想请教一下如何修复这个问题? 详细的日志如下 2022-12-13 05:08:22.339 [jobmanager-io-thread-1] INFO