dear all: 我有一个flink流式任务,checkpoint周期5分钟,超时时间3分钟。 此任务中调用了第三方接口,正常情况下没问题,正常的checkpoint时长仅80ms。
但由于第三方接口发生了拥堵,有部分调用会超时(接口调用超时设置了5秒钟), 然后此算子的checkpoint就会超时, checkpoint 3179 of job xxxxxxxx expired before completing trying to recover from a global failure exceeded checkpoint tolerable failure threshold 然后任务就发生重启,恢复到最后一个正常checkpoint点。 但到下一个checkpoint周期时,又超时,又发生重启,又恢复到那个正常checkpoint点。 就如此反复重启,恢复到那个正常checkpoint点,也导致流中的数据无法继续消费。 checkpoint超时为什么会导致任务重启,可以避免让他重启吗? 调用第三方接口超时的数据,我可以后面单独处理,但重启却导致了数据无法消费。 thanks /nicygan