dear all:
    我有一个flink流式任务,checkpoint周期5分钟,超时时间3分钟。
    此任务中调用了第三方接口,正常情况下没问题,正常的checkpoint时长仅80ms。


     但由于第三方接口发生了拥堵,有部分调用会超时(接口调用超时设置了5秒钟),
     然后此算子的checkpoint就会超时,
     checkpoint 3179 of job xxxxxxxx expired before completing

     trying to recover from a global failure
     exceeded checkpoint tolerable failure threshold

     然后任务就发生重启,恢复到最后一个正常checkpoint点。
     但到下一个checkpoint周期时,又超时,又发生重启,又恢复到那个正常checkpoint点。
     就如此反复重启,恢复到那个正常checkpoint点,也导致流中的数据无法继续消费。


     checkpoint超时为什么会导致任务重启,可以避免让他重启吗?
     调用第三方接口超时的数据,我可以后面单独处理,但重启却导致了数据无法消费。


thanks
/nicygan

回复