flink-1.11.1 checkpoint超时，任务会不断重启

nicygan Thu, 17 Dec 2020 04:16:55 -0800

dear all:
    我有一个flink流式任务，checkpoint周期5分钟，超时时间3分钟。
    此任务中调用了第三方接口，正常情况下没问题，正常的checkpoint时长仅80ms。



     但由于第三方接口发生了拥堵，有部分调用会超时（接口调用超时设置了5秒钟），
     然后此算子的checkpoint就会超时，
     checkpoint 3179 of job xxxxxxxx expired before completing

     trying to recover from a global failure
     exceeded checkpoint tolerable failure threshold

     然后任务就发生重启，恢复到最后一个正常checkpoint点。
     但到下一个checkpoint周期时，又超时，又发生重启，又恢复到那个正常checkpoint点。
     就如此反复重启，恢复到那个正常checkpoint点，也导致流中的数据无法继续消费。


     checkpoint超时为什么会导致任务重启，可以避免让他重启吗？
     调用第三方接口超时的数据，我可以后面单独处理，但重启却导致了数据无法消费。


thanks
/nicygan

flink-1.11.1 checkpoint超时，任务会不断重启

回复