Re: flink作业生成保存点失败

2022-09-07 文章 Congxian Qiu
Hi 有 savepoint/checkpoint 失败时的具体 jobmanager log 以及失败 task 对应的 taskmanager log 的话可以发一下,大家帮助看一下 Best, Congxian Xuyang 于2022年8月30日周二 23:18写道: > > Hi,看起来这个报错是用于输出信息的文件找不到了,可以尝试加一下这个配置再试一下“taskmanager.log.path”,找一下导致tasks超时的根本原因。 > 还可以试一下用火焰图或jstack查看一下那几个tasks超时的时候是卡在哪个方法上。 > > > > > > > > > > >

flink作业生成保存点失败

2022-08-29 文章 casel.chen
有一个线上flink作业在人为主动创建保存点时失败,作业有两个算子:从kafka读取数据和写到mongodb,都是48个并行度,出错后查看到写mongodb算子一共48个task,完成了45个,还有3个tasks超时(超时时长设为3分钟),正常情况下完成一次checkpoint要4秒,状态大小只有23.7kb。出错后,查看作业日志如下。在创建保存点失败后作业周期性的检查点生成也都失败了(每个算子各有3个tasks超时)。使用的是FileStateBackend,DFS用的是阿里云oss。请问出错会是因为什么原因造成的? +5 [2022-08-29 15:38:32] content: