看现象是这样,谢了,我抽空看下这块源码
| |
吴先生
|
|
15951914...@163.com
|
回复的原邮件
| 发件人 | Zakelly Lan |
| 发送日期 | 2024年1月11日 16:33 |
| 收件人 | |
| 主题 | Re: flink-checkpoint 问题 |
看了下代码,这个问题有可能的原因是:
1. flink是先创建chk目录,然后再打 Triggering checkpoint 的 log
的,所以有概率是目录创建了,但是log没输出trigger
2. 作业失败,和触发下一个cp,这是两个异步线程,所以有可能
gt; java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
> at
> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
> at java.lang.Thread.run(Thread.java:748)
>
>
>
>
> checkpoing路径下有:
> 25546:正常
> 25547:无
> 25548:有,路径下为空
748)
checkpoing路径下有:
25546:正常
25547:无
25548:有,路径下为空
任务人为从25548恢复时失败,抛出异常找不到_metadate文件
| |
吴先生
|
|
15951914...@163.com
|
回复的原邮件
| 发件人 | Xuyang |
| 发送日期 | 2024年1月11日 14:55 |
| 收件人 | |
| 主题 | Re:回复: flink-checkpoint 问题 |
Hi, 你的图挂了,可以用图床处理一下,或者直接贴log。
--
Best!
Xuyang
在 2024-01-11 13
2024年1月10日 18:20 |
| 收件人 | |
| 主题 | Re: flink-checkpoint 问题 |
你好,
方便的话贴一下jobmanager的log吧,应该有一些线索
On Wed, Jan 10, 2024 at 5:55 PM 吴先生 <15951914...@163.com> wrote:
Flink版本: 1.12
checkpoint配置:hdfs
现象:作业由于一些因素第N个checkpoint失败,导致任务重试,任务重试失败,hdfs中不存在第N个chk路径,但是为什么会出现一个第N+1的chk路径,且这个路径下是空的
JM中chk失败时间点日志,没有25548的触发记录:
自动recovery失败:
TM日志:
checkpoint文件路径,25548里面空的:
| |
吴先生
|
|
15951914...@163.com
|
回复的原邮件
| 发件人 | Zakelly Lan |
| 发送日期 | 2024年1月10日 18:20 |
| 收件人 | |
| 主题 | Re: flink-checkpoint 问题 |
你好,
方便的话贴一下jobmanager的log吧,应该有一些线索
On Wed, Jan 10, 2024 at 5:55 PM 吴先
你好,
方便的话贴一下jobmanager的log吧,应该有一些线索
On Wed, Jan 10, 2024 at 5:55 PM 吴先生 <15951914...@163.com> wrote:
> Flink版本: 1.12
> checkpoint配置:hdfs
>
> 现象:作业由于一些因素第N个checkpoint失败,导致任务重试,任务重试失败,hdfs中不存在第N个chk路径,但是为什么会出现一个第N+1的chk路径,且这个路径下是空的
>
>
Flink版本: 1.12
checkpoint配置:hdfs
现象:作业由于一些因素第N个checkpoint失败,导致任务重试,任务重试失败,hdfs中不存在第N个chk路径,但是为什么会出现一个第N+1的chk路径,且这个路径下是空的
先谢谢各位大佬!
1.环境
FLINK 版本 :1.7.2
运行模式:flink on yarn (yarn single job)
2.配置
状态保存方式:RocksDBStateBackend backend = new
RocksDBStateBackend("hdfs:/user/flink", true)
窗口方式:EventTimeSessionWindows.withGap(Time.hours(1))
计算方式:.aggregate(new MyAggregate(), new MyProcess())
3.数据