看现象是这样,谢了,我抽空看下这块源码
| |
吴先生
|
|
15951914...@163.com
|
回复的原邮件
| 发件人 | Zakelly Lan |
| 发送日期 | 2024年1月11日 16:33 |
| 收件人 | |
| 主题 | Re: flink-checkpoint 问题 |
看了下代码,这个问题有可能的原因是:
1. flink是先创建chk目录,然后再打 Triggering checkpoint 的 log
的,所以有概率是目录创建了,但是log没输出trigger
2. 作业失败,和触发下一个cp,这是两个异步线程,所以有可能
gt; java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
> at
> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
> at java.lang.Thread.run(Thread.java:748)
>
>
>
>
> checkpoing路径下有:
> 25546:正常
> 25547:无
> 25548:有,路径下为空
748)
checkpoing路径下有:
25546:正常
25547:无
25548:有,路径下为空
任务人为从25548恢复时失败,抛出异常找不到_metadate文件
| |
吴先生
|
|
15951914...@163.com
|
回复的原邮件
| 发件人 | Xuyang |
| 发送日期 | 2024年1月11日 14:55 |
| 收件人 | |
| 主题 | Re:回复: flink-checkpoint 问题 |
Hi, 你的图挂了,可以用图床处理一下,或者直接贴log。
--
Best!
Xuyang
在 2024-01-11 13
2024年1月10日 18:20 |
| 收件人 | |
| 主题 | Re: flink-checkpoint 问题 |
你好,
方便的话贴一下jobmanager的log吧,应该有一些线索
On Wed, Jan 10, 2024 at 5:55 PM 吴先生 <15951914...@163.com> wrote:
Flink版本: 1.12
checkpoint配置:hdfs
现象:作业由于一些因素第N个checkpoint失败,导致任务重试,任务重试失败,hdfs中不存在第N个chk路径,但是为什么会出现一个第N+1的chk路径,且这个路径下是空的
JM中chk失败时间点日志,没有25548的触发记录:
自动recovery失败:
TM日志:
checkpoint文件路径,25548里面空的:
| |
吴先生
|
|
15951914...@163.com
|
回复的原邮件
| 发件人 | Zakelly Lan |
| 发送日期 | 2024年1月10日 18:20 |
| 收件人 | |
| 主题 | Re: flink-checkpoint 问题 |
你好,
方便的话贴一下jobmanager的log吧,应该有一些线索
On Wed, Jan 10, 2024 at 5:55 PM 吴先
我记得flink低版本有这个bug,会错误的删除某一个checkpoint的,你这个版本太老了,可以升级到新版本。
The following is the content of the forwarded email
From:"吴先生" <15951914...@163.com>
To:user-zh
Date:2024-01-10 17:54:42
Subject:fli
你好,
方便的话贴一下jobmanager的log吧,应该有一些线索
On Wed, Jan 10, 2024 at 5:55 PM 吴先生 <15951914...@163.com> wrote:
> Flink版本: 1.12
> checkpoint配置:hdfs
>
> 现象:作业由于一些因素第N个checkpoint失败,导致任务重试,任务重试失败,hdfs中不存在第N个chk路径,但是为什么会出现一个第N+1的chk路径,且这个路径下是空的
>
>
Flink版本: 1.12
checkpoint配置:hdfs
现象:作业由于一些因素第N个checkpoint失败,导致任务重试,任务重试失败,hdfs中不存在第N个chk路径,但是为什么会出现一个第N+1的chk路径,且这个路径下是空的
Hi!
图片无法显示,建议使用外部图床上传。
checkpoint 慢的原因可能有很多,最可能的原因是由于算子处理数据太慢导致反压(可以通过 Flink web UI 每个节点的 busy
百分比大致看出来)。建议检查资源是否充足,数据是否倾斜,gc 是否过于频繁等。
紫月幽魔灵 于2021年12月28日周二 10:38写道:
> 版本:flink版本1.14.0
> 问题: 使用flink 1.14.0版本提交到jdk1.7版本的yarn集群上checkpoint无法生成,一直处于IN_PROGRESS状态
> 提交命令如下:
> ./bin/flinksql-submit.sh
感谢解答
smq
发件人: Yun Tang
发送时间: 2020年9月17日 10:30
收件人: user-zh
主题: Re: checkpoint问题
Hi
checkpoint使用operator id进行一一映射进行恢复,请参照
设置id[1],以及如果checkpoint中存在某个operator但是修改后的作业并不存在该operator时的处理逻辑[2]
[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/state/savepoints.html#assigning
/state/savepoints.html#allowing-non-restored-state
祝好
唐云
From: smq <374060...@qq.com>
Sent: Thursday, September 17, 2020 7:02
To: user-zh
Subject: checkpoint问题
如果我的程序逻辑修改,还能用之前的checkpoint吗
如果我的程序逻辑修改,还能用之前的checkpoint吗
Checkpoint只生成了shared和taskowned目录,没有chk,望解答,谢谢
| |
king
|
|
邮箱:kingjinhe2...@163.com
|
Signature is customized by Netease Mail Master
- 转发的邮件 -
发件人: king
发送日期: 2020年08月07日 09:05
收件人: user-zh
主题: 转发:Sql-client的checkpoint问题
抱歉,不是flink-site.yaml是flink-conf.yaml
| |
king
|
|
邮箱
抱歉,不是flink-site.yaml是flink-conf.yaml
| |
king
|
|
邮箱:kingjinhe2...@163.com
|
Signature is customized by Netease Mail Master
- 转发的邮件 -
发件人: king
发送日期: 2020年08月07日 08:23
收件人: user-zh
主题: Sql-client的checkpoint问题
您好,flink1.11.0,请问,
1.sql-client 如何设置checkpoint时间(生成周期),在做file
您好,flink1.11.0,请问,
1.sql-client 如何设置checkpoint时间(生成周期),在做file
streaming时候hdfs文件一直In-progress处状态,不能Finalized
2.之前在flink-site.yaml文件中设置了checkpoint,systemfile类型,只生成了另外两个目录,没有生成chk,望解答,谢谢
以上问题在编程方式下无问题。
| |
king
|
|
邮箱:kingjinhe2...@163.com
|
Signature is customized by Netease Mail Master
>1、使用的是rocksdb 增量state?
>2、checkpoint的时间间隔设置的多少?
>
>
>-- Original --
>From: "USERNAME";
>Date: Tue, Jul 16, 2019 05:36 PM
>To: "user-zh";
>
>Subject: FLINK Checkpoint 问题咨询
>
>
>
>先谢谢各位大
确定两个问题:
1、使用的是rocksdb 增量state?
2、checkpoint的时间间隔设置的多少?
-- Original --
From: "USERNAME";
Date: Tue, Jul 16, 2019 05:36 PM
To: "user-zh";
Subject: FLINK Checkpoint 问题咨询
先谢谢各位大佬!
1.环境
FLINK 版本 :1.7.2
运行模式:flink on yarn (yarn singl
你好
1. 窗口数据都会保存的,保存在 State 中,在你的例子中,保存在 RocksDB 中
2. 从给的样例看,应该是增量数据变多了,猜测是往 RocksDB 写数据比较频繁,导致 compaction 之前的 sst 文件无用,这个尝试看
RocksDB 的 log 来验证
3. 窗口的状态暂时无法清楚,你可以用 ProcessFunction [1] 来模拟 window,在 ProcessFunction
中可以按照自己的逻辑清理状态数据
[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.8/dev/s
先谢谢各位大佬!
1.环境
FLINK 版本 :1.7.2
运行模式:flink on yarn (yarn single job)
2.配置
状态保存方式:RocksDBStateBackend backend = new
RocksDBStateBackend("hdfs:/user/flink", true)
窗口方式:EventTimeSessionWindows.withGap(Time.hours(1))
计算方式:.aggregate(new MyAggregate(), new MyProcess())
3.数据
数据为设备信息,正常每30秒一条数据,有10万+
19 matches
Mail list logo