Re: CheckPoint Dir 路径下引发的一些问题
感谢回复, 我明白了在状态恢复时具体细节,以及其他文件的产生及作用 Weihua Hu 于2020年6月5日周五 下午1:48写道: > HI, Px New > > 1. Checkpoint 保存数量可以通过参数: state.checkpoints.num-retained 来控制,默认是 1 > 2. _metadata 只是一些元数据,保存了state 的句柄,其他文件是 state 数据,由各 Task 在触发 checkpoint > 的时候上传。相反在恢复 checkpoint 的时候JM 读取_metadata 将相应句柄下发到 Task,Task 通过远端 HDFS 拉取对应的 > state。 > > > Best > Weihua Hu > > > 2020年6月5日 13:36,Px New <15701181132mr@gmail.com> 写道: > > > > Hi everyOne 有一个关于CheckPoint相关的一个问题: > > 1.我在项目中使用的状态后端为:Fsstatebackend > > 2.我在jobManager的log输出找到相应的job ID后 去对应的HDFS 找到了对应的chk目录 > > 3.但我有两个疑问: > > 3.1.没有设置 chk的存储数默认是多保留多少份呢(我这边看到保留了近20次的chk)? > > 3.2 当我点进具体的chk-id 后 发现有很多文件[见2图] 我清楚的是当任务发生异常后tesk 会从hdfs 将_metadata > 下载后进行任务恢复操作的,那其他的哪些文件是如何产生的?以及有什么作用呢? > > 期待回复: > > > > > > > >
Re: CheckPoint Dir 路径下引发的一些问题
哦 对此我很抱歉: 图1: https://i.loli.net/2020/06/05/SAfpnkqlOUM9hD3.png 图2: https://imgkr.cn-bj.ufileos.com/aed4cb64-dd24-4076-ba4c-a0e07bc356bf.png zhiyezou <1530130...@qq.com> 于2020年6月5日周五 下午1:58写道: > Hi > 麻烦使用第三方图床,把图片链接过来,直接贴图片的话显示不出来 > > > > > --原始邮件-- > 发件人:"Weihua Hu" 发送时间:2020年6月5日(星期五) 中午1:48 > 收件人:"user-zh" > 主题:Re: CheckPoint Dir 路径下引发的一些问题 > > > > HI, Px New > > 1. Checkpoint 保存数量可以通过参数: state.checkpoints.num-retained 来控制,默认是 1 > 2. _metadata 只是一些元数据,保存了state 的句柄,其他文件是 state 数据,由各 Task 在触发 checkpoint > 的时候上传。相反在恢复 checkpoint 的时候JM 读取_metadata 将相应句柄下发到 Task,Task 通过远端 HDFS 拉取对应的 > state。 > > > Best > Weihua Hu > > 2020年6月5日 13:36,Px New <15701181132mr@gmail.com 写道: > > Hi everyOne 有一个关于CheckPoint相关的一个问题: > 1.我在项目中使用的状态后端为:Fsstatebackend > 2.我在jobManager的log输出找到相应的job ID后 去对应的HDFS 找到了对应的chk目录 > 3.但我有两个疑问: > 3.1.没有设置 chk的存储数默认是多保留多少份呢(我这边看到保留了近20次的chk)? > 3.2 当我点进具体的chk-id 后 发现有很多文件[见2图] 我清楚的是当任务发生异常后tesk 会从hdfs 将_metadata > 下载后进行任务恢复操作的,那其他的哪些文件是如何产生的?以及有什么作用呢? > 期待回复: > > >
回复: CheckPoint Dir 路径下引发的一些问题
Hi 麻烦使用第三方图床,把图片链接过来,直接贴图片的话显示不出来 --原始邮件-- 发件人:"Weihua Hu"
Re: CheckPoint Dir 路径下引发的一些问题
HI, Px New 1. Checkpoint 保存数量可以通过参数: state.checkpoints.num-retained 来控制,默认是 1 2. _metadata 只是一些元数据,保存了state 的句柄,其他文件是 state 数据,由各 Task 在触发 checkpoint 的时候上传。相反在恢复 checkpoint 的时候JM 读取_metadata 将相应句柄下发到 Task,Task 通过远端 HDFS 拉取对应的 state。 Best Weihua Hu > 2020年6月5日 13:36,Px New <15701181132mr@gmail.com> 写道: > > Hi everyOne 有一个关于CheckPoint相关的一个问题: > 1.我在项目中使用的状态后端为:Fsstatebackend > 2.我在jobManager的log输出找到相应的job ID后 去对应的HDFS 找到了对应的chk目录 > 3.但我有两个疑问: > 3.1.没有设置 chk的存储数默认是多保留多少份呢(我这边看到保留了近20次的chk)? > 3.2 当我点进具体的chk-id 后 发现有很多文件[见2图] 我清楚的是当任务发生异常后tesk 会从hdfs 将_metadata > 下载后进行任务恢复操作的,那其他的哪些文件是如何产生的?以及有什么作用呢? > 期待回复: > > >
CheckPoint Dir 路径下引发的一些问题
Hi everyOne 有一个关于CheckPoint相关的一个问题: 1.我在项目中使用的状态后端为:Fsstatebackend 2.我在jobManager的log输出找到相应的job ID后 去对应的HDFS 找到了对应的chk目录 3.但我有两个疑问: 3.1.没有设置 chk的存储数默认是多保留多少份呢(我这边看到保留了近20次的chk)? 3.2 当我点进具体的chk-id 后 发现有很多文件[见2图] 我清楚的是当任务发生异常后tesk 会从hdfs 将_metadata 下载后进行任务恢复操作的,那其他的哪些文件是如何产生的?以及有什么作用呢? 期待回复: [image: image.png] [image: image.png]