Re: 关于StreamingFileSink

2020-04-19 Thread Yun Gao
  Hello~ 想再确认一下预期的行为:现在是希望后面重新写之后,用新写过的part-xx来覆盖之前生成的文件么~?


--
From:酷酷的浑蛋 
Send Time:2020 Apr. 18 (Sat.) 20:32
To:user-zh 
Subject:关于StreamingFileSink

 
我在用StreamingFileSink 
往hdfs写数据的时候,如果任务停止了,从前面的某个checkpoint启动(不是最新checkpoint),就会发生下面的情况:


其中part-4-9/part-4-13/part-4-14 
这几个文件已经在最新checkpoint时生成了,任务从前面某个checkpoint启动后,继续生成part-xx文件,但是xx(文件编号)不会从最新开始,这样就导致新生成的.part-4-13.inprogressx/part-4-14.inprogressx最终不会变成完成状态,而且hive读取不到点'.'开头的文件,有什么方式可以避免这样的情况,难道只能手动去改文件名吗



Re: 关于StreamingFileSink

2020-04-21 Thread Leonard Xu
Hello,图挂了,可以搞个图床了挂链接到邮件列表。。。
另外问下为什么不从最新的cp开始恢复作业呢?这样我理解会有脏数据吧。

> 在 2020年4月19日,23:23,Yun Gao  写道:
> 
>  Hello~ 想再确认一下预期的行为:现在是希望后面重新写之后,用新写过的part-xx来覆盖之前生成的文件么~?
> 
> 
> --
> From:酷酷的浑蛋 
> Send Time:2020 Apr. 18 (Sat.) 20:32
> To:user-zh 
> Subject:关于StreamingFileSink
> 
> 
> 我在用StreamingFileSink 
> 往hdfs写数据的时候,如果任务停止了,从前面的某个checkpoint启动(不是最新checkpoint),就会发生下面的情况:
> 
> 
> 其中part-4-9/part-4-13/part-4-14 
> 这几个文件已经在最新checkpoint时生成了,任务从前面某个checkpoint启动后,继续生成part-xx文件,但是xx(文件编号)不会从最新开始,这样就导致新生成的.part-4-13.inprogressx/part-4-14.inprogressx最终不会变成完成状态,而且hive读取不到点'.'开头的文件,有什么方式可以避免这样的情况,难道只能手动去改文件名吗
> 



Re: 关于StreamingFileSink

2020-04-22 Thread Jingsong Li
Hi,

按我的理解:.part-4-13.inprogressx/part-4-14.inprogressx
就是残留文件了,因为它所在checkpoint并没有finish,所以它不会被读到,也不会影响作业的运行,也不会继续改变了。

Best,
Jingsong Lee

On Tue, Apr 21, 2020 at 4:38 PM Leonard Xu  wrote:

> Hello,图挂了,可以搞个图床了挂链接到邮件列表。。。
> 另外问下为什么不从最新的cp开始恢复作业呢?这样我理解会有脏数据吧。
>
> > 在 2020年4月19日,23:23,Yun Gao  写道:
> >
> >  Hello~ 想再确认一下预期的行为:现在是希望后面重新写之后,用新写过的part-xx来覆盖之前生成的文件么~?
> >
> >
> > --
> > From:酷酷的浑蛋 
> > Send Time:2020 Apr. 18 (Sat.) 20:32
> > To:user-zh 
> > Subject:关于StreamingFileSink
> >
> >
> > 我在用StreamingFileSink
> 往hdfs写数据的时候,如果任务停止了,从前面的某个checkpoint启动(不是最新checkpoint),就会发生下面的情况:
> >
> >
> > 其中part-4-9/part-4-13/part-4-14
> 这几个文件已经在最新checkpoint时生成了,任务从前面某个checkpoint启动后,继续生成part-xx文件,但是xx(文件编号)不会从最新开始,这样就导致新生成的.part-4-13.inprogressx/part-4-14.inprogressx最终不会变成完成状态,而且hive读取不到点'.'开头的文件,有什么方式可以避免这样的情况,难道只能手动去改文件名吗
> >
>
>

-- 
Best, Jingsong Lee