Hello~ 想再确认一下预期的行为:现在是希望后面重新写之后,用新写过的part-xx来覆盖之前生成的文件么~?


------------------------------------------------------------------
From:酷酷的浑蛋 <apach...@163.com>
Send Time:2020 Apr. 18 (Sat.) 20:32
To:user-zh <user-zh@flink.apache.org>
Subject:关于StreamingFileSink

 
我在用StreamingFileSink 
往hdfs写数据的时候,如果任务停止了,从前面的某个checkpoint启动(不是最新checkpoint),就会发生下面的情况:


其中part-4-9/part-4-13/part-4-14 
这几个文件已经在最新checkpoint时生成了,任务从前面某个checkpoint启动后,继续生成part-xx文件,但是xx(文件编号)不会从最新开始,这样就导致新生成的.part-4-13.inprogressxxxxx/part-4-14.inprogressxxxxxxxxx最终不会变成完成状态,而且hive读取不到点'.'开头的文件,有什么方式可以避免这样的情况,难道只能手动去改文件名吗

回复