Flink 实时监控目录下的新文件会有文件被遗漏
在Flink 1.8.0下,通过 env.readFile 实时监控目录下的新文件并处理。5千多个文件,有25个文件被遗漏。 逻辑如下: 1、一个Flink程序实时将小文件写入目录A 2、另一个Flink程序通过env.readFile、PROCESS_CONTINUOUSLY模式实时监控目录A,然后做其他操作 发现,第二个Flink程序偶尔会遗漏文件。 请教下: 为什么会有文件丢失,丢失的原因可能是什么?并行度?
Re: Flink 实时监控目录下的新文件会有文件被遗漏
监控S3上的文件。 王佩 于2019年8月23日周五 上午9:25写道: > 在Flink 1.8.0下,通过 env.readFile 实时监控目录下的新文件并处理。5千多个文件,有25个文件被遗漏。 > > 逻辑如下: > > 1、一个Flink程序实时将小文件写入目录A > 2、另一个Flink程序通过env.readFile、PROCESS_CONTINUOUSLY模式实时监控目录A,然后做其他操作 > > 发现,第二个Flink程序偶尔会遗漏文件。 > > 请教下: 为什么会有文件丢失,丢失的原因可能是什么?并行度? > >
Re: Flink 实时监控目录下的新文件会有文件被遗漏
会不会是由于s3的一致性导致的问题 > 在 2019年8月24日,下午4:52,王佩 写道: > > 监控S3上的文件。 > > 王佩 于2019年8月23日周五 上午9:25写道: > >> 在Flink 1.8.0下,通过 env.readFile 实时监控目录下的新文件并处理。5千多个文件,有25个文件被遗漏。 >> >> 逻辑如下: >> >> 1、一个Flink程序实时将小文件写入目录A >> 2、另一个Flink程序通过env.readFile、PROCESS_CONTINUOUSLY模式实时监控目录A,然后做其他操作 >> >> 发现,第二个Flink程序偶尔会遗漏文件。 >> >> 请教下: 为什么会有文件丢失,丢失的原因可能是什么?并行度? >> >>