Flink 1.16.0 我在阅读FileSink的代码时发现,其依靠StatefulSinkWriter的snapshotState接口在checkpoint时存储当前的状态。
interface StatefulSinkWriter<InputT, WriterStateT> extends SinkWriter<InputT> { /** * @return The writer's state. * @throws IOException if fail to snapshot writer's state. */ List<WriterStateT> snapshotState(long checkpointId) throws IOException; } 然而,我了解到Flink在batch模式不会开启checkpoint机制,那我如何能够保证批任务的状态能够得到及时保存。 如果我在进行大规模数据的ETL操作,因为某些task失败导致任务重试,难道整个任务都要从头开始吗? 恳请各位大佬赐教