subject:"Flink 消费kafka ，写ORC文件"

Re: Flink 消费kafka ，写ORC文件

2021-03-24 文章 Jacob

谢谢回复简单实现了一下BucketAssigner，可以实现需求 @Override public String getBucketId(Map element, Context context) { if(context.timestamp() - context.currentProcessingTime() < 0) { return "dt="+context.timestamp(); }

Re: Flink 消费kafka ，写ORC文件

2021-03-23 文章 Robin Zhang

Hi，Jacob 官网有这么一段：`我们可以在格式构建器上调用 .withBucketAssigner(assigner) 来自定义 BucketAssigner ` 链接： https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/connectors/file_sink.html#%E6%A1%B6%E5%88%86%E9%85%8D

Flink 消费kafka ，写ORC文件

2021-03-22 文章 Jacob

【现状如下】 Flink Job消费kafka消息，每半个小时将消费到的消息进行一系列聚合操作（flink 窗口聚合），然后写入一个orc文件。据了解，flink写orc的桶分配策略[1]，有两种：一种是基于时间，即按时间为目录创建orc文件。[test/realtime/ : 为根目录] test/realtime/ └── 2021-03-23--07 ├── part-0-0.orc ├── part-0-1.orc └── 2021-03-23--08 ├── part-0-0.orc ├── part-0-1.orc