Re: FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-09 文章 yidan zhao
此外,按照event time分区的情况下,迟到数据怎么处理的。如果是streaming情况,window算子,迟到数据是丢弃的。对于flinksql这种从kafka写到hive,只是依靠event time做分区的情况,迟到数据是什么表现呢。 yidan zhao 于2021年11月10日周三 下午1:03写道: > 另外,写到hdfs后文件命名为.开头,最近发现部分有..开头的。请问..开头和.开头什么区别呢,是不是..开头是没用了已经。 > >

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-09 文章 yidan zhao
另外,写到hdfs后文件命名为.开头,最近发现部分有..开头的。请问..开头和.开头什么区别呢,是不是..开头是没用了已经。 比如有检查点ckpt1,ckpt2,...然后失败,重启后,基于ckpt2重启,那么ckpt2之后生成的部分数据文件会被命名为..开头表示废弃,然后重启后重新创建.开头的文件这么写,是吗。 yidan zhao 于2021年11月9日周二 上午10:50写道: > 关于FlinkSQL写hive,orc格式,性能和稳定性方面有什么建议吗。 > >

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-08 文章 yidan zhao
关于FlinkSQL写hive,orc格式,性能和稳定性方面有什么建议吗。 比如并行度设置多少合理,目前compact-coordinator并行度定死为1,不可更改应该,compact-operator是60,日常来看compact-operator经常是红色,busy100%。目前问题是偶尔会发现检查点失败,延迟等,导致实际现象是文件没合并,进而inode不足。(我们的inode的quota不足实际是)。

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-04 文章 Caizhi Weng
Hi! 1 换言之,是针对每个检查点,合并了多个并发subtask产生的文件对吧。 正确 2 除此以外,多个检查点之间的文件是没有办法合并的对吧。 正确 实际部分节点做的是后台IO了事情,是不是反映不到busy情况上 是的,busy 的计算方式是通过采样看有多少个线程正在工作。对于 sink 这种线程都在等待后台 io 的节点来说确实 busy 值不会很高。 yidan zhao 于2021年11月4日周四 下午5:57写道: > hi,还想继续问下。这个合并机制,根据文档介绍如下。 > Whether to enable automatic compaction in

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-04 文章 yidan zhao
hi,还想继续问下。这个合并机制,根据文档介绍如下。 Whether to enable automatic compaction in streaming sink or not. The data will be written to temporary files. After the checkpoint is completed, the temporary files generated by a checkpoint will be compacted. The temporary files are invisible before compaction.

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-03 文章 yidan zhao
新问题忽略,估计是因为数据小,我换了个数据量大的,看到inprogress的情况了,是基于 . 开头控制可见性的。 yidan zhao 于2021年11月3日周三 下午1:14写道: > 还有个问题,我看FlinkSQL写的文件的命名不像文档中说的如下格式: > > └── 2019-08-25--12 > ├── prefix-0-0.ext > ├── prefix-0-1.ext.inprogress.bd053eb0-5ecf-4c85-8433-9eff486ac334 > ├── prefix-1-0.ext > └──

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-02 文章 yidan zhao
还有个问题,我看FlinkSQL写的文件的命名不像文档中说的如下格式: └── 2019-08-25--12 ├── prefix-0-0.ext ├── prefix-0-1.ext.inprogress.bd053eb0-5ecf-4c85-8433-9eff486ac334 ├── prefix-1-0.ext └── prefix-1-1.ext.inprogress.bc279efe-b16f-47d8-b828-00ef6e2fbd11

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-02 文章 Caizhi Weng
Hi! hive sink 有文件合并功能可以在同一个 checkpoint 内把同一个 partition 的数据整理到同一个文件里。详见 [1] [1] https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/filesystem/#file-compaction yidan zhao 于2021年11月3日周三 上午10:03写道: > 需求 > 假设,我的hive表为tmp表,若干字段,如何以dt、hour、sid为分区,其中sid为渠道的含义。 > >

FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-02 文章 yidan zhao
需求 假设,我的hive表为tmp表,若干字段,如何以dt、hour、sid为分区,其中sid为渠道的含义。 我当前基于FlinkSQL从kafka表中读取数据,转写到hive表tmp中,采用流式写入,提交策略metastore、success-file,触发假设用process-time,delay为1h。 检查点每1min检查一次,连续2次检查点间隔10min,本质就是10min做一次检查点。 当前情况 由于数据量较大,kafka分区数量为60,因此我的任务并发可以选择60以内,假设并发也选了60。