还有个问题,我看FlinkSQL写的文件的命名不像文档中说的如下格式:
└── 2019-08-25--12
├── prefix-0-0.ext
├── prefix-0-1.ext.inprogress.bd053eb0-5ecf-4c85-8433-9eff486ac334
├── prefix-1-0.ext
└── prefix-1-1.ext.inprogress.bc279efe-b16f-47d8-b828-00ef6e2fbd11
Hi!
hive sink 有文件合并功能可以在同一个 checkpoint 内把同一个 partition 的数据整理到同一个文件里。详见 [1]
[1]
https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/filesystem/#file-compaction
yidan zhao 于2021年11月3日周三 上午10:03写道:
> 需求
> 假设,我的hive表为tmp表,若干字段,如何以dt、hour、sid为分区,其中sid为渠道的含义。
>
>
需求
假设,我的hive表为tmp表,若干字段,如何以dt、hour、sid为分区,其中sid为渠道的含义。
我当前基于FlinkSQL从kafka表中读取数据,转写到hive表tmp中,采用流式写入,提交策略metastore、success-file,触发假设用process-time,delay为1h。
检查点每1min检查一次,连续2次检查点间隔10min,本质就是10min做一次检查点。
当前情况
由于数据量较大,kafka分区数量为60,因此我的任务并发可以选择60以内,假设并发也选了60。
Hey everyone, we have a new two-part post published on the Apache Flink
blog about the sort-based blocking shuffle implementation in Flink. It
covers benchmark results, design and implementation details, and more! We
hope you like it and welcome any sort of feedback on it. :)
可以把具体的sql发出来看看
yidan zhao 于2021年11月2日周二 下午7:06写道:
>
> 如题,我原先基于flink1.11和1.12貌似没这个问题。目前基于1.13出现这个问题。
> 问题描述如下:
> 我t1是kafka表,其中有个属性是event_time是row time属性,然后创建了view v1,通过select ,
> event_time from t1这样创建。 现在问题是这么创建之后,我基于v1查询报错说aggre.. window只能在time
> attributes上定义。
>
如题,我原先基于flink1.11和1.12貌似没这个问题。目前基于1.13出现这个问题。
问题描述如下:
我t1是kafka表,其中有个属性是event_time是row time属性,然后创建了view v1,通过select ,
event_time from t1这样创建。 现在问题是这么创建之后,我基于v1查询报错说aggre.. window只能在time
attributes上定义。
不清楚是版本变化导致,还是我其他地方搞错了呢。
thanks
Tony Wei 于2021年11月2日周二 下午1:12写道:
> Hi yidan,
>
> 你可以試試 SQL Hints [1].
>
> [1]
>
> https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/table/sql/queries/hints/
>
>
> yidan zhao 於 2021年11月2日 週二 下午1:03寫道:
>
> > 嗯嗯,hive catalog的确不需要重新建表,但是我的场景是:我需要通过 flinkSQL 流式将 kafka 表数据写入
退订
felix
felix_...@163.com