Re: FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-02 文章 yidan zhao
还有个问题,我看FlinkSQL写的文件的命名不像文档中说的如下格式: └── 2019-08-25--12 ├── prefix-0-0.ext ├── prefix-0-1.ext.inprogress.bd053eb0-5ecf-4c85-8433-9eff486ac334 ├── prefix-1-0.ext └── prefix-1-1.ext.inprogress.bc279efe-b16f-47d8-b828-00ef6e2fbd11

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-02 文章 Caizhi Weng
Hi! hive sink 有文件合并功能可以在同一个 checkpoint 内把同一个 partition 的数据整理到同一个文件里。详见 [1] [1] https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/filesystem/#file-compaction yidan zhao 于2021年11月3日周三 上午10:03写道: > 需求 > 假设,我的hive表为tmp表,若干字段,如何以dt、hour、sid为分区,其中sid为渠道的含义。 > >

FlinkSQL 使用 streamingSink 写入 hive orc数据,如何控制文件数量。

2021-11-02 文章 yidan zhao
需求 假设,我的hive表为tmp表,若干字段,如何以dt、hour、sid为分区,其中sid为渠道的含义。 我当前基于FlinkSQL从kafka表中读取数据,转写到hive表tmp中,采用流式写入,提交策略metastore、success-file,触发假设用process-time,delay为1h。 检查点每1min检查一次,连续2次检查点间隔10min,本质就是10min做一次检查点。 当前情况 由于数据量较大,kafka分区数量为60,因此我的任务并发可以选择60以内,假设并发也选了60。

New blog post published - Sort-Based Blocking Shuffle Implementation in Flink

2021-11-02 文章 Daisy Tsang
Hey everyone, we have a new two-part post published on the Apache Flink blog about the sort-based blocking shuffle implementation in Flink. It covers benchmark results, design and implementation details, and more! We hope you like it and welcome any sort of feedback on it. :)

Re: 创建表t1的视图v1之后rowtime属性丢失

2021-11-02 文章 godfrey he
可以把具体的sql发出来看看 yidan zhao 于2021年11月2日周二 下午7:06写道: > > 如题,我原先基于flink1.11和1.12貌似没这个问题。目前基于1.13出现这个问题。 > 问题描述如下: > 我t1是kafka表,其中有个属性是event_time是row time属性,然后创建了view v1,通过select , > event_time from t1这样创建。 现在问题是这么创建之后,我基于v1查询报错说aggre.. window只能在time > attributes上定义。 >

创建表t1的视图v1之后rowtime属性丢失

2021-11-02 文章 yidan zhao
如题,我原先基于flink1.11和1.12貌似没这个问题。目前基于1.13出现这个问题。 问题描述如下: 我t1是kafka表,其中有个属性是event_time是row time属性,然后创建了view v1,通过select , event_time from t1这样创建。 现在问题是这么创建之后,我基于v1查询报错说aggre.. window只能在time attributes上定义。 不清楚是版本变化导致,还是我其他地方搞错了呢。

Re: 关于FlinkSQL从kafka读取数据写到hive的一些问题

2021-11-02 文章 yidan zhao
thanks Tony Wei 于2021年11月2日周二 下午1:12写道: > Hi yidan, > > 你可以試試 SQL Hints [1]. > > [1] > > https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/table/sql/queries/hints/ > > > yidan zhao 於 2021年11月2日 週二 下午1:03寫道: > > > 嗯嗯,hive catalog的确不需要重新建表,但是我的场景是:我需要通过 flinkSQL 流式将 kafka 表数据写入

退订

2021-11-02 文章 李芳奎
退订 felix felix_...@163.com