date:20211102

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据，如何控制文件数量。

2021-11-02 文章 yidan zhao

还有个问题，我看FlinkSQL写的文件的命名不像文档中说的如下格式： └── 2019-08-25--12 ├── prefix-0-0.ext ├── prefix-0-1.ext.inprogress.bd053eb0-5ecf-4c85-8433-9eff486ac334 ├── prefix-1-0.ext └── prefix-1-1.ext.inprogress.bc279efe-b16f-47d8-b828-00ef6e2fbd11

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据，如何控制文件数量。

2021-11-02 文章 Caizhi Weng

Hi！ hive sink 有文件合并功能可以在同一个 checkpoint 内把同一个 partition 的数据整理到同一个文件里。详见 [1] [1] https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/filesystem/#file-compaction yidan zhao 于2021年11月3日周三上午10:03写道： > 需求 > 假设，我的hive表为tmp表，若干字段，如何以dt、hour、sid为分区，其中sid为渠道的含义。 > >

FlinkSQL 使用 streamingSink 写入 hive orc数据，如何控制文件数量。

2021-11-02 文章 yidan zhao

需求假设，我的hive表为tmp表，若干字段，如何以dt、hour、sid为分区，其中sid为渠道的含义。我当前基于FlinkSQL从kafka表中读取数据，转写到hive表tmp中，采用流式写入，提交策略metastore、success-file，触发假设用process-time，delay为1h。检查点每1min检查一次，连续2次检查点间隔10min，本质就是10min做一次检查点。当前情况由于数据量较大，kafka分区数量为60，因此我的任务并发可以选择60以内，假设并发也选了60。

New blog post published - Sort-Based Blocking Shuffle Implementation in Flink

2021-11-02 文章 Daisy Tsang

Hey everyone, we have a new two-part post published on the Apache Flink blog about the sort-based blocking shuffle implementation in Flink. It covers benchmark results, design and implementation details, and more! We hope you like it and welcome any sort of feedback on it. :)

Re: 创建表t1的视图v1之后rowtime属性丢失

2021-11-02 文章 godfrey he

可以把具体的sql发出来看看 yidan zhao 于2021年11月2日周二下午7:06写道： > > 如题，我原先基于flink1.11和1.12貌似没这个问题。目前基于1.13出现这个问题。 > 问题描述如下： > 我t1是kafka表，其中有个属性是event_time是row time属性，然后创建了view v1，通过select , > event_time from t1这样创建。现在问题是这么创建之后，我基于v1查询报错说aggre.. window只能在time > attributes上定义。 >

创建表t1的视图v1之后rowtime属性丢失

2021-11-02 文章 yidan zhao

如题，我原先基于flink1.11和1.12貌似没这个问题。目前基于1.13出现这个问题。问题描述如下：我t1是kafka表，其中有个属性是event_time是row time属性，然后创建了view v1，通过select , event_time from t1这样创建。现在问题是这么创建之后，我基于v1查询报错说aggre.. window只能在time attributes上定义。不清楚是版本变化导致，还是我其他地方搞错了呢。

Re: 关于FlinkSQL从kafka读取数据写到hive的一些问题

2021-11-02 文章 yidan zhao

thanks Tony Wei 于2021年11月2日周二下午1:12写道： > Hi yidan, > > 你可以試試 SQL Hints [1]. > > [1] > > https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/table/sql/queries/hints/ > > > yidan zhao 於 2021年11月2日週二下午1:03寫道： > > > 嗯嗯，hive catalog的确不需要重新建表，但是我的场景是：我需要通过 flinkSQL 流式将 kafka 表数据写入

退订

2021-11-02 文章李芳奎

退订 felix felix_...@163.com

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据，如何控制文件数量。

Re: FlinkSQL 使用 streamingSink 写入 hive orc数据，如何控制文件数量。

FlinkSQL 使用 streamingSink 写入 hive orc数据，如何控制文件数量。

New blog post published - Sort-Based Blocking Shuffle Implementation in Flink

Re: 创建表t1的视图v1之后rowtime属性丢失

创建表t1的视图v1之后rowtime属性丢失

Re: 关于FlinkSQL从kafka读取数据写到hive的一些问题

退订

8 matches

Site Navigation

Mail list logo

Footer information