Re: 如何获取Flink table api/sql code gen 代码

2019-08-08 文章 Zhenghua Gao
Currently Flink DO NOT provides a direct way to get code gen code. But there are indirect ways to try. 1) debug in IDE Flink use Janino to compile all code gen code, and there is a single entry point [1]

Re: Re: CsvTableSink 目录没有写入具体的数据

2019-08-08 文章 wangl...@geekplus.com.cn
抱歉,是我搞错了。 实际上是写入数据的。我在 windows 下做测试,刷新下文件的大小始终是 0 , 只有编辑看下那个文件显示的文件大小才会变更。 wangl...@geekplus.com.cn Sender: Alec Chen Send Time: 2019-08-09 10:17 Receiver: user-zh Subject: Re: Re: CsvTableSink 目录没有写入具体的数据 没数据是因为没有trigger执行, 参考sample code from doc( https://ci.apache.org/projects/flink/flink-

Re: Flink sql join问题

2019-08-08 文章 Zhenghua Gao
可以试下最新flink 1.9 blink planner的firstRow/lastRow优化[1]能否满足你的需求,目前的限制是只能基于procTime来去重。 * e.g. * 1. {{{ * SELECT a, b, c FROM ( * SELECT a, b, c, proctime, * ROW_NUMBER() OVER (PARTITION BY a ORDER BY proctime ASC) as row_num * FROM MyTable * ) WHERE row_num <= 1 * }}} will be converted to

如何讓兩個 SQL 使用相同的 KafkaTableSource

2019-08-08 文章 Tony Wei
Hi 我在我的 flink job 中透過 `flinkTableEnv.connect(new Kafka()...).registerTableSource(...)` 註冊了 一張 kafka table。但從文件上我才知道 SQL 只會在特定的條件下才會真正的轉為 DataStream,比 如說呼叫了Table#toRetractStream`。 因為如此,我發現當我嘗試在同一個 flink job 中使用了不同的 SQL 時,他們會同時產生各自的 kafka source operator。從 flink 的角度來說可能不是什麼大問題,各自獨立的 operator 會各自管理

Re: Re: CsvTableSink 目录没有写入具体的数据

2019-08-08 文章 Alec Chen
没数据是因为没有trigger执行, 参考sample code from doc( https://ci.apache.org/projects/flink/flink-docs-stable/dev/table/common.html ) // get a StreamTableEnvironment, works for BatchTableEnvironment equivalentlyStreamTableEnvironment tableEnv = StreamTableEnvironment.create(env); // create a TableSinkTableSi

Re: flink-1.8.1 yarn per job模式使用

2019-08-08 文章 Zili Chen
刚发现 user-zh 是有 archive[1] 的,上面提到过的跟你类似的问题是这个 thread[2]。 Best, tison. [1] https://lists.apache.org/list.html?user-zh@flink.apache.org [2] https://lists.apache.org/thread.html/061d8e48b091b27e797975880c193838f2c37894c2a90aa6a6e83d36@%3Cuser-zh.flink.apache.org%3E Yuhuan Li 于2019年8月7日周三 下午7:57写道:

Re: Re: CsvTableSink 目录没有写入具体的数据

2019-08-08 文章 wangl...@geekplus.com.cn
我接入了一个 RocketMQ 的流作为输入。 DataStream> ds = env.addSource(new RocketMQSource( System.out.println(res); return res; } }); tableEnv.registerDataStream("t_pick_task", ds, "pick_task_id, pic

Re: CsvTableSink 目录没有写入具体的数据

2019-08-08 文章 Alec Chen
完整代码发一下 wangl...@geekplus.com.cn 于2019年8月8日周四 下午7:37写道: > > 我按官网上的 > https://ci.apache.org/projects/flink/flink-docs-stable/dev/table/sql.html#specifying-a-query > 例子写的代码 > 但运行后 CsvTableSink 指定的目录只生成了空文件,没有具体的内容,这是为什么呢? > > > > wangl...@geekplus.com.cn >

Re: need help

2019-08-08 文章 Biao Liu
你好, 异常里可以看出 AskTimeoutException, 可以调整两个参数 akka.ask.timeout 和 web.timeout 再试一下,默认值如下 akka.ask.timeout: 10 s web.timeout: 1 PS: 搜 “AskTimeoutException Flink” 可以搜到很多相关答案 Thanks, Biao /'bɪ.aʊ/ On Thu, Aug 8, 2019 at 7:33 PM 陈某 wrote: > > > -- Forwarded message - > 发件人: 陈某

CsvTableSink 目录没有写入具体的数据

2019-08-08 文章 wangl...@geekplus.com.cn
我按官网上的 https://ci.apache.org/projects/flink/flink-docs-stable/dev/table/sql.html#specifying-a-query 例子写的代码 但运行后 CsvTableSink 指定的目录只生成了空文件,没有具体的内容,这是为什么呢? wangl...@geekplus.com.cn

Fwd: need help

2019-08-08 文章 陈某
-- Forwarded message - 发件人: 陈某 Date: 2019年8月8日周四 下午7:25 Subject: need help To: 你好,我是一个刚接触flink的新手,在搭建完flink on yarn集群后,依次启动zookeeper,hadoop,yarn,flkink集群,并提交认识到yarn上时运行遇到问题,网上搜索相关问题,暂未找到解决方式,希望能得到帮助,谢谢。 使用的运行指令为: [root@flink01 logs]# flink run -m yarn-cluster ./examples/stream

Re: flink 结合canal统计订单gmv

2019-08-08 文章 Alec Chen
Hi, 截图无法显示, 不知道你是使用FlinkSQL还是DataStreamAPI实现, 前者可以参考UDTF, 后者可以参考FlatMap "Takes one element and produces zero, one, or more elements. A flatmap function that splits sentences to words" https://ci.apache.org/projects/flink/flink-docs-stable/dev/stream/operators/ 王飞 于2019年8月8日周四 下午4:53写道: > hi 你好

Re: 关于event-time的定义与产生时间戳位置的问题。

2019-08-08 文章 Alec Chen
Hi, Q: event time这个时间戳是在什么时候打到数据上面去的, A: event time按字面意思理解为event发生的时间, 如果产生数据的设备提供了记录时间的字段, 并且业务逻辑也需要使用这个时间, 则可以将该时间作为event time. 更多信息可以参考 https://ci.apache.org/projects/flink/flink-docs-stable/dev/event_time.html 关于event time, processing time的描述 zhaoheng.zhaoh...@qq.com 于2019年8月8日周四 下午4:36写道: >

flink 结合canal统计订单gmv

2019-08-08 文章 王飞
hi 你好 需要用flink 解析mysql的binlog 统计订单表 产品维度的gmv, 但是一个insert的binlog 会出现同时购买多个订单 会出现一个集合的订单集合 但是我想统计订单里面产品维度的gmv,如下图 返回的是一个list的订单集合,但是我想取每个订单里面的产品id进行维度统计 ,请问flink 有什么算子 可以把一个list数据的流数据 变成多条流 谢谢

Re: 关于event-time的定义与产生时间戳位置的问题。

2019-08-08 文章 zhaoheng.zhaoh...@qq.com
hi,all:   event time这个时间戳是在什么时候打到数据上面去的,看api是在flink source收到数据之后再标注的,并不是真正的数据源携带过来的(比如手机终端)?使用kafka source的话根据文档的定义kafka携带的时间戳也仅仅是kafka收到数据的时候打上的时间戳。 那么有个问题:以kafka为例,数据到队列的时候按「顺序」打上时间戳,那么如果数据是「乱序到达」的也被打上了「递增的时间戳」,后续基于event-time的处理都是基于这个时间戳来进行,那不就丧失了真实世界的定义吗?   不知道有哪里是我理解不对的地方望指教!   祝好~