Re: Re: flink sql join 可以有 state 存储并从 state 恢复数据吗?

2020-03-10 文章 Kurt Young
我在社区建了个issue:https://issues.apache.org/jira/browse/FLINK-16534 后续你可以关注下 Best, Kurt On Wed, Mar 11, 2020 at 12:54 PM Kurt Young wrote: > sql client 目前还不支持这个功能。 > > Best, > Kurt > > > On Wed, Mar 11, 2020 at 11:35 AM wangl...@geekplus.com.cn < > wangl...@geekplus.com.cn> wrote: > >> Hi Kurt, >>

Re: Re: flink sql join 可以有 state 存储并从 state 恢复数据吗?

2020-03-10 文章 Kurt Young
sql client 目前还不支持这个功能。 Best, Kurt On Wed, Mar 11, 2020 at 11:35 AM wangl...@geekplus.com.cn < wangl...@geekplus.com.cn> wrote: > Hi Kurt, > 确实是可以 直接 flink cancel -s 保存状态。 > 但我是用 flink-sql-client 直接写 sql 提交的 job,再提交的时候怎样可以指定状态目录让这个任务从状态恢复呢? > > 谢谢, > 王磊 > > > *Sender:* Kurt Young > *Send

Re: scaling issue Running Flink on Kubernetes

2020-03-10 文章 Xintong Song
Hi Eleanore, That does't sound like a scaling issue. It's probably a data skew, that the data volume on some of the keys are significantly higher than others. I'm not familiar with this area though, and have copied Jark for you, who is one of the community experts in this area. Thank you~

Re: Re: flink sql join 可以有 state 存储并从 state 恢复数据吗?

2020-03-10 文章 wangl...@geekplus.com.cn
Hi Kurt, 确实是可以 直接 flink cancel -s 保存状态。 但我是用 flink-sql-client 直接写 sql 提交的 job,再提交的时候怎样可以指定状态目录让这个任务从状态恢复呢? 谢谢, 王磊 Sender: Kurt Young Send Time: 2020-03-11 10:38 Receiver: user-zh Subject: Re: flink sql join 可以有 state 存储并从 state 恢复数据吗? 理论上来说,flink

Re: flink HiveTableSink 何时支持 streaming 模式写入

2020-03-10 文章 Kurt Young
预计1.11会ready。 Best, Kurt On Wed, Mar 11, 2020 at 10:44 AM chenkaibit wrote: > Hi: > 我看 https://issues.apache.org/jira/browse/FLINK-14255 引入了 一个 > FileSystemStreamingSink,貌似是为 HiveTableSink 支持 streaming > 模式写入做准备,这个功能预计会在后续哪个版本正式发布呢? > >

flink HiveTableSink 何时支持 streaming 模式写入

2020-03-10 文章 chenkaibit
Hi: 我看 https://issues.apache.org/jira/browse/FLINK-14255 引入了 一个 FileSystemStreamingSink,貌似是为 HiveTableSink 支持 streaming 模式写入做准备,这个功能预计会在后续哪个版本正式发布呢?

Re: flink sql join 可以有 state 存储并从 state 恢复数据吗?

2020-03-10 文章 Kurt Young
理论上来说,flink SQL的作业在编译完生成JobGraph并提交到集群上后,和Datastream的作业就没有什么本质的不同了。 应该也可以支持flink cancel -s 的功能,你可以先试下,如果碰到什么问题再看看。 Best, Kurt On Wed, Mar 11, 2020 at 10:24 AM wangl...@geekplus.com.cn < wangl...@geekplus.com.cn> wrote: > 有两个表: > tableA: key valueA > tableB: key valueB > > 我之前用 flink state

Re: scaling issue Running Flink on Kubernetes

2020-03-10 文章 Eleanore Jin
_Hi Xintong, Thanks for the prompt reply! To answer your question: - Which Flink version are you using? v1.8.2 - Is this skew observed only after a scaling-up? What happens if the parallelism is initially set to the scaled-up value? I also tried this, it

flink sql join 可以有 state 存储并从 state 恢复数据吗?

2020-03-10 文章 wangl...@geekplus.com.cn
有两个表: tableA: key valueA tableB: key valueB 我之前用 flink state 的方式存储 tableA,tableB 的消息过来以后去 query 这个 state 得到 valueA 直接 写 flinkSQL 也可以实现这种功能,但这两个表有时间差,任务停止后重新提交会丢失部分 join 的结果。 flinkSQL 有没有类似 flink cancel -s 保存 state 的功能呢? 谢谢, 王磊

scaling issue Running Flink on Kubernetes

2020-03-10 文章 Eleanore Jin
Hi Experts, I have my flink application running on Kubernetes, initially with 1 Job Manager, and 2 Task Managers. Then we have the custom operator that watches for the CRD, when the CRD replicas changed, it will patch the Flink Job Manager deployment parallelism and max parallelism according to

Re: Is incremental checkpoints needed?

2020-03-10 文章 Eleanore Jin
Hi Arvid, Thank you for the clarification! Best, Eleanore On Tue, Mar 10, 2020 at 12:32 PM Arvid Heise wrote: > Hi Eleanore, > > incremental checkpointing would be needed if you have a large state > (GB-TB), but between two checkpoints only little changes happen (KB-MB). > > There are two

Is incremental checkpoints needed?

2020-03-10 文章 Eleanore Jin
Hi All, I am using Apache Beam to construct the pipeline, and this pipeline is running with Flink Runner. Both Source and Sink are Kafka topics, I have enabled Beam Exactly once semantics. I believe how it works in beam is: the messages will be cached and not processed by the

Re: org.apache.flink.table.planner.PlanningConfigurationBuilder.java

2020-03-10 文章 tison
这个文件是编译时生成的,请在根目录下运行 mvn package Best, tison. jaslou 于2020年3月10日周二 下午11:15写道: > Hi, > > > 在编译源码的时候发现flink-table-parnner模块的org.apache.flink.table.planner.PlanningConfigurationBuilder.java类报错, > 找不到 >

org.apache.flink.table.planner.PlanningConfigurationBuilder.java

2020-03-10 文章 jaslou
Hi, 在编译源码的时候发现flink-table-parnner模块的org.apache.flink.table.planner.PlanningConfigurationBuilder.java类报错, 找不到org.apache.flink.sql.parser.impl.FlinkSqlParserImpl文件,发现flink-sql-parser模块下没有impl这个package以及FlinkSqlParserImpl文件 version:release-1.10.0 Best, Jaslou

回复: Hive Source With Kerberos认证问题

2020-03-10 文章 叶贤勋
在doAs方法中是可以的。我现在hive connector中操作hive涉及认证的代码都在doAs中执行,可以解决认证问题。 前面提到的stacktrace是用我们公司自己封装的hive-exec jar打印出来的,所以跟源码对应不上,我用官网的hive-exec-2.1.1.jar也是有这个问题。 | | 叶贤勋 | | yxx_c...@163.com | 签名由网易邮箱大师定制 在2020年03月5日 13:52,Rui Li 写道:

join key 有重复的双流 join 怎样去重后发送到 kafka

2020-03-10 文章 wangl...@geekplus.com.cn
有两个 kafka 作为数据源的表 order_info: order_no info order_status: order_no status 两个表的 order_no 都会有重复,来一条其中一个表的记录,会在另外一个表中找到多条记录。 我怎样实现在另外一个表中只取出与该 join key 相关的最新的一条记录并发送到 kafka 中呢? kafka 只支持 append 模式的 sink,先把 表 group 再join 行不通。 谢谢, 王磊

Re: How to change the flink web-ui jobServer?

2020-03-10 文章 Arvid Heise
Hi LakeShen, you can change the port with conf.setInteger(RestOptions.PORT, 8082); or if want to be on the safe side specify a range conf.setString(RestOptions.BIND_PORT, "8081-8099"); On Mon, Mar 9, 2020 at 10:47 AM LakeShen wrote: > Hi community, >now I am moving the flink job to

Re: Flink 内存类型相关疑问

2020-03-10 文章 zhisheng
好的,清楚了,感谢 Xintong Song 于2020年3月10日周二 下午12:43写道: > Hi Zhisheng, > > 首先,Flink 官方的内存配置文档 [1] 中明确表示了,不推荐同时配置 > process.size、flink.size、task.heap.size + managed.size 三者中的任意两种或以上。 > > > Explicitly configuring both *total process memory* and *total Flink > > memory* is not recommended. It may lead to