Re: Flink sql 实现全局row_number()分组排序

2021-03-17 文章 Kurt Young
直接 SQL Top-N 即可: https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/queries.html#top-n Best, Kurt On Tue, Mar 16, 2021 at 3:40 PM Tian Hengyu wrote: > 咋么有人啊~~~ > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ >

Re: [DISCUSS] Deprecation and removal of the legacy SQL planner

2021-02-25 文章 Kurt Young
Hi Timo, First of all I want to thank you for introducing this planner design back in 1.9, this is a great work that allows lots of blink features to be merged to Flink in a reasonably short time. It greatly accelerates the evolution speed of Table & SQL. Everything comes with a cost, as you

Re: [DISCUSS] Correct time-related function behavior in Flink SQL

2021-01-20 文章 Kurt Young
cc this to user & user-zh mailing list because this will affect lots of users, and also quite a lot of users were asking questions around this topic. Let me try to understand this from user's perspective. Your proposal will affect five functions, which are: - PROCTIME() - NOW() -

【公告】Flink Forward 2020 亚洲峰会议题提交时间延长

2020-10-09 文章 Kurt Young
大家好, 希望大家都过了一个美好充实的国庆。由于长假的影响,我们也决定将 Flink Forward 2020 亚洲峰会的议题提交截止时间延长到 *2020年10月22日*,提交链接:https://sourl.cn/ZEXM2Y 期待您的投递和参会!如果您有任何问题欢迎与我联系。 谢谢, Kurt

【公告】Flink Forward 2020 亚洲峰会议题征集

2020-09-27 文章 Kurt Young
大家好, 自 2018 年 Flink Forward 大会首次引入亚洲以后,Flink 社区已成功举办了两届盛况空前的大会。不论是在参会公司、参会人数,还是议题 的深度和丰富度,无一不体现了这是目前国内最具规模和影响力的数据处理领域大会之一。 结合 2020 年的特殊情况,Flink Forward 亚洲峰会将转为全免费的线上模式。与以往相比,今年大会的主要特色在于: 1. *在线直播互动,听众反馈更及时*:大会将在线收集听众反馈,实时了解听众疑惑和问题并进行快速互动形成良性沟通闭环。 2.

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Kurt Young
Congratulations Dian! Best, Kurt On Thu, Aug 27, 2020 at 7:28 PM Rui Li wrote: > Congratulations Dian! > > On Thu, Aug 27, 2020 at 5:39 PM Yuan Mei wrote: > >> Congrats! >> >> On Thu, Aug 27, 2020 at 5:38 PM Xingbo Huang wrote: >> >>> Congratulations Dian! >>> >>> Best, >>> Xingbo >>> >>>

Re: flink-1.11 集成hive-1.2.1 DDL问题

2020-07-19 文章 Kurt Young
1.11 把默认planner换成blink了,需要添加下blink planner的依赖 Best, Kurt On Mon, Jul 20, 2020 at 11:39 AM Rui Li wrote: > stacktrace上看起来是创建blink planner的时候出错的。检查下依赖的blink planner版本是不是正确? > > On Fri, Jul 17, 2020 at 7:29 PM kcz <573693...@qq.com> wrote: > > > idea 本地测试 > > 跟hive有关pom依赖 > > hive-exec

Re: Flink SQL ddl 中含有关键字 且在ddl中使用TO_TIMESTAMP、TO_DATE函数语法检查异常问题

2020-06-16 文章 Kurt Young
应该是这个: https://issues.apache.org/jira/browse/FLINK-16068 Best, Kurt On Tue, Jun 16, 2020 at 5:09 PM zilong xiao wrote: > 我看了下1.10.1的release note,您说的应该就是这个issue: > https://issues.apache.org/jira/browse/FLINK-16345 > ,但是这个issue所描述的问题貌似和我的不太一样,我的这个问题是在使用TO_TIMESTAMP、TO_ >

Re: flink1.11 小疑问(提升 DDL 易用性(动态 Table 属性))

2020-06-15 文章 Kurt Young
ry内指定的属性到底是赋予给哪张表的?这个其实是比较模糊的。 > > > [1] > https://ci.apache.org/projects/flink/flink-docs-master/dev/table/sql/create.html#create-table > > > Best, > Yichao Yang > > > > > --原始邮件-- > 发件人:"Kurt Young" 发送时间:2020年6月1

Re: flink1.11 小疑问(提升 DDL 易用性(动态 Table 属性))

2020-06-15 文章 Kurt Young
就是你DDL定义表的时候的WITH参数,有时候有个别参数写的不对或者需要调整,可以在query里直接修改,而不用重新定义一张新表。 Best, Kurt On Tue, Jun 16, 2020 at 9:49 AM kcz <573693...@qq.com> wrote: > 动态 Table 属性是指什么?可以举一个列子吗。

Re: Flink/SparkStreaming 性能测试(吞吐/延时)

2020-06-11 文章 Kurt Young
我们最近做了一个基于beam nexmark的性能对比测试[1],你可以参考一下。 和beam的测试不同的是,我们用各自引擎的API对着测试case描述的场景重新写了一下,并不是像这个里面一样全都用 beam的api写测试case,然后翻译到多个runner之上。 [1] https://beam.apache.org/documentation/sdks/java/testing/nexmark/ Best, Kurt On Fri, Jun 12, 2020 at 10:49 AM Zhonghan Tang <13122260...@163.com> wrote: >

Re: [DISCUSS] Hierarchies in ConfigOption

2020-04-29 文章 Kurt Young
IIUC FLIP-122 already delegate the responsibility for designing and parsing connector properties to connector developers. So frankly speaking, no matter which style we choose, there is no strong guarantee for either of these. So it's also possible that developers can choose a totally different way

Re: Re: sql 行转列

2020-04-26 文章 Kurt Young
从你的原始sql看起来,我猜测你是想在做统计的时候,要套用一个过滤条件?从你的原始sql我没看出任何和“行转列”相关的迹象和需求,能否详细解释一下 Best, Kurt On Sun, Apr 26, 2020 at 6:20 PM Benchao Li wrote: > 你指的是多行转多行么?如果是的话,那你需要的应该是Table Aggregate Function[1],但是这个只能在Table Api里使用, > 在SQL里面没有这种语义可以直接使用。 > > [1] > >

Re: how to send back result via job manager to client

2020-04-19 文章 Kurt Young
可以看下这个jira:https://issues.apache.org/jira/browse/FLINK-14807 Best, Kurt On Mon, Apr 20, 2020 at 7:07 AM Eleanore Jin wrote: > Hi, > 刚刚读到一篇关于Flink 在OLAP 上的使用案例 ( > https://ververica.cn/developers/olap-engine-performance-optimization-and-application-cases/), > 其中一点提到了: > [image: image.png] >

Re: Flink Weekly | 每周社区动态更新 - 2020/04/18

2020-04-18 文章 Kurt Young
感谢整理! Best, Kurt On Sat, Apr 18, 2020 at 9:43 PM 王雷 wrote: > 大家好,本文为 Flink Weekly 的第十三期,由王雷整理,主要内容包括:近期社区开发进展,邮件问题答疑以及 Flink > 最新社区动态及技术文章推荐。 > > > > > Flink 开发进展 > > ■ [Releases] Tzu-Li (Gordon) Tai 发布了 Apache Flink Stateful Functions 2.0.0。 > > [1] >

Re: 【反馈收集】在 1.11 版本中将 blink planner 作为默认的 planner

2020-04-03 文章 Kurt Young
问题 > --原始邮件-- > 发件人:"Kurt Young" 发送时间:2020年4月1日(星期三) 上午9:22 > 收件人:"user-zh" > 主题:【反馈收集】在 1.11 版本中将 blink planner 作为默认的 planner > > > > 大家好, > > 正如大家所知,Blink planner 是 Flink 1.9 版本中引入的一个全新的 Table API 和 SQL 的翻译优化 > 器,并且我们已经在 1.10 版

Re: flink 1.10 createTemporaryTable丢失proctime问题

2020-04-02 文章 Kurt Young
看起来你是踩到了这个bug:https://issues.apache.org/jira/browse/FLINK-16160 在这个bug修复前,先继续用老的API吧 Best, Kurt On Thu, Apr 2, 2020 at 10:34 AM deadwind4 wrote: > registerTableSource 被标记了@Deprecated 在flink > 1.10,我这种情况是继续沿用过期的API(registerTableSource)吗? > > > 原始邮件 > 发件人: deadwind4 > 收件人: user-zh > 发送时间:

【反馈收集】在 1.11 版本中将 blink planner 作为默认的 planner

2020-03-31 文章 Kurt Young
大家好, 正如大家所知,Blink planner 是 Flink 1.9 版本中引入的一个全新的 Table API 和 SQL 的翻译优化 器,并且我们已经在 1.10 版本中将其作为 SQL CLI 的默认 planner。由于社区很早就已经决定不再 针对老的优化器去增添任何新的功能,所以从功能和性能上来说,老的 flink planner 已经缺了很多 现在社区最新的 SQL 相关的功能,比如新的类型系统,更多的DDL的支持,以及即将在 1.11 发布 的新的 TableSource 和 TableSink 接口和随之而来的对 Binlog 类日志的解析。

Re: flink 安装包的几个 jar 是怎么 build 出来的

2020-03-26 文章 Kurt Young
flink-table-uber-blink 应该是这个module,它负责打出 blink planner 的胖包(uber jar) Best, Kurt On Thu, Mar 26, 2020 at 5:54 PM wangl...@geekplus.com.cn < wangl...@geekplus.com.cn> wrote: > > 单机版 下载 tgz 解压,lib 目录下有好几个 jar, 比如 flink-table-blink_2.12-1.10.0.jar > 这个 jar 是从哪里 build 出来的呢? > > 我 clone github

Re: 关于 SQL DATE_FORMAT 的时区设置的构想

2020-03-25 文章 Kurt Young
我们先改成 timestamp with local zone,如果这个字段的类型在整个query里都没变过,那个 with time zone的效果也差不多了。 Best, Kurt On Wed, Mar 25, 2020 at 8:43 PM Zhenghua Gao wrote: > Hi Jark, > > 这里的确是有问题的。 > 目前的问题是Calcite本身并不支持TIMESTAMP WITH TIME ZONE. > > *Best Regards,* > *Zhenghua Gao* > > > On Tue, Mar 24, 2020 at 11:00 PM

Re: 关于flink sql 1.10 source并行度自动推断的疑问

2020-03-24 文章 Kurt Young
你的数据量有多大?有一个可能的原因是source的其他并发调度起来的时候,数据已经被先调度起来的并发读完了。 Best, Kurt On Tue, Mar 24, 2020 at 10:39 PM Chief wrote: > hi all: > 之前用flink sql查询hive的数据,hive的数据文件是150个,sql > client配置文件设置的并行度是10,source通过自动推断生成了150并发,但是通过看web > ui发现只有前十个子任务是读到数据了,其他的任务显示没有读到数据,请问是我设置有问题吗?

Re: Flink SQL1.10 大表join如何优化?

2020-03-21 文章 Kurt Young
你的plan里除了source之外,其他所有节点都是在单并发运行,这对两张1000多万的表join来说是不够的,你可以尝试加大并发。 Best, Kurt On Sat, Mar 21, 2020 at 1:30 PM 111 wrote: > Hi: > 看了下源代码,了解了下Hybrid hash join。大致了解了瓶颈点: > Hybrid hash > join,会把build表(也就是我的右表)通过hash映射成map,并按照某种规则进行分区存储(有的在内存,超过的放入磁盘)。 > 目前看磁盘上的那部分join应该是整个任务的瓶颈。 >

Re: sql关键字问题

2020-03-18 文章 Kurt Young
好像已经有了,应该是这个jira: https://issues.apache.org/jira/browse/FLINK-16526 Best, Kurt On Wed, Mar 18, 2020 at 4:19 PM Jingsong Li wrote: > Hi lucas, > > 赞专业的分析,看起来是Flink的bug,你可以建个Jira来跟踪。 > CC: @Yuzhao Chen > > Best, > Jingsong Lee > > On Wed, Mar 18, 2020 at 4:15 PM lucas.wu wrote: > > > 初步找到了原因

Re: Re: flink sql join 可以有 state 存储并从 state 恢复数据吗?

2020-03-11 文章 Kurt Young
https://github.com/ververica/flink-sql-gateway 了解一下 Best, Kurt On Wed, Mar 11, 2020 at 9:26 PM zhisheng wrote: > hi, Kurt Young > > 除了使用 sql-client 可以使用纯 SQL 来执行,有没有其他的办法来执行?因为通常不让本地直接连到生产的环境,也不会直接在生产的机器执行 > sql-client > > Kurt Young 于2020年3月11日周三 下午7:59写道: >

Re: Re: flink sql join 可以有 state 存储并从 state 恢复数据吗?

2020-03-11 文章 Kurt Young
state > 存储并且再次提交任务可以被访问到直接用吗? > > 谢谢, > 王磊 > > -- > wangl...@geekplus.com.cn > > > *Sender:* Kurt Young > *Send Time:* 2020-03-11 12:54 > *Receiver:* wangl...@geekplus.com.cn > *cc:* user-zh > *Subject:* Re: Re: flink sql joi

Re: Re: flink sql join 可以有 state 存储并从 state 恢复数据吗?

2020-03-10 文章 Kurt Young
我在社区建了个issue:https://issues.apache.org/jira/browse/FLINK-16534 后续你可以关注下 Best, Kurt On Wed, Mar 11, 2020 at 12:54 PM Kurt Young wrote: > sql client 目前还不支持这个功能。 > > Best, > Kurt > > > On Wed, Mar 11, 2020 at 11:35 AM wangl...@geekplus.com.cn < > wangl...@geekplus.

Re: Re: flink sql join 可以有 state 存储并从 state 恢复数据吗?

2020-03-10 文章 Kurt Young
sql client 目前还不支持这个功能。 Best, Kurt On Wed, Mar 11, 2020 at 11:35 AM wangl...@geekplus.com.cn < wangl...@geekplus.com.cn> wrote: > Hi Kurt, > 确实是可以 直接 flink cancel -s 保存状态。 > 但我是用 flink-sql-client 直接写 sql 提交的 job,再提交的时候怎样可以指定状态目录让这个任务从状态恢复呢? > > 谢谢, > 王磊 > > > *

Re: flink HiveTableSink 何时支持 streaming 模式写入

2020-03-10 文章 Kurt Young
预计1.11会ready。 Best, Kurt On Wed, Mar 11, 2020 at 10:44 AM chenkaibit wrote: > Hi: > 我看 https://issues.apache.org/jira/browse/FLINK-14255 引入了 一个 > FileSystemStreamingSink,貌似是为 HiveTableSink 支持 streaming > 模式写入做准备,这个功能预计会在后续哪个版本正式发布呢? > >

Re: flink sql join 可以有 state 存储并从 state 恢复数据吗?

2020-03-10 文章 Kurt Young
理论上来说,flink SQL的作业在编译完生成JobGraph并提交到集群上后,和Datastream的作业就没有什么本质的不同了。 应该也可以支持flink cancel -s 的功能,你可以先试下,如果碰到什么问题再看看。 Best, Kurt On Wed, Mar 11, 2020 at 10:24 AM wangl...@geekplus.com.cn < wangl...@geekplus.com.cn> wrote: > 有两个表: > tableA: key valueA > tableB: key valueB > > 我之前用 flink state

Re: flink 长时间运行后出现报错

2020-03-09 文章 Kurt Young
我帮你 cc 了对 runtime 更熟悉的 zhuzhu 同学。 Best, Kurt On Mon, Mar 9, 2020 at 6:44 PM lucas.wu wrote: > 没人回复大概是之前没人遇到过这种问题,所以下午看了flink的代码,终于有了点头绪。 > 原因分析: > 这个异常的原因就是在task出现异常之后,它需要调用updateTaskExecutionState(TaskExecutionState > taskExecutionState)这个rpc接口去通知flink jobmanager > >

Re: Hive Source With Kerberos认证问题

2020-02-27 文章 Kurt Young
cc @li...@apache.org Best, Kurt On Thu, Feb 13, 2020 at 10:22 AM 叶贤勋 wrote: > Hi 大家好: > 在做hive2.1.1 source带Kerberos认证有个异常请教下大家。 > flink 版本1.9 > hive 版本2.1.1,实现了HiveShimV211。 > 代码: > public class HiveCatalogTest { >private static final Logger LOG = >

Re: Flink向量化读取parquet

2020-01-13 文章 Kurt Young
据我所知,已经有这部分的计划了,不出意外的话应该会在 1.11 版本发布: https://issues.apache.org/jira/browse/FLINK-11899 Best, Kurt On Mon, Jan 13, 2020 at 7:50 PM faaron zheng wrote: > > flink使用的是hadoop中的parquetfilereader,这个貌似不支持向量化读取,hive和spark目前都支持向量化读取,请加一下flink有什么计划吗? >

Re: 疑似ParquetTableSource Filter Pushdown bug

2020-01-08 文章 Kurt Young
如果是优化器一直卡住不能退出,那基本肯定是BUG了。请开一个issue把这些信息上传上去吧,我们会调查一下是什么问题导致的。 Best, Kurt On Wed, Jan 8, 2020 at 5:12 PM jun su wrote: > 添加代码文字: > > def main(args: Array[String]): Unit = { > > val env = StreamExecutionEnvironment.getExecutionEnvironment >

Re: Flink SQL Count Distinct performance optimization

2020-01-07 文章 Kurt Young
Hi, Could you try to find out what's the bottleneck of your current job? This would leads to different optimizations. Such as whether it's CPU bounded, or you have too big local state thus stuck by too many slow IOs. Best, Kurt On Wed, Jan 8, 2020 at 3:53 PM 贺小令 wrote: > hi sunfulin, > you

Re: 注册table时catalog无法变更

2020-01-07 文章 Kurt Young
临时表的话只能放在指定的catalog中,不建议将临时表注册到另一个catalog,比如hive catalog。 临时表大部分情况下是不能序列化的,那样的话代码会报错。 Best, Kurt On Tue, Jan 7, 2020 at 9:20 PM 贺小令 wrote: > hi, > > streamTableEnvironment.registerDataStream(tableName, dataStream, fields); > 注册的表都是Temporary Table。 > > 你可以通过: > catalog = new

Re: Flink1.9批任务yn和ys对任务的影响

2019-12-25 文章 Kurt Young
也可以试下最新的1.10版本,这个版本里面 sql 的算子已经不再申请固定写死的内存数量, 而是根据当时 slot 能提供多少 managed 内存来自适应了。 Best, Kurt On Thu, Dec 26, 2019 at 1:36 PM Xintong Song wrote: > slot需要多少内存是和具体作业相关的,不同作业差别会比较大。 > > slot的资源需求是根据所有算子的资源需求相加得到的,如果你对你的作业用到了哪些算子比较了解的话,可以根据算子的资源需求推算出来。 > 算子的默认资源需求可以参考

Re: Flink1.9.1的SQL向前不兼容的问题

2019-12-13 文章 Kurt Young
Hi, 建议你翻译成英文然后到jira里建个issue。 Best, Kurt On Thu, Dec 12, 2019 at 11:39 PM 李佟 wrote: > 近期进行Flink升级,将原来的程序从老的集群(1.8.0运行正常)迁移到新的集群(1.9.1)中。在部署程序的时候发现在1.9.1的集群中,原来运行正常的Flink > SQL的程序无法执行,异常如下: > > > org.apache.flink.table.api.ValidationException: *Window can only be > defined over a time

Re: [Discuss] What should the "Data Source" be translated into Chinese

2019-08-13 文章 Kurt Young
ot; into “数据漕” > 漕,读作:cáo。汉字基本字义指通过水道运输粮食:漕运|漕粮。==> > https://baike.baidu.com/item/%E6%BC%95?forcehttps=1%3Ffr%3Dkg_hanyu > > > > - 原始邮件 - > 发件人:Kurt Young > 收件人:dev , user-zh > 主题:Re: [Discuss] What should the "Data Source" be translated into Chine

Re: [Discuss] What should the "Data Source" be translated into Chinese

2019-08-13 文章 Kurt Young
cc user-zh mailing list, since there are lots of chinese speaking people. Best, Kurt On Tue, Aug 13, 2019 at 4:02 PM WangHengwei wrote: > Hi all, > > > I'm working on [FLINK-13405] Translate "Basic API Concepts" page into > Chinese. I have a problem. > > Usually we translate "Data

Re: Blink在Hive表没有统计信息的情况下如何优化

2019-05-28 文章 Kurt Young
你先试试把HashJoin这个算子禁用看看,TableConfig里添加这个配置 sql.exec.disabled-operators: HashJoin Best, Kurt On Tue, May 28, 2019 at 3:23 PM bigdatayunzhongyan < bigdatayunzhong...@aliyun.com> wrote: > 感谢 @Kurt Young 大神的回复,报错信息在附件。谢谢! > > > 在2019年05月28日 14:10,Kurt Young 写道: > > 没有统计信息确实

Re: 结邮 Re: Re: 请教一下Blink资源分配问题

2019-03-29 文章 Kurt Young
Blink是基于Flink 1.5.1做的二次开发,可能存在部分配置和最新版Flink不一致的情况。Sorry 让你踩坑了。 Best, Kurt On Fri, Mar 29, 2019 at 5:52 PM 邓成刚【qq】 wrote: > 终于发现是什么问题了,是由于Blink的 配置与FLINK不同导致: > Flink 里没有这个配置: taskmanager.cpu.core 默认是 1 > > 另外:blink 里 taskmanager.heap.mb 与 flink 的 taskmanager.heap.size 不同导致 >

Re: blink开源版本维表关联时开启缓存方式

2019-03-29 文章 Kurt Young
当时没有想清楚如何把Cache当成一个public的接口向外提供,它更像是一些实现上的特定优化。 后续我们在flink master上实现维表join的时候,会把这个问题考虑进去。 Best, Kurt On Fri, Mar 29, 2019 at 5:09 PM moxian wrote: > 这么好的一个优化,为啥被拿掉了呢? > > Kurt Young 于2019年3月29日周五 上午9:39写道: > > > Hi, > > > > Blink开源的时候把Cache的实现暂时拿掉了,你可以根据

Re: blink开源版本维表关联时开启缓存方式

2019-03-28 文章 Kurt Young
Hi, Blink开源的时候把Cache的实现暂时拿掉了,你可以根据自己的需要自己实现一个cache。 Best, Kurt On Wed, Mar 27, 2019 at 4:44 PM 苏 欣 wrote: > 我在ppt里面看到这些内容,但是在开源的blink里面没有找到相关的配置,请问各位老师应该如何开启缓存策略? > > > > 发送自 Windows 10 版邮件 应用 > > >

Re: flink疑问

2019-03-25 文章 Kurt Young
大家都好热情啊~ @IORI,这个问题取决于你是要把一个流复制成两个流分别套用不用的处理逻辑呢,还是说是要把数据根据一定的规则分开成两个流。 如果是复制的话,用@邓成刚 的方法就可以 如果是要进行数据分割的话,那用split或者sideoutput都行 Best, Kurt On Tue, Mar 26, 2019 at 10:45 AM Yun Chen wrote: > split官方好像是不建议使用了,建议使用 Side Outputs > > >

Re: 欢迎来到 Apache Flink 社区

2019-01-29 文章 Kurt Young
继续测试一把 On Tue, Jan 29, 2019 at 5:44 PM Kurt Young wrote: > 欢迎来到 Apache Flink 社区 >

欢迎来到 Apache Flink 社区

2019-01-29 文章 Kurt Young
欢迎来到 Apache Flink 社区

大家好!

2019-01-29 文章 Kurt Young
测试(test)