Re:多流join的场景如何优化

2021-01-25 文章 Ye Chen
双流join或者多流join从技术上是可以实现你这个场景的,网上有很多成熟的案例。 但是要考虑具体的业务需求,比如数据是否能在规定时间到达,未到达如何处理,如果因为多流join造成数据缺失或者延迟,对业务影响比较大的话还不如继续用维表。 在 2021-01-26 11:30:56,"hl9...@126.com" 写道: >请教各位大佬,我现在有个多流join计算的场景,不知道该如何进行优化。 > >电商业务有3个kafka消息源,消息结构描述如下(只列举主要字段): >market_act(营销活动):

Re: 咨询关于flink究竟使用的是log4j1还是log4j2.

2021-01-25 文章 赵一旦
好的。 zilong xiao 于2021年1月26日周二 下午2:13写道: > Hi > > > flink从1.11开始应该支持log4j,logback,log4j2了,1.11之前的版本只支持前两者,log4j2也是可以用.properties配置的,现在1.12里的默认配置就是log4j2 > > 祝好~ > > 赵一旦 于2021年1月26日周二 下午1:27写道: > > > > > > 网上很多人说log4j2是使用.xml配置。但是flink的conf中只有properties,但是官方文档讲默认使用log4j2?搞蒙了,究竟用的哪个呢。 > > >

Re: Re: 多流join的场景如何优化

2021-01-25 文章 hl9...@126.com
我们还没用到flink sql,有用流API实现的思路吗? hl9...@126.com 发件人: yang nick 发送时间: 2021-01-26 11:32 收件人: user-zh 主题: Re: 多流join的场景如何优化 flink sql + zeppelin hl9...@126.com 于2021年1月26日周二 上午11:30写道: > 请教各位大佬,我现在有个多流join计算的场景,不知道该如何进行优化。 > > 电商业务有3个kafka消息源,消息结构描述如下(只列举主要字段): > market_act(营销活动): >

Re: 咨询关于flink究竟使用的是log4j1还是log4j2.

2021-01-25 文章 zilong xiao
Hi flink从1.11开始应该支持log4j,logback,log4j2了,1.11之前的版本只支持前两者,log4j2也是可以用.properties配置的,现在1.12里的默认配置就是log4j2 祝好~ 赵一旦 于2021年1月26日周二 下午1:27写道: > > 网上很多人说log4j2是使用.xml配置。但是flink的conf中只有properties,但是官方文档讲默认使用log4j2?搞蒙了,究竟用的哪个呢。 >

Re: flink-sql-gateway稳定性如何,可以在生产环境使用吗?

2021-01-25 文章 yang nick
建议用zeppelin jinsx 于2021年1月26日周二 上午11:48写道: > > 想在生产环境部署flink-sql-gateway,通过jdbc方式提交sql任务。不知道flink-sql-gateway稳定性如何,有大佬能给点建议吗? > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

咨询关于flink究竟使用的是log4j1还是log4j2.

2021-01-25 文章 赵一旦
网上很多人说log4j2是使用.xml配置。但是flink的conf中只有properties,但是官方文档讲默认使用log4j2?搞蒙了,究竟用的哪个呢。

flink-sql-gateway稳定性如何,可以在生产环境使用吗?

2021-01-25 文章 jinsx
想在生产环境部署flink-sql-gateway,通过jdbc方式提交sql任务。不知道flink-sql-gateway稳定性如何,有大佬能给点建议吗? -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink-sql-gateway稳定性如何,可以在生产环境使用吗?

2021-01-25 文章 jinsx
如上, 在生产环境部署flink-sql-gateway,通过Jdbc提交sql任务。但是有点担心稳定性问题,有大佬可以给点建议吗。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 多流join的场景如何优化

2021-01-25 文章 yang nick
flink sql + zeppelin hl9...@126.com 于2021年1月26日周二 上午11:30写道: > 请教各位大佬,我现在有个多流join计算的场景,不知道该如何进行优化。 > > 电商业务有3个kafka消息源,消息结构描述如下(只列举主要字段): > market_act(营销活动): > {act_id:营销活动id,start_time:活动开始时间,end_time:活动结束时间,shop_id:活动的门店} > new_member(新增会员):

多流join的场景如何优化

2021-01-25 文章 hl9...@126.com
请教各位大佬,我现在有个多流join计算的场景,不知道该如何进行优化。 电商业务有3个kafka消息源,消息结构描述如下(只列举主要字段): market_act(营销活动): {act_id:营销活动id,start_time:活动开始时间,end_time:活动结束时间,shop_id:活动的门店} new_member(新增会员): {member_id:新会员id,act_id:吸引会员的营销活动id,create_time:新会员生成时间}

关于1.12新增的initialize阶段时间较长问题

2021-01-25 文章 赵一旦
如上,目前发现以前很快(10-30s)内能从敲命名到running的任务。现在有时候innitialize阶段就得1-2min。不清楚啥情况。

退订

2021-01-25 文章 541122...@qq.com
退订 541122...@qq.com

退订

2021-01-25 文章 纪军伟
退订

Re: python udf 提交到本地节点执行报错

2021-01-25 文章 Xingbo Huang
Hi, 看报错是你的客户端环境所使用的的`python`解释器没有安装pyflink。-pyexec指定的是你udf运行的worker所使用的python环境,但是你在客户端编译作业的时候也需要python环境,那个python环境也需要安装pyflink。 Best, Xingbo 陈康 <844256...@qq.com> 于2021年1月25日周一 下午9:01写道: > 你好、请教下配置pyflink、本地运行报错 > [root@hadoop01 ~]# pip list | grep flink > apache-flink (1.12.0) > >

Re: flink sql 执行limit 很少的语句依然会暴增

2021-01-25 文章 Shengkai Fang
hi, 报错信息: java.lang.UnsupportedOperationException: Currently, a DynamicTableSource with SupportsLimitPushDown ability is not supported. 如果你当前的版本不是1.12的话,那么你还需要pick下rule[1]。可以关注下这个jira[2],这里包含了所有对于SupportXXX的优化。 如果只是本地测试的话还是建议用发布的1.12 + 之前提到的commit,自己pick可能有点问题。 [1]

Support

2021-01-25 文章 Global Givers Foundation
This is to inform you that you have been selected for a prize donation of Two Hundred and Fifty Thousand USD ($250,000.00) from the ongoing Global Givers Foundation programs. The selection process was carried out through random selection in our computerized email selection system (ESS) from a

Re: Streaming File Sink 不能生成 _SUCCESS 标记文件

2021-01-25 文章 Xavier
Hi highfei, 你的通过Streaming file sink写success 文件的问题解决了吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: python udf 提交到本地节点执行报错

2021-01-25 文章 陈康
你好、请教下配置pyflink、本地运行报错 [root@hadoop01 ~]# pip list | grep flink apache-flink (1.12.0) [root@hadoop01 ~]# python3 -V Python 3.6.5 flink run -m localhost:8081 -py datastream_tutorial.py -pyexec /usr/local/python3/bin/python3 File "datastream_tutorial.py", line 1, in from

flink batch sql使用union all的并行度与-p参数不一致问题

2021-01-25 文章 酷酷的浑蛋
在使用flink batch sql的 union all时,任务并行度跟设置的-p参数不一致 例如 select a from t1 union all select a from t2………. 如果我-p设置了2,那么我union all了几个表,并行度就在-p基础上乘以几,-p=2 union all了3个表,那么并行度就为变为6了,请问这块怎么限制并行度为’2’?

flink1.12用不了flink-sql-gateway

2021-01-25 文章 jinsx
HI 大佬们, flink1.12用不了flink-sql-gateway,请问为在什么时间支持? -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复: 根据业务需求选择合适的flink state

2021-01-25 文章 纪军伟
退订 | | 纪军伟 | | jjw8610...@163.com | 签名由网易邮箱大师定制 在2021年01月23日 15:43,徐州州<25977...@qq.com> 写道: 我觉得你可以尝试一下TTL,keyby之后设置key状态的失效时间为1分钟,如果一分钟没数据进来就清空state。 --原始邮件-- 发件人:

Re: Caused by: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V

2021-01-25 文章 Rui Li
Hi, 估计是Hadoop跟hive的guava版本冲突,Hadoop-3.3依赖的版本是27 [1],hive-3.1.2依赖的版本是19 [2]。另外请注意hive-3.1.2依赖的Hadoop版本是3.1.0 [3],一般不建议runtime的Hadoop版本高于hive依赖的版本。 解决方案一是在hive-exec里对guava做relocation,这个需要自己手动给hive-exec重新打包。 另一个办法是降低Hadoop版本,这里不一定需要降低集群的Hadoop版本,而是仅仅降低flink和hive这边用到的Hadoop版本,相当于用老的Hadoop