双流join或者多流join从技术上是可以实现你这个场景的,网上有很多成熟的案例。
但是要考虑具体的业务需求,比如数据是否能在规定时间到达,未到达如何处理,如果因为多流join造成数据缺失或者延迟,对业务影响比较大的话还不如继续用维表。
在 2021-01-26 11:30:56,"hl9...@126.com" 写道:
>请教各位大佬,我现在有个多流join计算的场景,不知道该如何进行优化。
>
>电商业务有3个kafka消息源,消息结构描述如下(只列举主要字段):
>market_act(营销活动):
好的。
zilong xiao 于2021年1月26日周二 下午2:13写道:
> Hi
>
>
> flink从1.11开始应该支持log4j,logback,log4j2了,1.11之前的版本只支持前两者,log4j2也是可以用.properties配置的,现在1.12里的默认配置就是log4j2
>
> 祝好~
>
> 赵一旦 于2021年1月26日周二 下午1:27写道:
>
> >
> >
> 网上很多人说log4j2是使用.xml配置。但是flink的conf中只有properties,但是官方文档讲默认使用log4j2?搞蒙了,究竟用的哪个呢。
> >
>
我们还没用到flink sql,有用流API实现的思路吗?
hl9...@126.com
发件人: yang nick
发送时间: 2021-01-26 11:32
收件人: user-zh
主题: Re: 多流join的场景如何优化
flink sql + zeppelin
hl9...@126.com 于2021年1月26日周二 上午11:30写道:
> 请教各位大佬,我现在有个多流join计算的场景,不知道该如何进行优化。
>
> 电商业务有3个kafka消息源,消息结构描述如下(只列举主要字段):
> market_act(营销活动):
>
Hi
flink从1.11开始应该支持log4j,logback,log4j2了,1.11之前的版本只支持前两者,log4j2也是可以用.properties配置的,现在1.12里的默认配置就是log4j2
祝好~
赵一旦 于2021年1月26日周二 下午1:27写道:
>
> 网上很多人说log4j2是使用.xml配置。但是flink的conf中只有properties,但是官方文档讲默认使用log4j2?搞蒙了,究竟用的哪个呢。
>
建议用zeppelin
jinsx 于2021年1月26日周二 上午11:48写道:
>
> 想在生产环境部署flink-sql-gateway,通过jdbc方式提交sql任务。不知道flink-sql-gateway稳定性如何,有大佬能给点建议吗?
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
网上很多人说log4j2是使用.xml配置。但是flink的conf中只有properties,但是官方文档讲默认使用log4j2?搞蒙了,究竟用的哪个呢。
想在生产环境部署flink-sql-gateway,通过jdbc方式提交sql任务。不知道flink-sql-gateway稳定性如何,有大佬能给点建议吗?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
如上,
在生产环境部署flink-sql-gateway,通过Jdbc提交sql任务。但是有点担心稳定性问题,有大佬可以给点建议吗。
--
Sent from: http://apache-flink.147419.n8.nabble.com/
flink sql + zeppelin
hl9...@126.com 于2021年1月26日周二 上午11:30写道:
> 请教各位大佬,我现在有个多流join计算的场景,不知道该如何进行优化。
>
> 电商业务有3个kafka消息源,消息结构描述如下(只列举主要字段):
> market_act(营销活动):
> {act_id:营销活动id,start_time:活动开始时间,end_time:活动结束时间,shop_id:活动的门店}
> new_member(新增会员):
请教各位大佬,我现在有个多流join计算的场景,不知道该如何进行优化。
电商业务有3个kafka消息源,消息结构描述如下(只列举主要字段):
market_act(营销活动):
{act_id:营销活动id,start_time:活动开始时间,end_time:活动结束时间,shop_id:活动的门店}
new_member(新增会员): {member_id:新会员id,act_id:吸引会员的营销活动id,create_time:新会员生成时间}
如上,目前发现以前很快(10-30s)内能从敲命名到running的任务。现在有时候innitialize阶段就得1-2min。不清楚啥情况。
退订
541122...@qq.com
退订
Hi,
看报错是你的客户端环境所使用的的`python`解释器没有安装pyflink。-pyexec指定的是你udf运行的worker所使用的python环境,但是你在客户端编译作业的时候也需要python环境,那个python环境也需要安装pyflink。
Best,
Xingbo
陈康 <844256...@qq.com> 于2021年1月25日周一 下午9:01写道:
> 你好、请教下配置pyflink、本地运行报错
> [root@hadoop01 ~]# pip list | grep flink
> apache-flink (1.12.0)
>
>
hi,
报错信息: java.lang.UnsupportedOperationException: Currently, a
DynamicTableSource with SupportsLimitPushDown ability is not supported.
如果你当前的版本不是1.12的话,那么你还需要pick下rule[1]。可以关注下这个jira[2],这里包含了所有对于SupportXXX的优化。
如果只是本地测试的话还是建议用发布的1.12 + 之前提到的commit,自己pick可能有点问题。
[1]
This is to inform you that you have been selected for a prize donation of Two
Hundred and Fifty Thousand USD ($250,000.00) from the ongoing Global Givers
Foundation programs.
The selection process was carried out through random selection in our
computerized email selection system (ESS) from a
Hi highfei,
你的通过Streaming file sink写success 文件的问题解决了吗
--
Sent from: http://apache-flink.147419.n8.nabble.com/
你好、请教下配置pyflink、本地运行报错
[root@hadoop01 ~]# pip list | grep flink
apache-flink (1.12.0)
[root@hadoop01 ~]# python3 -V
Python 3.6.5
flink run -m localhost:8081 -py datastream_tutorial.py -pyexec
/usr/local/python3/bin/python3
File "datastream_tutorial.py", line 1, in
from
在使用flink batch sql的 union all时,任务并行度跟设置的-p参数不一致
例如 select a from t1 union all select a from t2……….
如果我-p设置了2,那么我union all了几个表,并行度就在-p基础上乘以几,-p=2 union
all了3个表,那么并行度就为变为6了,请问这块怎么限制并行度为’2’?
HI 大佬们,
flink1.12用不了flink-sql-gateway,请问为在什么时间支持?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
退订
| |
纪军伟
|
|
jjw8610...@163.com
|
签名由网易邮箱大师定制
在2021年01月23日 15:43,徐州州<25977...@qq.com> 写道:
我觉得你可以尝试一下TTL,keyby之后设置key状态的失效时间为1分钟,如果一分钟没数据进来就清空state。
--原始邮件--
发件人:
Hi,
估计是Hadoop跟hive的guava版本冲突,Hadoop-3.3依赖的版本是27 [1],hive-3.1.2依赖的版本是19
[2]。另外请注意hive-3.1.2依赖的Hadoop版本是3.1.0 [3],一般不建议runtime的Hadoop版本高于hive依赖的版本。
解决方案一是在hive-exec里对guava做relocation,这个需要自己手动给hive-exec重新打包。
另一个办法是降低Hadoop版本,这里不一定需要降低集群的Hadoop版本,而是仅仅降低flink和hive这边用到的Hadoop版本,相当于用老的Hadoop
22 matches
Mail list logo