请教大佬们,blink提交yarn集群的问题

2019-04-02 文章 苏 欣
我在fink-conf.yaml文件中配置了principal和keytab,可以提交到带有kerberos认证的yarn集群中,现在我有两个问题: 1.同一客户机切换到不同的yarn集群时,提交作业之前需要改变HADOOP_CONF_DIR,krb5.conf和fink-conf.yaml的配置。这样做有点不太方便,也不太好处理同时提交的问题。 blink目前能否通过提交命令传参的方式来切换票据,或者有没有什么使用上的建议呢? 2.我看到文档上说,缓存票据目前只支持在yarn上的独立集群,这句话的意思是指目前缓存票据只能用在flink yarn session模式中吗? 发送自

?????? ??????????????Flink????

2019-04-02 文章 ????

答复: 回复: 方案询问

2019-04-02 文章 戴嘉诚
这样写好复杂。弊端和性能方面具体就不清楚,但肯定是可比MapState弱一点的 写个简单的MapState demo吧,如下: env .addSource(flinkKafkaConsumer) .process(new ProcessFunction() { private static final long serialVersionUID = -8357959184126038977L; private MapState accumulateState; @Override public void

?????? ????????

2019-04-02 文章 1900
MapState ?? 1. 2.watermarkeventtime, 3.CoGroupFunction

????: ????: ????????

2019-04-02 文章 baiyg25...@hundsun.com
table ??join?? ?? baiyg25...@hundsun.com 492341344 ?? 2019-04-02 14:42 user-zh ?? ??: ??blink

Re:回复: 远程提交代码到Flink集群

2019-04-02 文章 Yuan Yifan
获取生成的图是可以的,env.,但是有一个问题,你图中使用的各种依赖恐怕无法如期提交到各个节点上,所以运行的时候还是得打包的JAR的……我建议此事就不折腾了吧。 在 2019-04-02 14:39:45,"文报" <1010467...@qq.com> 写道: >谢谢各位的回复。 > >

Re: 远程提交代码到Flink集群

2019-04-02 文章 Biao Liu
Hi, 由于你提供的细节并不多,无法很好地理解你的需求 你的作业中没有自定义代码 (例如 java/scala 代码) 吗?如果有的话,就必须上传 jar,Flink 接受的是编译后的字节码,并不提供编译功能 PS:我理解"自动化"和"上传 jar"并没有直接联系 文报 <1010467...@qq.com> 于2019年4月2日周二 下午2:40写道: > 谢谢各位的回复。 > > >

??????????: ????????

2019-04-02 文章 492341344
??blink sql

?????? ??????????????Flink????

2019-04-02 文章 ????

答复: 批流结合

2019-04-02 文章 戴嘉诚
是什么样的离线数据?要如何累加到实时流? 发件人: 492341344 发送时间: 2019年4月2日 10:06 收件人: user-zh 主题: 批流结合 各位好,项目中有一批历史离线的统计数据,需要累加到实时流的统计中。请问有什么好的方案吗?

Re: 方案询问

2019-04-02 文章 Paul Lam
Hi, 推荐可以维护两个 MapState 分别缓存尚未匹配的两种订单。一条订单数据进来首先查找另一种订单的 MapState,若找到则输出合并的数据并删除对应的 entry,否则放入所属订单类型的 MapState。 Best, Paul Lam > 在 2019年4月2日,13:46,1900 <575209...@qq.com> 写道: > > 现在有个需求,从kafka接收订单信息,每条订单信息有1-2条数据(一般第一条是订单初始状态数据,第二条是订单终态数据);时间间隔不等(一般5秒以内), > 如何能将数据进行合并,最终合并成一条数据? > > >

Re:方案询问

2019-04-02 文章 Yuan Yifan
keyby不会“开启的窗口太多”,而是会产生较多的状态。 在 2019-04-02 13:46:48,"1900" <575209...@qq.com> 写道: >现在有个需求,从kafka接收订单信息,每条订单信息有1-2条数据(一般第一条是订单初始状态数据,第二条是订单终态数据);时间间隔不等(一般5秒以内), >如何能将数据进行合并,最终合并成一条数据? > > >现在有一个考虑,根据订单号keyby分组后处理,这样的话是不是开启的窗口太多了?

Re: HA切换

2019-04-02 文章 Biao Liu
Hi wuzhixin, HA 切换时会重启 job,Flink 社区版目前的实现是这样的 可以了解下 Blink, 我们在社区版基础上优化了 master failover 的策略,可以避免重启 job 马 敬源 于2019年4月2日周二 上午9:45写道: > Hi,wuzhixin: > 尝试改一下flink-conf.yaml 这个配置: > > jobmanager.execution.failover-strategy: individual > > > 来自 Outlook > >