flink 消费kafka 数据去重后聚合问题

2021-07-12 文章 yanyunpeng
create view distinct_view as select val,ptime from (select * ,ROW_NUMBER() OVER (PARTITION BY MN ORDER BY ptime ) as rowNum from test_udf) where rowNum = 1 select avg(val) as avg_var, STDDEV_POP(val) as spddev_pop_var from distinct_view GROUP BY HOP(ptime, INTERVAL '2' SECONDS, INTERVAL '1' DA

flink 1.13 application mode on yarn ??????????????????????????

2021-07-12 文章 ????????????????
Hi All??     ?? Flink 1.13.1 ?? application mode ??HDP 3.1.5, Hadoop 3.1.1??, /usr/local/flink/flink-1.13.1/bin/flink run-application \ -t yarn-application \ -m yarn-cluster \ -Djobmanager.memory.process.size=4G \ -Dtaskmanager.memory.process.size=2G \ -Dtaskmanager.nu

Re:Re:Re: flink on native k8s要如何动态改变日志配置?

2021-07-12 文章 东东
是的,日志配置是针对JM和TM的 在 2021-07-13 12:37:20,"casel.chen" 写道: >如果是 session mode的话,日志配置文件是对整个session上运行的作业都生效么?每个运行在session上的作业可以独立配置日志吗?谢谢! > > > > > > > > > > > > > > > > > >在 2021-07-12 10:57:08,"Yang Wang" 写道: >>你直接修改ConfigMap中存储的log4j-console.properties就可以立即生效了,具体参考这里[1] >> >>[1]. >>https://ci

Re:Re: flink on native k8s要如何动态改变日志配置?

2021-07-12 文章 casel.chen
如果是 session mode的话,日志配置文件是对整个session上运行的作业都生效么?每个运行在session上的作业可以独立配置日志吗?谢谢! 在 2021-07-12 10:57:08,"Yang Wang" 写道: >你直接修改ConfigMap中存储的log4j-console.properties就可以立即生效了,具体参考这里[1] > >[1]. >https://ci.apache.org/projects/flink/flink-docs-master/docs/deployment/resource-providers/nativ

Re:flink作业日志能否保存到oss?

2021-07-12 文章 东东
这是k8s运维的问题,k8s应该有自己的日志收集机制,问一下你的运维,让他们把你的workload日志往oss也写一份,并带上各种必要的meta信息(比如pod信息、宿主信息等等)。 在 2021-07-12 10:08:31,"casel.chen" 写道: >我们使用k8s运行flink作业,作业日志存储在容器中,一旦作业挂了容器销毁了就没法获取出问题的日志,有什么办法可以将日志保存到oss上么?通过配置启动history > server吗?

Re: flink批作业需要哪些配置?

2021-07-12 文章 Caizhi Weng
Hi! 这个问题比较宽泛。理论上对于 SQL 流作业,应该只需要去除 watermark 的定义以及相关的运算即可运行。如果在运行的过程中遇到了具体的问题可以继续在邮件列表内寻求帮助。 casel.chen 于2021年7月12日周一 下午11:20写道: > flink运行批作业相较于流作业需要修改/添加哪些配置呢? > 另外,使用方面有什么特别需要注意的地方吗?谢谢!

flink批作业需要哪些配置?

2021-07-12 文章 casel.chen
flink运行批作业相较于流作业需要修改/添加哪些配置呢? 另外,使用方面有什么特别需要注意的地方吗?谢谢!

Re: Pyflink中使用ConnectedStream时,key_by后分区的问题

2021-07-12 文章 赵飞
Hi, 刚才直接在Gmail回复了您的邮件,但是在Pony Mail这边似乎看不到,所以我再贴一遍。 以下是完整代码。需要补充的是,相同条件下运行相同代码,结果可能会不一样,有时候正常,有时候能够复现问题。 -- import random from pyflink.common.typeinfo import Types from pyflink.datastream import StreamExecutionEnvironment from pyflink.datastream.functions import KeyedCoProcessFunction from py

Re: Pyflink中使用ConnectedStream时,key_by后分区的问题

2021-07-12 文章 赵飞
Hi, 以下是完整代码。需要补充的是,相同条件下运行相同代码,结果可能会不一样,有时候正常,有时候能够复现问题。 import random from pyflink.common.typeinfo import Types from pyflink.datastream import StreamExecutionEnvironment from pyflink.datastream.functions import KeyedCoProcessFunction from pyflink.datastream.state import MapStateDescriptor from

Re: Pyflink中使用ConnectedStream时,key_by后分区的问题

2021-07-12 文章 Dian Fu
Hi, 是否发一下可复现的完整示例? Regards, Dian > 2021年7月10日 下午7:44,赵飞 写道: > > 各位好,请教一个问题。 > > 最近我在使用pyflink开发一个模块,主要的功能是基于规则对用户数据进行计算和判断。涉及到两个流:数据流(data)和规则流(rule),两者都包含一个产品id值,所以将该值作为key来分区,处理的代码大致如下: > > --- > results = data.connect(rules).key_by('product_id', > 'product_id').process(MyFunction()) >

Re: 关于服务器参数设置请教

2021-07-12 文章 Caizhi Weng
Hi! 这两种模式都对,取决于你希望如何使用计算资源。如果希望整个集群就用来算这一个任务,设置一就能用到所有的计算资源;如果希望这个集群还要跑别的任务,那么设置二就能给其他任务留出资源。 Chesnay Schepler 于2021年7月12日周一 下午3:30写道: > Forwarded to the chinese user mailing list. > > On 08/07/2021 12:03, hbdrawn wrote: > > 各位老师大家好,我是flink > > newer一枚,目前有个使用场景和参数设置问题,请各位老师答疑 > > > > 场景:有1.5亿条边

Re: 关于服务器参数设置请教

2021-07-12 文章 Chesnay Schepler
Forwarded to the chinese user mailing list. On 08/07/2021 12:03, hbdrawn wrote: flink newer 1.5??gelly?? ??4128G50??core flink standlone cluster ???