Re: flink on yarn容器异常退出

2020-10-12 文章 Congxian Qiu
Hi 容易异常退出是指 container 退出吗?可以看下 JM/TM log 是否有相应信息,如果没有,可以尝试从 yarn 侧看下日志为什么 container 退出了 Best, Congxian caozhen 于2020年10月12日周一 下午6:08写道: > > 可以发下 "分配完applicationid后,容器经常异常退出" 产生的错误日志吗? > > 或者排查下flink客户端中的错误日志,以及yarn-historyserver里的日志。 > > > > Dream-底限 wrote > > hi > >

flink点查时态表支持子查询

2020-10-12 文章 Dream-底限
hi、 现在流表查询外部维表的时候,在有多张维表的情况下会多次查询外部系统,这就导致多次网络请求回传,社区后续会不会支持时态表子查询,就是根据指定的key查询外部系统的时候不再是一次查询一个指定的表,可以点查一个sql子表,这样网络io会小一些

Re:如何获取flink webUI上面的DAG图

2020-10-12 文章 hailongwang
Hi, 你是想要自己做一个产品,将图显示在Web上?我们是只拿 DAG 中 json 值,然后前端进行处理的。 希望能帮助到你~ Best, Hailong Wang 在 2020-10-12 18:15:36,"丁浩浩" <18579099...@163.com> 写道: >我想要获取到flink webUI上面的DAG图,有什么办法能够获取到吗?

Re:Re: Flink 任务提交问题

2020-10-12 文章 hailongwang
是的,具体代码逻辑在YarnClusterDescriptor#startAppMaster,会一直检测app state。 如果需要的话,可以自己增加超时判断(在旧版本中有这个逻辑,比如1.4.2)。 Best, Hailong Wang 在 2020-10-12 17:17:44,"caozhen" 写道: > >是的,flink on yarn启动时申请的container资源不够,会等待,直到有资源。 > >--- > > >guaishushu1...@163.com wrote >> CliFrontend

Re: 如何为每个flink任务分别设置metrics的reporter

2020-10-12 文章 王 小宝
我这边是为每个流任务单独指定了一个配置文件目录 不知道可否达到你的需求 发自我的iPhone > 在 2020年10月12日,18:18,xiao cai 写道: > > Hi: > 已知的设置metrics reporter的方式是在conf/flink-conf.yaml中,如果想要为每个任务分别设置不同的metrics > reporter或者设置不同的参数,比如设置prometheus pushgateway的多个自定义的k=v,该如何设置呢? > > > Best xiao.

flink并行度 slot taskmanager相关问题

2020-10-12 文章 zjfpla...@hotmail.com
1.flink任务各个算子的并行度一般怎么设计?例如map并行度设为多少,source并行度设为多少,这个有没有一个算法。 2.taskmanager的slot用完才会分配task到下一个taskmanager,这个设计初衷是如下原因吗? 摘自官网: 通过调整 slot 的数量,用户可以决定 subtasks 的隔离方式。每个 TaskManager 有一个 slot 意味着每组 task 在一个单独的 JVM 中运行(例如,在一个单独的容器中启动)。拥有多个 slots 意味着多个 subtasks 共享同一个 JVM。 Tasks 在同一个 JVM 中共享 TCP

Re: 关于stream注册成表的数据存储时长问题

2020-10-12 文章 caozhen
我理解: 对于print,map 等无状态操作,不存储数据。 对于window 这种有状态操作,只存储窗口内的数据。 对于groupby 这种有状态操作,随着key越多,存储的数据越多,默认不清理,可以配置清理策略。 --- 我的数据是接的kafka数据源,接到数据后注册成表,我想知道通过这种方式创建的表,表里的数据会一直追加吗? 是否会一直存在导致占用内存越来越大的问题???如何清理过期数据??? 注册表代码如下: //获取订单回调kafka数据 DataStreamSource -- Sent from:

Re: 关于stream注册成表的数据存储时长问题

2020-10-12 文章 caozhen
我理解: 对于print,map 等无状态操作,不存储数据。 对于window 这种有状态操作,只存储窗口内的数据。 对于groupby 这种有状态操作,随着key越多,存储的数据越多,默认不清理,可以配置清理策略。 --- 我的数据是接的kafka数据源,接到数据后注册成表,我想知道通过这种方式创建的表,表里的数据会一直追加吗? 是否会一直存在导致占用内存越来越大的问题???如何清理过期数据??? 注册表代码如下: //获取订单回调kafka数据 DataStreamSource -- Sent from:

如何获取flink webUI上面的DAG图

2020-10-12 文章 丁浩浩
我想要获取到flink webUI上面的DAG图,有什么办法能够获取到吗?

回复:如何为每个flink任务分别设置metrics的reporter

2020-10-12 文章 熊云昆
每个job启动时候单独读取配置就可以了吧 | | 熊云昆 | | 邮箱:xiongyun...@163.com | 签名由 网易邮箱大师 定制 在2020年10月12日 18:17,xiao cai 写道: Hi: 已知的设置metrics reporter的方式是在conf/flink-conf.yaml中,如果想要为每个任务分别设置不同的metrics reporter或者设置不同的参数,比如设置prometheus pushgateway的多个自定义的k=v,该如何设置呢? Best xiao.

Re: 如何为每个flink任务分别设置metrics的reporter

2020-10-12 文章 caozhen
可以试下这个方式能不能生效:在启动每个作业时,通过-D k=v 参数来设置这个作业的metrics。 --- xiao cai wrote > Hi: > 已知的设置metrics reporter的方式是在conf/flink-conf.yaml中,如果想要为每个任务分别设置不同的metrics > reporter或者设置不同的参数,比如设置prometheus pushgateway的多个自定义的k=v,该如何设置呢? > > > Best xiao. -- Sent from:

如何为每个flink任务分别设置metrics的reporter

2020-10-12 文章 xiao cai
Hi: 已知的设置metrics reporter的方式是在conf/flink-conf.yaml中,如果想要为每个任务分别设置不同的metrics reporter或者设置不同的参数,比如设置prometheus pushgateway的多个自定义的k=v,该如何设置呢? Best xiao.

Re: Flink 任务提交问题

2020-10-12 文章 caozhen
是的,flink on yarn启动时申请的container资源不够,会等待,直到有资源。 --- guaishushu1...@163.com wrote > CliFrontend 向yarn上提交任务会因为资源不足等原因,导致任务提交进程一直卡着,直到有资源释放为止? > > > guaishushu1103@ -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink on yarn容器异常退出

2020-10-12 文章 caozhen
可以发下 "分配完applicationid后,容器经常异常退出" 产生的错误日志吗? 或者排查下flink客户端中的错误日志,以及yarn-historyserver里的日志。 Dream-底限 wrote > hi > 我正在使用flink1.11.1 on > yarn以分离模式运行任务,但在任务提交的时候,任务在分配完applicationid后,容器经常异常退出,先前以为是yarn环境问题,但是在两个集群测都有遇到这种情况,请问这是一个已知的bug吗 -- Sent from:

答复: Re: Flink消费kafka,突然间任务输出结果从原来的每秒几十万降低到几万每秒

2020-10-12 文章 范超
要不换个kafka的topic sink测试一下。。我觉得可能是kafka那头的问题,新手只能这样子猜一下。。 -邮件原件- 发件人: Yang Peng [mailto:yangpengklf...@gmail.com] 发送时间: 2020年9月30日 星期三 18:00 收件人: user-zh 主题: Re: Re: Flink消费kafka,突然间任务输出结果从原来的每秒几十万降低到几万每秒 感谢回复,这个任务重启了之后看不到这个in/out指标数据, 我们能查到这个任务依赖的redis的连接查询次数也降低了,好像是任务假死一样

Re: Flink Kerberos认证问题

2020-10-12 文章 caozhen
"认证的kafka是BBB.keytab" 这个是怎么设置的呢?是自己实现的kafkaSink嘛? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: 关于flink-sql Join Temporal Tables join 维表问题

2020-10-12 文章 caozhen
那这样的话,用inner join是不是可以,保证订单表中的员工都在员工维表里,就能统计到所有员工在今天产生的所有订单量。 --- 夜思流年梦 wrote > 是这样子的,比如要统计所有员工的今天的订单数量,如果是订单表left join 员工表的话,那么今天没有订单数量的就无法出现在结果表集合中; > 把员工表放在左边left join 订单表的话那么就是所有员工的今天订单数量都会 出现 > > > > > > 在 2020-10-12 15:17:07,"caozhen" > caozhen1937@ > 写道: >> >>我理解这个场景下

回复: Flink on K8s statebackend 配置

2020-10-12 文章 superainbower
Hi 感谢回复,我去看下 | | superainbower | | superainbo...@163.com | 签名由网易邮箱大师定制 在2020年10月12日 17:09,Congxian Qiu 写道: Hi 从错误日志看,应该是 filesystem 相关的配置(或者 jar 包)有问题,可以参考下这个邮件列表[1]看看能否解决你的问题 [1] http://apache-flink.147419.n8.nabble.com/Flink-1-11-1-on-k8s-hadoop-td5779.html#a5834 Best, Congxian

Re: Flink on K8s statebackend 配置

2020-10-12 文章 Congxian Qiu
Hi 从错误日志看,应该是 filesystem 相关的配置(或者 jar 包)有问题,可以参考下这个邮件列表[1]看看能否解决你的问题 [1] http://apache-flink.147419.n8.nabble.com/Flink-1-11-1-on-k8s-hadoop-td5779.html#a5834 Best, Congxian superainbower 于2020年9月30日周三 下午3:04写道: > 补充一下,我的错误日志 > Caused by:

Re: Flink 1.10.1 checkpoint失败问题

2020-10-12 文章 Congxian Qiu
Hi, @Storm 请问你用的是 flink 是哪个版本,然后栈是什么呢?可以把相关性信息回复到这里,可以一起看看是啥问题 Best, Congxian 大森林 于2020年10月10日周六 下午1:05写道: > 我这边是老版本的jdk8,和jdk261没啥关系的 > > > > > --原始邮件-- > 发件人: > "user-zh" >

Re:Re: 关于flink-sql Join Temporal Tables join 维表问题

2020-10-12 文章 夜思流年梦
你好,我最开始也考虑用双流join,但是双流join 就会碰到一个问题,就是结果集只会包含今天有订单的员工数据,那么没有订单的员工数据是不会体现到结果集的。主要是需要所有员工今天的订单数量; 在 2020-10-12 15:37:51,"Jark Wu" 写道: >我理解楼主的场景不是 temporal join 的场景,而是双流 join >的场景,因为任何一条流的变化,都希望触发对结果的更新,所以讲员工作为右边维度表是不行的。 > >如果是我理解的这样的话,你可以用 flink-cdc-connectors [1] 去对接员工和订单两个

Re:Re: 关于flink-sql Join Temporal Tables join 维表问题

2020-10-12 文章 夜思流年梦
是这样子的,比如要统计所有员工的今天的订单数量,如果是订单表left join 员工表的话,那么今天没有订单数量的就无法出现在结果表集合中; 把员工表放在左边left join 订单表的话那么就是所有员工的今天订单数量都会 出现 在 2020-10-12 15:17:07,"caozhen" 写道: > >我理解这个场景下 员工维表在右边没啥问题。 > >join过程中需要去员工维表拿哪些字段? > > > >夜思流年梦 wrote >> 现在有一个场景: 一个员工维表,一个订单表(监听mysql

Re: 关于flink-sql Join Temporal Tables join 维表问题

2020-10-12 文章 Jark Wu
我理解楼主的场景不是 temporal join 的场景,而是双流 join 的场景,因为任何一条流的变化,都希望触发对结果的更新,所以讲员工作为右边维度表是不行的。 如果是我理解的这样的话,你可以用 flink-cdc-connectors [1] 去对接员工和订单两个 binlog 流,然后直接 join,然后聚合订单数。伪代码如下: create table users ( user_id bigint, ... ) with ( connector = mysql-cdc ... ); create table orders ( order_id

Re: Flink Sql client on yarn 问题

2020-10-12 文章 caozhen
看错误提示是没权限读取core-site.xml,有没有检查core-site.xml的文件权限 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于flink-sql Join Temporal Tables join 维表问题

2020-10-12 文章 caozhen
我理解这个场景下 员工维表在右边没啥问题。 join过程中需要去员工维表拿哪些字段? 夜思流年梦 wrote > 现在有一个场景: 一个员工维表,一个订单表(监听mysql binlog的一个流表),想实时计算出所有员工的订单数; > 目前flink-sql 支持Join Temporal Tables ,但是官方文档上是这么说的:仅支持带有处理时间的 temporal > tables 的 inner 和 left join。 > 而这个场景必须是维表在左边,但实际情况是维表在左边无法进行left join :会报错:ClassCastException: >

回复: 回复: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-12 文章 Natasha
hi leiyanrui, 我明白了,非常感谢你!!! 在2020年10月12日 15:05,leiyanrui<1150693...@qq.com> 写道: 进一步KeyedProcessFunction的处理是按照window的end时间,这样就会只有一个key进而将聚合后的数据再次聚合 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-12 文章 leiyanrui
进一步KeyedProcessFunction的处理是按照window的end时间,这样就会只有一个key进而将聚合后的数据再次聚合 -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-12 文章 Natasha
HI leiyanrui, 你说的没有错,我改后的代码确实是对应了每种behavior的pv[捂脸],非常谢谢你的热心解答! 出于对Flink的理解不太熟悉,我还想再请教一个问题,为什么原demo还需要再对聚合后的窗口数据再做一次KeyedProcessFunction的处理?(图1)因为我想在聚合函数这一步就已经可以拿到整个窗口的pv数据了。 在2020年10月12日 14:36,leiyanrui<1150693...@qq.com> 写道: keyby(_behavior) 你看到的四个结果应该是每种behavior的pv 不是整个窗口的pv -- Sent from:

Re: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-12 文章 leiyanrui
keyby(_behavior) 你看到的四个结果应该是每种behavior的pv 不是整个窗口的pv -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-12 文章 Natasha
HI Sysuke, 在2020年10月12日 14:14,Lee Sysuke 写道: Hi , 可以粘一下aggregateFuntion和ProcessFunction的代码吗 Natasha <13631230...@163.com> 于2020年10月12日周一 下午2:11写道: HI ALL, 刚入门Flink的我最近从github上找了几个分析用户行为的Demo,想以此来入门Flink。 1. 但是有一个问题我一直想不通:(图1)

Re: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-12 文章 Lee Sysuke
Hi , 可以粘一下aggregateFuntion和ProcessFunction的代码吗 Natasha <13631230...@163.com> 于2020年10月12日周一 下午2:11写道: > > HI ALL, > 刚入门Flink的我最近从github上找了几个分析用户行为的Demo,想以此来入门Flink。 >1. 但是有一个问题我一直想不通:(图1) > > 如图,设置用户访问时间为EventTime;我设想的是,如果我设置一小时的滚动时间,那么按道理我应该得到的结果是, > *在这一小时内访问的pv总数都应该返回给我* >

Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-12 文章 Natasha
HI ALL, 刚入门Flink的我最近从github上找了几个分析用户行为的Demo,想以此来入门Flink。 1. 但是有一个问题我一直想不通:(图1) 如图,设置用户访问时间为EventTime;我设想的是,如果我设置一小时的滚动时间,那么按道理我应该得到的结果是,在这一小时内访问的pv总数都应该返回给我,但是为什么console打出来的却是四个相同的时间戳但是却是四个分散的41890,992,1474,2539的pv数量?(图2) 2.