Hi
容易异常退出是指 container 退出吗?可以看下 JM/TM log 是否有相应信息,如果没有,可以尝试从 yarn 侧看下日志为什么
container 退出了
Best,
Congxian
caozhen 于2020年10月12日周一 下午6:08写道:
>
> 可以发下 "分配完applicationid后,容器经常异常退出" 产生的错误日志吗?
>
> 或者排查下flink客户端中的错误日志,以及yarn-historyserver里的日志。
>
>
>
> Dream-底限 wrote
> > hi
> >
hi、
现在流表查询外部维表的时候,在有多张维表的情况下会多次查询外部系统,这就导致多次网络请求回传,社区后续会不会支持时态表子查询,就是根据指定的key查询外部系统的时候不再是一次查询一个指定的表,可以点查一个sql子表,这样网络io会小一些
Hi,
你是想要自己做一个产品,将图显示在Web上?我们是只拿 DAG 中 json 值,然后前端进行处理的。
希望能帮助到你~
Best,
Hailong Wang
在 2020-10-12 18:15:36,"丁浩浩" <18579099...@163.com> 写道:
>我想要获取到flink webUI上面的DAG图,有什么办法能够获取到吗?
是的,具体代码逻辑在YarnClusterDescriptor#startAppMaster,会一直检测app state。
如果需要的话,可以自己增加超时判断(在旧版本中有这个逻辑,比如1.4.2)。
Best,
Hailong Wang
在 2020-10-12 17:17:44,"caozhen" 写道:
>
>是的,flink on yarn启动时申请的container资源不够,会等待,直到有资源。
>
>---
>
>
>guaishushu1...@163.com wrote
>> CliFrontend
我这边是为每个流任务单独指定了一个配置文件目录 不知道可否达到你的需求
发自我的iPhone
> 在 2020年10月12日,18:18,xiao cai 写道:
>
> Hi:
> 已知的设置metrics reporter的方式是在conf/flink-conf.yaml中,如果想要为每个任务分别设置不同的metrics
> reporter或者设置不同的参数,比如设置prometheus pushgateway的多个自定义的k=v,该如何设置呢?
>
>
> Best xiao.
1.flink任务各个算子的并行度一般怎么设计?例如map并行度设为多少,source并行度设为多少,这个有没有一个算法。
2.taskmanager的slot用完才会分配task到下一个taskmanager,这个设计初衷是如下原因吗?
摘自官网:
通过调整 slot 的数量,用户可以决定 subtasks 的隔离方式。每个 TaskManager 有一个 slot 意味着每组 task 在一个单独的
JVM 中运行(例如,在一个单独的容器中启动)。拥有多个 slots 意味着多个 subtasks 共享同一个 JVM。 Tasks 在同一个 JVM 中共享
TCP
我理解:
对于print,map 等无状态操作,不存储数据。
对于window 这种有状态操作,只存储窗口内的数据。
对于groupby 这种有状态操作,随着key越多,存储的数据越多,默认不清理,可以配置清理策略。
---
我的数据是接的kafka数据源,接到数据后注册成表,我想知道通过这种方式创建的表,表里的数据会一直追加吗?
是否会一直存在导致占用内存越来越大的问题???如何清理过期数据???
注册表代码如下:
//获取订单回调kafka数据
DataStreamSource
--
Sent from:
我理解:
对于print,map 等无状态操作,不存储数据。
对于window 这种有状态操作,只存储窗口内的数据。
对于groupby 这种有状态操作,随着key越多,存储的数据越多,默认不清理,可以配置清理策略。
---
我的数据是接的kafka数据源,接到数据后注册成表,我想知道通过这种方式创建的表,表里的数据会一直追加吗?
是否会一直存在导致占用内存越来越大的问题???如何清理过期数据???
注册表代码如下:
//获取订单回调kafka数据
DataStreamSource
--
Sent from:
我想要获取到flink webUI上面的DAG图,有什么办法能够获取到吗?
每个job启动时候单独读取配置就可以了吧
| |
熊云昆
|
|
邮箱:xiongyun...@163.com
|
签名由 网易邮箱大师 定制
在2020年10月12日 18:17,xiao cai 写道:
Hi:
已知的设置metrics reporter的方式是在conf/flink-conf.yaml中,如果想要为每个任务分别设置不同的metrics
reporter或者设置不同的参数,比如设置prometheus pushgateway的多个自定义的k=v,该如何设置呢?
Best xiao.
可以试下这个方式能不能生效:在启动每个作业时,通过-D k=v 参数来设置这个作业的metrics。
---
xiao cai wrote
> Hi:
> 已知的设置metrics reporter的方式是在conf/flink-conf.yaml中,如果想要为每个任务分别设置不同的metrics
> reporter或者设置不同的参数,比如设置prometheus pushgateway的多个自定义的k=v,该如何设置呢?
>
>
> Best xiao.
--
Sent from:
Hi:
已知的设置metrics reporter的方式是在conf/flink-conf.yaml中,如果想要为每个任务分别设置不同的metrics
reporter或者设置不同的参数,比如设置prometheus pushgateway的多个自定义的k=v,该如何设置呢?
Best xiao.
是的,flink on yarn启动时申请的container资源不够,会等待,直到有资源。
---
guaishushu1...@163.com wrote
> CliFrontend 向yarn上提交任务会因为资源不足等原因,导致任务提交进程一直卡着,直到有资源释放为止?
>
>
> guaishushu1103@
--
Sent from: http://apache-flink.147419.n8.nabble.com/
可以发下 "分配完applicationid后,容器经常异常退出" 产生的错误日志吗?
或者排查下flink客户端中的错误日志,以及yarn-historyserver里的日志。
Dream-底限 wrote
> hi
> 我正在使用flink1.11.1 on
> yarn以分离模式运行任务,但在任务提交的时候,任务在分配完applicationid后,容器经常异常退出,先前以为是yarn环境问题,但是在两个集群测都有遇到这种情况,请问这是一个已知的bug吗
--
Sent from:
要不换个kafka的topic sink测试一下。。我觉得可能是kafka那头的问题,新手只能这样子猜一下。。
-邮件原件-
发件人: Yang Peng [mailto:yangpengklf...@gmail.com]
发送时间: 2020年9月30日 星期三 18:00
收件人: user-zh
主题: Re: Re: Flink消费kafka,突然间任务输出结果从原来的每秒几十万降低到几万每秒
感谢回复,这个任务重启了之后看不到这个in/out指标数据, 我们能查到这个任务依赖的redis的连接查询次数也降低了,好像是任务假死一样
"认证的kafka是BBB.keytab" 这个是怎么设置的呢?是自己实现的kafkaSink嘛?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
那这样的话,用inner join是不是可以,保证订单表中的员工都在员工维表里,就能统计到所有员工在今天产生的所有订单量。
---
夜思流年梦 wrote
> 是这样子的,比如要统计所有员工的今天的订单数量,如果是订单表left join 员工表的话,那么今天没有订单数量的就无法出现在结果表集合中;
> 把员工表放在左边left join 订单表的话那么就是所有员工的今天订单数量都会 出现
>
>
>
>
>
> 在 2020-10-12 15:17:07,"caozhen"
> caozhen1937@
> 写道:
>>
>>我理解这个场景下
Hi
感谢回复,我去看下
| |
superainbower
|
|
superainbo...@163.com
|
签名由网易邮箱大师定制
在2020年10月12日 17:09,Congxian Qiu 写道:
Hi
从错误日志看,应该是 filesystem 相关的配置(或者 jar 包)有问题,可以参考下这个邮件列表[1]看看能否解决你的问题
[1]
http://apache-flink.147419.n8.nabble.com/Flink-1-11-1-on-k8s-hadoop-td5779.html#a5834
Best,
Congxian
Hi
从错误日志看,应该是 filesystem 相关的配置(或者 jar 包)有问题,可以参考下这个邮件列表[1]看看能否解决你的问题
[1]
http://apache-flink.147419.n8.nabble.com/Flink-1-11-1-on-k8s-hadoop-td5779.html#a5834
Best,
Congxian
superainbower 于2020年9月30日周三 下午3:04写道:
> 补充一下,我的错误日志
> Caused by:
Hi, @Storm 请问你用的是 flink 是哪个版本,然后栈是什么呢?可以把相关性信息回复到这里,可以一起看看是啥问题
Best,
Congxian
大森林 于2020年10月10日周六 下午1:05写道:
> 我这边是老版本的jdk8,和jdk261没啥关系的
>
>
>
>
> --原始邮件--
> 发件人:
> "user-zh"
>
你好,我最开始也考虑用双流join,但是双流join
就会碰到一个问题,就是结果集只会包含今天有订单的员工数据,那么没有订单的员工数据是不会体现到结果集的。主要是需要所有员工今天的订单数量;
在 2020-10-12 15:37:51,"Jark Wu" 写道:
>我理解楼主的场景不是 temporal join 的场景,而是双流 join
>的场景,因为任何一条流的变化,都希望触发对结果的更新,所以讲员工作为右边维度表是不行的。
>
>如果是我理解的这样的话,你可以用 flink-cdc-connectors [1] 去对接员工和订单两个
是这样子的,比如要统计所有员工的今天的订单数量,如果是订单表left join 员工表的话,那么今天没有订单数量的就无法出现在结果表集合中;
把员工表放在左边left join 订单表的话那么就是所有员工的今天订单数量都会 出现
在 2020-10-12 15:17:07,"caozhen" 写道:
>
>我理解这个场景下 员工维表在右边没啥问题。
>
>join过程中需要去员工维表拿哪些字段?
>
>
>
>夜思流年梦 wrote
>> 现在有一个场景: 一个员工维表,一个订单表(监听mysql
我理解楼主的场景不是 temporal join 的场景,而是双流 join
的场景,因为任何一条流的变化,都希望触发对结果的更新,所以讲员工作为右边维度表是不行的。
如果是我理解的这样的话,你可以用 flink-cdc-connectors [1] 去对接员工和订单两个 binlog 流,然后直接
join,然后聚合订单数。伪代码如下:
create table users (
user_id bigint,
...
) with (
connector = mysql-cdc
...
);
create table orders (
order_id
看错误提示是没权限读取core-site.xml,有没有检查core-site.xml的文件权限
--
Sent from: http://apache-flink.147419.n8.nabble.com/
我理解这个场景下 员工维表在右边没啥问题。
join过程中需要去员工维表拿哪些字段?
夜思流年梦 wrote
> 现在有一个场景: 一个员工维表,一个订单表(监听mysql binlog的一个流表),想实时计算出所有员工的订单数;
> 目前flink-sql 支持Join Temporal Tables ,但是官方文档上是这么说的:仅支持带有处理时间的 temporal
> tables 的 inner 和 left join。
> 而这个场景必须是维表在左边,但实际情况是维表在左边无法进行left join :会报错:ClassCastException:
>
hi leiyanrui,
我明白了,非常感谢你!!!
在2020年10月12日 15:05,leiyanrui<1150693...@qq.com> 写道:
进一步KeyedProcessFunction的处理是按照window的end时间,这样就会只有一个key进而将聚合后的数据再次聚合
--
Sent from: http://apache-flink.147419.n8.nabble.com/
进一步KeyedProcessFunction的处理是按照window的end时间,这样就会只有一个key进而将聚合后的数据再次聚合
--
Sent from: http://apache-flink.147419.n8.nabble.com/
HI leiyanrui,
你说的没有错,我改后的代码确实是对应了每种behavior的pv[捂脸],非常谢谢你的热心解答!
出于对Flink的理解不太熟悉,我还想再请教一个问题,为什么原demo还需要再对聚合后的窗口数据再做一次KeyedProcessFunction的处理?(图1)因为我想在聚合函数这一步就已经可以拿到整个窗口的pv数据了。
在2020年10月12日 14:36,leiyanrui<1150693...@qq.com> 写道:
keyby(_behavior) 你看到的四个结果应该是每种behavior的pv 不是整个窗口的pv
--
Sent from:
keyby(_behavior) 你看到的四个结果应该是每种behavior的pv 不是整个窗口的pv
--
Sent from: http://apache-flink.147419.n8.nabble.com/
HI Sysuke,
在2020年10月12日 14:14,Lee Sysuke 写道:
Hi , 可以粘一下aggregateFuntion和ProcessFunction的代码吗
Natasha <13631230...@163.com> 于2020年10月12日周一 下午2:11写道:
HI ALL,
刚入门Flink的我最近从github上找了几个分析用户行为的Demo,想以此来入门Flink。
1. 但是有一个问题我一直想不通:(图1)
Hi , 可以粘一下aggregateFuntion和ProcessFunction的代码吗
Natasha <13631230...@163.com> 于2020年10月12日周一 下午2:11写道:
>
> HI ALL,
> 刚入门Flink的我最近从github上找了几个分析用户行为的Demo,想以此来入门Flink。
>1. 但是有一个问题我一直想不通:(图1)
>
> 如图,设置用户访问时间为EventTime;我设想的是,如果我设置一小时的滚动时间,那么按道理我应该得到的结果是,
> *在这一小时内访问的pv总数都应该返回给我*
>
HI ALL,
刚入门Flink的我最近从github上找了几个分析用户行为的Demo,想以此来入门Flink。
1. 但是有一个问题我一直想不通:(图1)
如图,设置用户访问时间为EventTime;我设想的是,如果我设置一小时的滚动时间,那么按道理我应该得到的结果是,在这一小时内访问的pv总数都应该返回给我,但是为什么console打出来的却是四个相同的时间戳但是却是四个分散的41890,992,1474,2539的pv数量?(图2)
2.
32 matches
Mail list logo