Re: 几十G状态数据时,savepoint失败

2020-10-20 文章 Lee Sysuke
Hi Taylor, 几十G的状态应该不算大,可以看一下出发savepoint的时候,job本身是否已经进入了反压等不健康状态 廖辉轩 <726830...@qq.com> 于2020年10月21日周三 下午2:10写道: > Hi,all > > 当数据到达50G左右时,savepoint总是失败。初步分析是执行savepoint时,内存溢出导致task挂掉,然后task重启。 > > > background: > flink version:1.10.0 > flink on yarn:Total Task Slots8 > Task Managers8,5G memory > >

Re: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-11 文章 Lee Sysuke
Hi , 可以粘一下aggregateFuntion和ProcessFunction的代码吗 Natasha <13631230...@163.com> 于2020年10月12日周一 下午2:11写道: > > HI ALL, > 刚入门Flink的我最近从github上找了几个分析用户行为的Demo,想以此来入门Flink。 >1. 但是有一个问题我一直想不通:(图1) > > 如图,设置用户访问时间为EventTime;我设想的是,如果我设置一小时的滚动时间,那么按道理我应该得到的结果是, > *在这一小时内访问的pv总数都应该返回给我* > ,但是为什么cons

Re: 关于flink检查点

2020-04-20 文章 Lee Sysuke
意义吗?谢谢 > > ____ > 发件人: Lee Sysuke > 发送时间: Friday, April 17, 2020 10:41:42 AM > 收件人: user-zh > 主题: Re: 关于flink检查点 > > 一点个人看法: > > 一般业务场景下,大家都需要对流任务的错误范围有个比较确定性的认知。比如设置固定的5min周期,就可以比较确定流处理即使failover,误差也能控制在五分钟内。 > 但如果是自适应的间隔,负载越高周期越长,但实际failover在高负载下出现的概率应该远大于

Re: 关于flink检查点

2020-04-16 文章 Lee Sysuke
一点个人看法: 一般业务场景下,大家都需要对流任务的错误范围有个比较确定性的认知。比如设置固定的5min周期,就可以比较确定流处理即使failover,误差也能控制在五分钟内。 但如果是自适应的间隔,负载越高周期越长,但实际failover在高负载下出现的概率应该远大于低负载,这样的设置实用价值可能就并不太大了。 half coke 于2020年4月15日周三 下午4:15写道: > 是的,根据任务负载的变化自动调整checkpoint的间隔,或者可以通过用户写的逻辑调整检查点。 > 刚开始学习flink,想请教一下。 > > Congxian Qiu 于2020年4月15日周三 下