回复: 回复: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-12 文章 Natasha
hi leiyanrui,
我明白了,非常感谢你!!!


在2020年10月12日 15:05,leiyanrui<1150693...@qq.com> 写道:
进一步KeyedProcessFunction的处理是按照window的end时间,这样就会只有一个key进而将聚合后的数据再次聚合



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-12 文章 leiyanrui
进一步KeyedProcessFunction的处理是按照window的end时间,这样就会只有一个key进而将聚合后的数据再次聚合



--
Sent from: http://apache-flink.147419.n8.nabble.com/

回复: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-11 文章 Natasha
HI leiyanrui,
你说的没有错,我改后的代码确实是对应了每种behavior的pv[捂脸],非常谢谢你的热心解答!
出于对Flink的理解不太熟悉,我还想再请教一个问题,为什么原demo还需要再对聚合后的窗口数据再做一次KeyedProcessFunction的处理?(图1)因为我想在聚合函数这一步就已经可以拿到整个窗口的pv数据了。
在2020年10月12日 14:36,leiyanrui<1150693...@qq.com> 写道:
keyby(_behavior) 你看到的四个结果应该是每种behavior的pv 不是整个窗口的pv



--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-11 文章 leiyanrui
keyby(_behavior) 你看到的四个结果应该是每种behavior的pv 不是整个窗口的pv



--
Sent from: http://apache-flink.147419.n8.nabble.com/


回复: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-11 文章 Natasha
HI Sysuke,








在2020年10月12日 14:14,Lee Sysuke 写道:
Hi , 可以粘一下aggregateFuntion和ProcessFunction的代码吗


Natasha <13631230...@163.com> 于2020年10月12日周一 下午2:11写道:



HI ALL,
刚入门Flink的我最近从github上找了几个分析用户行为的Demo,想以此来入门Flink。
   1. 但是有一个问题我一直想不通:(图1)
  
  
如图,设置用户访问时间为EventTime;我设想的是,如果我设置一小时的滚动时间,那么按道理我应该得到的结果是,在这一小时内访问的pv总数都应该返回给我,但是为什么console打出来的却是四个相同的时间戳但是却是四个分散的41890,992,1474,2539的pv数量?(图2)
 
2. 
原来的demo的写法是可以正确打印出理想中的结果(图3),但是我仍旧无法理解:为什么我设置了一小时滚动时间,按道理聚合函数就应该把这一小时内的pv累计好返回给我,为什么会出现四个一样的时间戳,带着不同pv数;我想四个pv数累加在一起就应该是这个时间戳内pv总数;可能我还不能正确理解Flink的代码。。。请各位帮帮忙,可以解答一下我的疑惑吗~

Re: Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-11 文章 Lee Sysuke
Hi , 可以粘一下aggregateFuntion和ProcessFunction的代码吗

Natasha <13631230...@163.com> 于2020年10月12日周一 下午2:11写道:

>
> HI ALL,
> 刚入门Flink的我最近从github上找了几个分析用户行为的Demo,想以此来入门Flink。
>1. 但是有一个问题我一直想不通:(图1)
>
>   如图,设置用户访问时间为EventTime;我设想的是,如果我设置一小时的滚动时间,那么按道理我应该得到的结果是,
> *在这一小时内访问的pv总数都应该返回给我*
> ,但是为什么console打出来的却是四个相同的时间戳但是却是四个分散的41890,992,1474,2539的pv数量?(图2)
>
> 2.
> 原来的demo的写法是可以正确打印出理想中的结果(图3),但是我仍旧无法理解:为什么我设置了一小时滚动时间,按道理聚合函数就应该把这一小时内的pv累计好返回给我,为什么会出现四个一样的时间戳,带着不同pv数;我想四个pv数累加在一起就应该是这个时间戳内pv总数;可能我还不能正确理解Flink的代码。。。请各位帮帮忙,可以解答一下我的疑惑吗~
>


Demo:从埋点日志中,统计实时的 PV 遇到的问题

2020-10-11 文章 Natasha


HI ALL,
刚入门Flink的我最近从github上找了几个分析用户行为的Demo,想以此来入门Flink。
   1. 但是有一个问题我一直想不通:(图1)
  
  
如图,设置用户访问时间为EventTime;我设想的是,如果我设置一小时的滚动时间,那么按道理我应该得到的结果是,在这一小时内访问的pv总数都应该返回给我,但是为什么console打出来的却是四个相同的时间戳但是却是四个分散的41890,992,1474,2539的pv数量?(图2)
 
2. 
原来的demo的写法是可以正确打印出理想中的结果(图3),但是我仍旧无法理解:为什么我设置了一小时滚动时间,按道理聚合函数就应该把这一小时内的pv累计好返回给我,为什么会出现四个一样的时间戳,带着不同pv数;我想四个pv数累加在一起就应该是这个时间戳内pv总数;可能我还不能正确理解Flink的代码。。。请各位帮帮忙,可以解答一下我的疑惑吗~