你这个方法就可以的哈,至于第二个窗口又聚到一个结点的问题本身就是原始问题,基于你的方法缓解即可,第二层不可避免的。
你需要做的是调整合理的参数,使得第二层的数据虽然不均衡,但数据量以及足够低就可以了。
此外,还需要注意,当前key数量假设1w,加10随机就是10w,加100随机就是100w。这个key的膨胀也很严重的。最好的做法是仅针对高数据量的key分拆。
syumialiu 于2021年1月5日周二 下午11:53写道:
>
> 我在一个job中有一些很大的数据(key的种类很少,但是单个key下的数据数量很多),基本要实现的是一个时间滑动窗口结束时,当某个key的数量大于一个固定
我在一个job中有一些很大的数据(key的种类很少,但是单个key下的数据数量很多),基本要实现的是一个时间滑动窗口结束时,当某个key的数量大于一个固定值后,将该key下的所有原数据输出。我现在的方法是将key加后缀,然后keyBy做窗口,但是这个做完之后还是需要再次keyBy把数据还原回去,并且这个过程又将全量数据拉到了一个节点上,请问有没有一些别的解决方法?
| |
syumialiu
|
|
syumia...@163.com
|
签名由网易邮箱大师定制
我在一个job中有一些很大的数据(key的种类很少,但是单个key下的数据数量很多),基本要实现的是一个时间滑动窗口结束时,当某个key的数量大于一个固定值后,将该key下的所有原数据输出。我现在的方法是将key加后缀,然后keyBy做窗口,但是这个做完之后还是需要再次keyBy把数据还原回去,并且这个过程又将全量数据拉到了一个节点上,请问有没有一些别的解决方法?
| |
syumialiu
|
|
syumia...@163.com
|
签名由网易邮箱大师定制