好的,我去了解一下。谢谢
-邮件原件-
发件人: 浪人 [mailto:1543332...@qq.com]
发送时间: 2019年2月21日 16:35
收件人: user-zh
主题: 回复:数据量问题
像这种需求,推荐使用continuesTrigger或是使用更加底层API processfunction去处
理,不要使用常规的滑动窗口去操作,性能低,资源消耗大。
-- 原始邮件 --
发件人: "cousin-gmail";
发送时间: 2019年2月21日(星期四
嘿,各位,我想问问,如果一天1.5亿数据量的记录,要查询最近一小时内的
聚集数量,那么,有什么比较好的方案?如果是用1小时窗口,10秒滑动一次,这样子
貌似需要维持360个窗口了,这样子的话,大概需要多少内存呢?
嘿,我这里使用flink on yarn中,经常报出异常,然后flink就自己关闭了。
里面具体的逻辑是从kafka中接收数据,然后按照enentTime中的window滑动窗口滑动,
窗口大小为1小时,滑动间隔是5秒。聚集数据后,就写到redis中。
一般运行了2个小时候,就报异常,然后就结束了任务。其中,jobmanager的日志中显
示为:
java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id
container_e23_1545597259276_0273_01_001220 timed o