Re: 关于多个来源,如何保证数据对齐

2020-06-17 文章 Jark Wu
我也觉得双流 JOIN 或者 interval join 应该可以解决你的需求。

On Mon, 15 Jun 2020 at 19:41, Benchao Li  wrote:

> Hi,
> 听起来你的需求应该就是做一个双流join,可以做一个基于事件时间的双流join[1]
>
> [1]
>
> https://ci.apache.org/projects/flink/flink-docs-master/dev/table/streaming/joins.html#interval-joins
>
> 阿华田  于2020年6月15日周一 下午6:31写道:
>
> > 建议使用缓存,因为b流会延迟20分钟到,所以将a流的数据缓存20分钟,时间到了在和b流进行关联,缓存推荐使用谷歌的cache,
> > com.google.common.cache;
> >
> >
> > | |
> > 阿华田
> > |
> > |
> > a15733178...@163.com
> > |
> > 签名由网易邮箱大师定制
> >
> >
> > 在2020年06月15日 14:41,steven chen 写道:
> > hi:
> > 1.项目中我们会汇集不同来源的消息的,然和合并进行统计并输出结果。
> > 2. 有topic a 是所有的用户pv日志, topic b
> > 是所有用户uv日志,现在1个job同时消费a,b2个消息,并将pv,uv的结果同时输出到下一级的kafka topic c中,
> > 问题:当a 消息 提前到达,b 消息晚20分钟到达,job 在工作时如何保证2个topic 数据对齐,或者说2边数据进行关联整合?
> > 相当于2条消息处理后合并成1条往下游sink ,如何保证数据数据a和b对应的上?
> >
> >
> >
> >
> >
>


Re: 关于多个来源,如何保证数据对齐

2020-06-15 文章 Benchao Li
Hi,
听起来你的需求应该就是做一个双流join,可以做一个基于事件时间的双流join[1]

[1]
https://ci.apache.org/projects/flink/flink-docs-master/dev/table/streaming/joins.html#interval-joins

阿华田  于2020年6月15日周一 下午6:31写道:

> 建议使用缓存,因为b流会延迟20分钟到,所以将a流的数据缓存20分钟,时间到了在和b流进行关联,缓存推荐使用谷歌的cache,
> com.google.common.cache;
>
>
> | |
> 阿华田
> |
> |
> a15733178...@163.com
> |
> 签名由网易邮箱大师定制
>
>
> 在2020年06月15日 14:41,steven chen 写道:
> hi:
> 1.项目中我们会汇集不同来源的消息的,然和合并进行统计并输出结果。
> 2. 有topic a 是所有的用户pv日志, topic b
> 是所有用户uv日志,现在1个job同时消费a,b2个消息,并将pv,uv的结果同时输出到下一级的kafka topic c中,
> 问题:当a 消息 提前到达,b 消息晚20分钟到达,job 在工作时如何保证2个topic 数据对齐,或者说2边数据进行关联整合?
> 相当于2条消息处理后合并成1条往下游sink ,如何保证数据数据a和b对应的上?
>
>
>
>
>


回复:关于多个来源,如何保证数据对齐

2020-06-15 文章 阿华田
建议使用缓存,因为b流会延迟20分钟到,所以将a流的数据缓存20分钟,时间到了在和b流进行关联,缓存推荐使用谷歌的cache, 
com.google.common.cache;


| |
阿华田
|
|
a15733178...@163.com
|
签名由网易邮箱大师定制


在2020年06月15日 14:41,steven chen 写道:
hi:
1.项目中我们会汇集不同来源的消息的,然和合并进行统计并输出结果。
2. 有topic a 是所有的用户pv日志, topic b 
是所有用户uv日志,现在1个job同时消费a,b2个消息,并将pv,uv的结果同时输出到下一级的kafka topic c中,
问题:当a 消息 提前到达,b 消息晚20分钟到达,job 在工作时如何保证2个topic 数据对齐,或者说2边数据进行关联整合?
相当于2条消息处理后合并成1条往下游sink ,如何保证数据数据a和b对应的上?






关于多个来源,如何保证数据对齐

2020-06-15 文章 steven chen
hi:
1.项目中我们会汇集不同来源的消息的,然和合并进行统计并输出结果。
   2. 有topic a 是所有的用户pv日志, topic b 
是所有用户uv日志,现在1个job同时消费a,b2个消息,并将pv,uv的结果同时输出到下一级的kafka topic c中,
问题:当a 消息 提前到达,b 消息晚20分钟到达,job 在工作时如何保证2个topic 数据对齐,或者说2边数据进行关联整合?
相当于2条消息处理后合并成1条往下游sink ,如何保证数据数据a和b对应的上?