hi,casel, 关于你们的业务场景,我有几个问题, 希望可以交流一下。 1. 一般双流join为避免state无限膨胀,都会设置ttl,你这边的业务场景ttl需要保留n个月? 2. order流和user流在业务场景上要求的state ttl时长是不是不一样? (从你描述上来看,user流的ttl需要几个月,order流可以比较短些?) 3. order流和user流的数据规模/state size规模大概可以到什么级别?
casel.chen <casel_c...@126.com> 于2022年9月17日周六 10:59写道: > 请教一个flink实现实时双流驱动join问题: > > > order cdc流字段:order_id, order_status, order_time, user_id (order_id是主键) > user cdc流字段:user_id, user_name, user_phone, user_address(user_id是主键) > 关联结果流字段:order_id, order_status, order_time, user_name, user_phone, > user_address(order_id是主键) > 期望当order流数据更新或user流数据更新时,关联结果流数据都会得到更新。inner join不满足是因为两条流distinct > id都很大,状态会很大,且不能TTL,因为user流更新时间不定,短的几小时,长达上月。 > > > 请问这种场景下要如何使用flink实现实时双流驱动join?