Re:Re: Re:Re: Re: Flink 使用interval join数据丢失疑问

2022-06-15 Thread lxk
我大致理解了,数据其实是在关联之前就丢掉了。之前了解的最多的是interval join,目前来看我这种场景其实使用inner join比较合适,这个水印确实感觉挺难很合理的去设置。 在 2022-06-15 12:06:56,"Zhiwen Sun" 写道: >我猜测是 watermark 的问题, 看楼主的设置, watermark 是 -2s ,也就是说, order header 流,有数据晚了 2s >,就会被丢弃。 > >楼主之前看的也是 订单明细比订单主表晚几秒, 这只是同一个订单的数据生成时间差异。 如果是这样的话,使用一般的 inner joi

Re: 关于PyFlink的开发环境问题

2022-06-15 Thread Xingbo Huang
Hi, 你可以执行 pip install -r flink-python/dev/dev-requirements.txt 安装开发环境所需要的依赖 Best, Xingbo 张 兴博 于2022年6月15日周三 10:20写道: > 您好: >我是一名学习使用pyflink的用户,我想在ubuntu20.04上开发pyflink,但是在运行代码的时候,报错为: > > Traceback (most recent call last): > File "/root/.py", line 6, in > s_env = StreamExecu

Re: Re: Re:Re: Re: Flink 使用interval join数据丢失疑问

2022-06-15 Thread Shengkai Fang
hi, 我问了下 如果配置在 flink-conf 情况下,则是会在jm 中打印相关的参数。如果是 api 配置的话,目前 log 中是不会打印相关信息的。 Best, Shengkai lxk 于2022年6月15日周三 16:10写道: > 我大致理解为,watermark设置不合理,导致延迟的数据就丢失了,这块我会再去从测输出流去验证一下数据。 > 频繁更新应该不太有可能,因为程序在流转表之前已经做了一道过滤,订单header只取了一个支付状态的数据,订单item也进行了去重处理。 > 然后这是我的jm和tm日志,目前好像没看见表的ttl相关日志。 > > > > > > >