from:"Yuan,Youjun"

回复: 求助帖: 流join场景可能出现的重复计算

2020-01-14 Thread Yuan,Youjun

取决于具体的场景。想到的有如下几种方案： 1，group by student_id和student_name，而不是只group by student_id。当然前提是修改同名名字不会推送一条消息到流1. 2，过滤掉update的消息 3，基于时间窗口的聚合，对于student表的数据，每n秒输出一个唯一的student_id，然后再与score流join。 -邮件原件- 发件人: xin Destiny 发送时间: Tuesday, January 14, 2020 6:39 PM 收件人: user-zh@flink.apache.org 主题: Re:

回复: 如果用flink sql持续查询过去30分钟登录网站的人数？

2019-12-18 Thread Yuan,Youjun

不好意思，之前没看到这个问题。 Darwin-amd64就是mac上的可执行文件格式。信任他，直接可以执行的。 -邮件原件- 发件人: 陈帅发送时间: Saturday, December 7, 2019 10:48 PM 收件人: user-zh@flink.apache.org 主题: Re: 如果用flink sql持续查询过去30分钟登录网站的人数？请问这个平台生成可执行文件creek是如何实现的？对应的Dawin-amd64环境下载下来的文件是什么格式的？ Yuan,Youjun 于2019年12月7日周六下午8:32写道： > 是

回复: flink持续查询过去30分钟登录网站的人数

2019-12-11 Thread Yuan,Youjun

首先通过一个自定义表函数(table function)，将每条输入的消息变成3条消息，假设输入消息的时间为ts，产出的三条消息时间分别为：(ts-1, 0), (ts+1, 1), (ts+31, 0)，然后再用30分钟的range over窗口对前面的数值部分(0或者1)求SUM 袁尤军 -邮件原件- 发件人: 陈帅发送时间: Wednesday, December 11, 2019 9:31 PM 收件人: user-zh@flink.apache.org 主题: flink持续查询过去30分钟登录网站的人数例如，用户在以下时间点登录：无,

回复: 窗口去重

2019-12-10 Thread Yuan,Youjun

第一种情况，用firstvalue这种聚合函数; 第二种情况，用min聚合函数，然后group by id，是不是就是你要的结果? -邮件原件- 发件人: Jimmy Wong 发送时间: Tuesday, December 10, 2019 4:40 PM 收件人: user-zh@flink.apache.org 主题: 窗口去重 Hi，All：请教一个问题，现在有个实时场景：需要对每 5 分钟内数据进行去重，然后 Sink。比如：数据 {ts: 2019-12-10 16:24:00 id: 1} {ts: 2019-12-10 16:22:00 id:

回复: 如果用flink sql持续查询过去30分钟登录网站的人数？

2019-12-07 Thread Yuan,Youjun

是的，与Flink完全一样的SQL接口，为边缘计算设计的流式计算框架。 -邮件原件- 发件人: 陈帅发送时间: Saturday, December 7, 2019 11:36 AM 收件人: user-zh@flink.apache.org 主题: Re: 如果用flink sql持续查询过去30分钟登录网站的人数？你们这个平台还挺方便快速验证的，是扩展了Flink SQL吗？虽然没有完全解决我的问题，但还是要谢谢你。 Yuan,Youjun 于2019年12月5日周四上午10:41写道： > 可以用30分钟的range over窗口来处理，

回复: 回复：如何用SQL表达对设备离在线监控

2019-12-04 Thread Yuan,Youjun

谢谢你的回复。这种方案比较有意思，只是还不能区分设备第一次心跳产生的count=1的消息(上线)，和设备最后一次心跳产生的count=1的消息(下线) -邮件原件- 发件人: 1193216154 <1193216...@qq.com> 发送时间: Wednesday, December 4, 2019 9:39 PM 收件人: user-zh 主题: 回复：如何用SQL表达对设备离在线监控设定一个滑动窗口，窗口大小大于等于2n，滑动间隔大于等于n，若一次窗口结算，count 大于等于2，则在线，否则下线 ---原始邮件--- 发件人:

回复: 如果用flink sql持续查询过去30分钟登录网站的人数？

2019-12-04 Thread Yuan,Youjun

可以用30分钟的range over窗口来处理，但是你提到两个0值得输出恐怕做不到，没有数据，没有产出。假设你得输入包含ts和userid两个字段，分别为时间戳和用户id，那么SQL应该这样： INSERT INTO mysink SELECT ts, userid, COUNT(userid) OVER (PARTITION BY userid ORDER BY rowtime RANGE BETWEEN INTERVAL '30' MINUTE PRECEDING AND CURRENT ROW) AS cnt FROM mysrc

回复: flink sql 状态表嵌套窗口查询

2019-11-14 Thread Yuan,Youjun

内层query不是按时间窗查询的话，这恐怕是不支持。如果内层query是按时间窗的，比如固定窗口，那还可以用tumble_rowtime来传递rowtime属性。 -邮件原件- 发件人: 金圣哲发送时间: Friday, November 15, 2019 1:21 PM 收件人: user-zh@flink.apache.org 主题: flink sql 状态表嵌套窗口查询各位老板好: "selectrider_id, waybill_status as waybill_status ,count(id) as

回复: Flink1.7.2，TableApi的自定义聚合函数中如何使用自定义状态

2019-11-14 Thread Yuan,Youjun

SQL没有表达这种“最早一分钟”的逻辑。如果在你的消息的开头，插入一个temperature=0的消息，那么你得到的第一个输出diff_temperature=0，不知道这种方式是否可以接受。发件人: Chennet Steven 发送时间: Thursday, November 14, 2019 5:32 PM 收件人: user-zh@flink.apache.org; Yuan,Youjun 主题: 回复: Flink1.7.2，TableApi的自定义聚合函数中如何使用自定义状态 Yuan, 非常感谢大佬的回复和方案，我代码尝试了，这个方案的确可行，但在计算最早一分钟

回复: Flink1.7.2，TableApi的自定义聚合函数中如何使用自定义状态

2019-11-13 Thread Yuan,Youjun

这个场景应可以通过标准的SQL完成计算。大致思路如下： 1，内层查询统计每个设备一分钟的最大温度，max(temp) as max_temperature + tumble窗口 2，外层通过row over窗口，拿到当前分钟的max_temperature，和前后2分钟最大温度的和，即SUM(max_temperature) AS sum_temperature 3，最外层，就直接select 2 * max_temperature - sum_temperature就是你需要的前后2个分钟最大温度的差了。假设输入消息有三个字段: Ts: 时间戳 Deviceid：设备编号

回复: Flink DataStream KeyedStream 与 AggregateFunction

2019-11-09 Thread Yuan,Youjun

1，是 2，没有标准答案，是否可以本地先聚合? 3，AggFunc是指定做何种聚合，是sum, 还是avg, 还是count。不指定的话，Flink哪里指导你要计算啥? -邮件原件- 发件人: 王佩发送时间: Saturday, November 9, 2019 11:45 AM 收件人: user-zh 主题: Flink DataStream KeyedStream 与 AggregateFunction 请教下: 1、DataStream 如按用户ID KeyBy后，同一个用户ID的数据最终会被分到一个Partition中吗？

回复: Flink 周期性创建watermark，200ms的周期是怎么控制的

2019-09-03 Thread Yuan,Youjun

源码参考：PeriodicWatermarkEmitter -邮件原件- 发件人: Dino Zhang 发送时间: Tuesday, September 3, 2019 3:14 PM 收件人: user-zh@flink.apache.org 主题: Re: Flink 周期性创建watermark，200ms的周期是怎么控制的 hi venn,

回复: [Discuss] What should the "Data Source" be translated into Chinese

2019-08-18 Thread Yuan,Youjun

Sink -> “数据目的地”，我们的团队基本上都这么称呼。仅供参考 -邮件原件- 发件人: zhisheng 发送时间: Saturday, August 17, 2019 3:49 PM 收件人: user-zh 主题: Re: [Discuss] What should the "Data Source" be translated into Chinese hi，总感觉还是有点别扭，建议如果没找到合适的中文词语来翻译，那么还是用 Data Sink 来表示可能会更友好些 Kurt Young 于2019年8月13日周二下午4:16写道： > cc

答复: 回复： flink 1.8.1 时间窗口无法关闭以及消息丢失的问题

2019-08-11 Thread Yuan,Youjun

并不是没条消息会触发watermark，而是有一定时间间隔的，默认是200ms触发一次watermark。当你的数据来的比较集中的时候，经常会发生最新的消息的时间戳已经过了window end，但是window还没fire的情况。 -邮件原件- 发件人: Ever <439674...@qq.com> 发送时间: Sunday, July 14, 2019 5:00 PM 收件人: user-zh 主题: 回复： flink 1.8.1 时间窗口无法关闭以及消息丢失的问题第四条数据来的时间戳是: 03:17:55, 水印时间这时候应该是03:17:50,

答复: Conversion to relational algebra failed to preserve datatypes

2018-09-14 Thread Yuan,Youjun

[1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/streaming.html#time-attributes Am 14.09.18 um 10:49 schrieb Yuan,Youjun: Hi, I am getting the following error while submitting job to a cluster, which seems failed to compare 2 RelDateTypes, though they seems identical (from

Conversion to relational algebra failed to preserve datatypes

2018-09-14 Thread Yuan,Youjun

Hi, I am getting the following error while submitting job to a cluster, which seems failed to compare 2 RelDateTypes, though they seems identical (from the error message), and everything is OK if I run it locally. I guess calcite failed to compare the first field named ts, of type

答复: jobmanager holds too many CLOSE_WAIT connection to datanode

2018-08-24 Thread Yuan,Youjun

One more safer approach is to execute cancel with savepoint on all jobs first >> this sounds great! Thanks Youjun 发件人: vino yang 发送时间: Friday, August 24, 2018 2:43 PM 收件人: Yuan,Youjun ; user 主题: Re: jobmanager holds too many CLOSE_WAIT connection to datanode Hi Youjun, You c

jobmanager holds too many CLOSE_WAIT connection to datanode

2018-08-23 Thread Yuan,Youjun

Hi, After running for a while , my job manager holds thousands of CLOSE_WAIT TCP connection to HDFS datanode, the number is growing up slowly, and it's likely will hit the max open file limit. My jobs checkpoint to HDFS every minute. If I run lsof -i -a -p $JMPID, I can get a tons of following

答复: Best way to find the current alive jobmanager with HA mode zookeeper

2018-07-25 Thread Yuan,Youjun

ent@v1.5> on my client side, to retrieve the leader JM of Flink v1.4 Cluster. Thanks Youjun 发件人: vino yang 发送时间: Wednesday, July 25, 2018 7:11 PM 收件人: Martin Eden 抄送: Yuan,Youjun ; user@flink.apache.org 主题: Re: Best way to find the current alive jobmanager with HA mode zookeeper Hi

Best way to find the current alive jobmanager with HA mode zookeeper

2018-07-24 Thread Yuan,Youjun

Hi all, I have a standalone cluster with 3 jobmanagers, and set high-availability to zookeeper. Our client submits job by REST API(POST /jars/:jarid/run), which means we need to know the host of the any of the current alive jobmanagers. The problem is that, how can we know which job manager is

答复: 答复: 答复: TumblingProcessingTimeWindow emits extra results for a same window

2018-07-15 Thread Yuan,Youjun

: Yuan,Youjun 抄送: Timo Walther ; user@flink.apache.org 主题: Re: 答复: 答复: TumblingProcessingTimeWindow emits extra results for a same window Hi Youjun, The rowtime value in udf:EXTRACT(EPOCH FROM rowtime) is different from the rowtime value of window. Sql will be parsed and translated into some nodes

答复: 答复: TumblingProcessingTimeWindow emits extra results for a same window

2018-07-12 Thread Yuan,Youjun

;:"user01","min_ts":1531447919981,"max_ts":1531448159975} {"timestamp":1531448160000,"cnt":3278178,"userId":"user01","min_ts":1531448159098,"max_ts":1531448399977} {"timestamp":153144816,"cnt"

答复: TumblingProcessingTimeWindow emits extra results for a same window

2018-07-12 Thread Yuan,Youjun

userId thanks Youjun 发件人: Timo Walther 发送时间: Thursday, July 12, 2018 5:02 PM 收件人: user@flink.apache.org 主题: Re: TumblingProcessingTimeWindow emits extra results for a same window Hi Yuan, this sounds indeed weird. The SQL API uses regular DataStream API windows underneath

TumblingProcessingTimeWindow emits extra results for a same window

2018-07-12 Thread Yuan,Youjun

Hi community, I have a job which counts event number every 2 minutes, with TumblingWindow in ProcessingTime. However, it occasionally produces extra DUPLICATED records. For instance, for timestamp 153136848 below, it emits a normal result (cnt=1641161), and then followed by a few more

回复: 求助帖: 流join场景可能出现的重复计算

回复: 如果用flink sql持续查询过去30分钟登录网站的人数？

回复: flink持续查询过去30分钟登录网站的人数

回复: 窗口去重

回复: 如果用flink sql持续查询过去30分钟登录网站的人数？

回复: 回复：如何用SQL表达对设备离在线监控

回复: 如果用flink sql持续查询过去30分钟登录网站的人数？

回复: flink sql 状态表嵌套窗口查询

回复: Flink1.7.2，TableApi的自定义聚合函数中如何使用自定义状态

回复: Flink1.7.2，TableApi的自定义聚合函数中如何使用自定义状态

回复: Flink DataStream KeyedStream 与 AggregateFunction

回复: Flink 周期性创建watermark，200ms的周期是怎么控制的

回复: [Discuss] What should the "Data Source" be translated into Chinese

答复: 回复： flink 1.8.1 时间窗口无法关闭以及消息丢失的问题

答复: Conversion to relational algebra failed to preserve datatypes

Conversion to relational algebra failed to preserve datatypes

答复: jobmanager holds too many CLOSE_WAIT connection to datanode

jobmanager holds too many CLOSE_WAIT connection to datanode

答复: Best way to find the current alive jobmanager with HA mode zookeeper

Best way to find the current alive jobmanager with HA mode zookeeper

答复: 答复: 答复: TumblingProcessingTimeWindow emits extra results for a same window

答复: 答复: TumblingProcessingTimeWindow emits extra results for a same window

答复: TumblingProcessingTimeWindow emits extra results for a same window

TumblingProcessingTimeWindow emits extra results for a same window

24 matches

Site Navigation

Mail list logo

Footer information