Re:Re: Re: Flink SQL撤回流问题

2020-09-26 文章 xiao cai
Hi Ran: 非常感谢,我试了insert into ON DUPLICATE KEY UPDATE dt=“dt"的方式,确实是会出现update的始终是id=1,但是auto_increment 却一直增加的情况。感觉这样不是很合理,因为随着数据量的增加,迟早会出现数值越界的情形。 原始邮件 发件人: Michael Ran 收件人: user-zh 发送时间: 2020年9月27日(周日) 14:37 主题: Re:Re: Re: Flink SQL撤回流问题 没有传入id,始终是1 ? 那就是第一次insert update 之后,生成的1.后面都是insert i

Re:Re: FlinkSQL是否支持设置窗口trigger实现continuious trigger呢

2020-09-26 文章 Michael Ran
额,不是5分钟窗口,10秒一个步长往前滑动吗? 我以为滚动是5分钟窗口 5分钟一输出呢。。 在 2020-09-27 14:43:57,"赵一旦" 写道: >不是滑动窗口哈。是滚动窗口,每10秒触发一次输出。滑动窗口的化逻辑就变了。 > >Michael Ran 于2020年9月27日周日 下午2:39写道: > >> 滑动窗口 >> 在 2020-09-27 13:25:37,"赵一旦" 写道: >> >如题,不使用DatastreamAPI,使用FlinkSQL能否实现五分钟窗口,每10秒输出一次呢? >>

Re: FlinkSQL是否支持设置窗口trigger实现continuious trigger呢

2020-09-26 文章 赵一旦
不是滑动窗口哈。是滚动窗口,每10秒触发一次输出。滑动窗口的化逻辑就变了。 Michael Ran 于2020年9月27日周日 下午2:39写道: > 滑动窗口 > 在 2020-09-27 13:25:37,"赵一旦" 写道: > >如题,不使用DatastreamAPI,使用FlinkSQL能否实现五分钟窗口,每10秒输出一次呢? >

Re:FlinkSQL是否支持设置窗口trigger实现continuious trigger呢

2020-09-26 文章 Michael Ran
滑动窗口 在 2020-09-27 13:25:37,"赵一旦" 写道: >如题,不使用DatastreamAPI,使用FlinkSQL能否实现五分钟窗口,每10秒输出一次呢?

Re:flink多流关联

2020-09-26 文章 Michael Ran
会有相互等待,或者先后不一致的情况,要业务自己衡量等待时间 在 2020-09-27 12:09:23,"Dream-底限" 写道: >hi >我们这面想用flink在实时数仓上面做些事情,进行调研后发现数仓可能有多张表进行join、现flink有两种实现方案:第一种是流表lookup时态表,但时态表更新可能会延迟导致查询结果不准确,并且io可能过大;第二种是双流关联,但是如果说有五张表进行join的话,除了状态太大还有其他问题吗,或者说有多流相互等待的问题吗

Re:Re: Re: Flink SQL撤回流问题

2020-09-26 文章 Michael Ran
没有传入id,始终是1 ? 那就是第一次insert update 之后,生成的1.后面都是insert into table(dt,num) values(dt,新数量) ON DUPLICATE KEY UPDATE dt=values(dt)你模拟下这个语句呢,看看id成为1 之后,是不是就不变了 在 2020-09-27 14:32:57,"xiao cai" 写道: >Hi lec ssmi: > insert的时候没有指定id,只指定了dt和cnt,因为id在mysql的sink表里是自增的主键,所以flink sql里并没有指定。 > 原始邮件 >发件人: lec

Re:Re:Re: Flink SQL撤回流问题

2020-09-26 文章 Michael Ran
其实你可以把id 字段干掉,如果自增。如果dt是你的主键,那么第一条数据插入是(1,dt,数量)。第二条内存统计的时候是(1,dt,新数量)那么生成的upsert 语句是 insert into table(id,dt,num) values(1,dt,新数量) ON DUPLICATE KEY UPDATE dt=values(dt) 这样发现1是你写死的。dt 不变。但是数量发生了改变。mysql逻辑处理的时候,(猜测是删除后插入replace等,或者能触发auto 的动作), 也就是id,dt 不变,数量变的逻辑 在 2020-09-27 14:13:21,"xiao ca

Re: Re: Flink SQL撤回流问题

2020-09-26 文章 xiao cai
Hi lec ssmi: insert的时候没有指定id,只指定了dt和cnt,因为id在mysql的sink表里是自增的主键,所以flink sql里并没有指定。 原始邮件 发件人: lec ssmi 收件人: flink-user-cn 发送时间: 2020年9月27日(周日) 14:25 主题: Re: Re: Flink SQL撤回流问题 你那个主键=1,应该是传进去的,不是mysql自动生成的吧。所以auto_increment才会一直增长啊。 kandy.wang 于2020年9月27日周日 下午2:01写道: > > > > > > > hi > 你建mysq

Re: Re: Flink SQL撤回流问题

2020-09-26 文章 lec ssmi
你那个主键=1,应该是传进去的,不是mysql自动生成的吧。所以auto_increment才会一直增长啊。 kandy.wang 于2020年9月27日周日 下午2:01写道: > > > > > > > hi > 你建mysql要指定主键,另外创建flink表时也要指定一下主键 > > PRIMARY KEY (id) NOT ENFORCED,这样就会根据主键upsert了 > > > > > > > > > 在 2020-09-27 13:36:25,"xiao cai" 写道: > > >如果是先delete再insert,为何主键id一直都是1呢,如果delete在ins

Re: Checkpoint dir is not cleaned up after cancel the job with monitoring API

2020-09-26 文章 Congxian Qiu
Hi Eleanore What the `CheckpointRetentionPolicy`[1] did you set for your job? if `ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION` is set, then the checkpoint will be kept when canceling a job. PS the image did not show [1] https://ci.apache.org/projects/flink/flink-docs-stable/ops/stat

Re:Re: Flink SQL撤回流问题

2020-09-26 文章 xiao cai
Hi kandy.wang: 忘记说明,我指定了dt为primary key,按理说会按照dt做update,但是为何auto_increment会不断的变大呢,而id也没有变化,id字段值始终为1。还望解惑。 原始邮件 发件人: kandy.wang 收件人: user-zh 发送时间: 2020年9月27日(周日) 14:01 主题: Re:Re: Flink SQL撤回流问题 hi 你建mysql要指定主键,另外创建flink表时也要指定一下主键 PRIMARY KEY (id) NOT ENFORCED,这样就会根据主键upsert了 在 2020-09-27 13:

Re: Flink 1.10.1 checkpoint失败问题

2020-09-26 文章 Congxian Qiu
Hi 这个问题是应该和 FLINK-17479 是一样的,是特定 JDK 上会遇到问题,可以考虑升级一下 flink 版本,或者替换一个 JDK 版本 Best, Congxian Storm☀️ 于2020年9月27日周日 上午10:17写道: > 各位好,checkpoint相关问题L > > flink版本1.10.1:,个别的checkpoint过程发生问题: > java.lang.Exception: Could not perform checkpoint 1194 for operator Map > (3/3). > at > > org.

【公告】Flink Forward 2020 亚洲峰会议题征集

2020-09-26 文章 Kurt Young
大家好, 自 2018 年 Flink Forward 大会首次引入亚洲以后,Flink 社区已成功举办了两届盛况空前的大会。不论是在参会公司、参会人数,还是议题 的深度和丰富度,无一不体现了这是目前国内最具规模和影响力的数据处理领域大会之一。 结合 2020 年的特殊情况,Flink Forward 亚洲峰会将转为全免费的线上模式。与以往相比,今年大会的主要特色在于: 1. *在线直播互动,听众反馈更及时*:大会将在线收集听众反馈,实时了解听众疑惑和问题并进行快速互动形成良性沟通闭环。 2. *组合传播,影响范围更广泛*:除主题分享的直播之外,大会还会将内容整理为视频、文字、电子书、专

Re:Re: Flink SQL撤回流问题

2020-09-26 文章 kandy.wang
hi 你建mysql要指定主键,另外创建flink表时也要指定一下主键 PRIMARY KEY (id) NOT ENFORCED,这样就会根据主键upsert了 在 2020-09-27 13:36:25,"xiao cai" 写道: >如果是先delete再insert,为何主键id一直都是1呢,如果delete在insert时指定了id值,那么auto_increment是不会变的。 >这是我很困惑的地方。 > > > 原始邮件 >发件人: lec ssmi >收件人: flink-user-cn >发送时间: 2020年9月27日(周日) 13:0

Checkpoint dir is not cleaned up after cancel the job with monitoring API

2020-09-26 文章 Eleanore Jin
Hi experts, I am running flink 1.10.2 on kubernetes as per job cluster. Checkpoint is enabled, with interval 3s, minimumPause 1s, timeout 10s. I'm using FsStateBackend, snapshots are persisted to azure blob storage (Microsoft cloud storage service). Checkpointed state is just source kafka topic o

Re: Flink SQL撤回流问题

2020-09-26 文章 xiao cai
如果是先delete再insert,为何主键id一直都是1呢,如果delete在insert时指定了id值,那么auto_increment是不会变的。 这是我很困惑的地方。 原始邮件 发件人: lec ssmi 收件人: flink-user-cn 发送时间: 2020年9月27日(周日) 13:06 主题: Re: Flink SQL撤回流问题 是不是底层的sink在处理retract的时候,使用的是先delte再insert , 而不是直接update呢。 xiao cai 于2020年9月27日周日 下午12:08写道: > 场景如下: > source table:

FlinkSQL是否支持设置窗口trigger实现continuious trigger呢

2020-09-26 文章 赵一旦
如题,不使用DatastreamAPI,使用FlinkSQL能否实现五分钟窗口,每10秒输出一次呢?

Re: Flink SQL撤回流问题

2020-09-26 文章 lec ssmi
是不是底层的sink在处理retract的时候,使用的是先delte再insert , 而不是直接update呢。 xiao cai 于2020年9月27日周日 下午12:08写道: > 场景如下: > source table: kafka > sink table: mysql schem(id, dt, cnt) > > > insert : > insert into sink > select dt,count(distinct id) from source group by dt; > > > 这时mysql对应sink表中有一条数据(1, 2020-0

flink多流关联

2020-09-26 文章 Dream-底限
hi 我们这面想用flink在实时数仓上面做些事情,进行调研后发现数仓可能有多张表进行join、现flink有两种实现方案:第一种是流表lookup时态表,但时态表更新可能会延迟导致查询结果不准确,并且io可能过大;第二种是双流关联,但是如果说有五张表进行join的话,除了状态太大还有其他问题吗,或者说有多流相互等待的问题吗

Re:Flink SQL撤回流问题

2020-09-26 文章 xiao cai
场景如下: source table: kafka sink table: mysql schem(id, dt, cnt) insert : insert into sink select dt,count(distinct id) from source group by dt; 这时mysql对应sink表中有一条数据(1, 2020-09-25, 100),随着事件消费,cnt字段会不断变化,id,dt保持不变 show create table sink可以发现auto_increment在不断的变大。 当超过id的取值范围,就会报错了。 原始邮件

Re:Flink SQL撤回流问题

2020-09-26 文章 Michael Ran
详细场景描述下呢 在 2020-09-27 11:48:36,"xiao cai" 写道: >Hi: >使用Flink SQL撤回流写入MySQL,表的auto_increment >越来越大是为什么,我的输出结果只有一条,mysql表里也只有一条数据,自增主键id的值一直为1,但是auto_increment却越来越大。求解答。

Flink SQL撤回流问题

2020-09-26 文章 xiao cai
Hi: 使用Flink SQL撤回流写入MySQL,表的auto_increment 越来越大是为什么,我的输出结果只有一条,mysql表里也只有一条数据,自增主键id的值一直为1,但是auto_increment却越来越大。求解答。

Re:Flink 1.11.1 JDBC Sink 使用旧版配置 数据丢失

2020-09-26 文章 Michael Ran
update 怎么触发的 delete 哦? 在 2020-09-14 11:37:07,"LittleFall" <1578166...@qq.com> 写道: >Flink 版本: >flink:1.11.1-scala_2.12 >连接器 >mysql-connector-java-8.0.21 >flink-sql-connector-kafka_2.12-1.11.1 >flink-connector-jdbc_2.12-1.11.1 > >Flink SQL: > >CREATE TABLE source_user_name ( >loan_no int, >na

Re:Flink 1.11.1 JDBC Sink 使用旧版配置 数据丢失

2020-09-26 文章 Michael Ran
update 怎么触发的 delete 哦? 在 2020-09-14 11:37:07,"LittleFall" <1578166...@qq.com> 写道: >Flink 版本: >flink:1.11.1-scala_2.12 >连接器 >mysql-connector-java-8.0.21 >flink-sql-connector-kafka_2.12-1.11.1 >flink-connector-jdbc_2.12-1.11.1 > >Flink SQL: > >CREATE TABLE source_user_name ( >loan_no int, >na

Re:Re: flink canal-json 如何获取每条数据是updata insert delete

2020-09-26 文章 Michael Ran
我们也想用,能暴露一个出来不- - 在 2020-09-25 10:39:12,"Jark Wu" 写道: >如果要抽取对应的 type,需要用 format = json, 把 json 的完整数据结构在 DDL 中声明出来(包括 type)。 > >目前 canal-json 是自动将 changelog 转成了 Flink 的 insert/update/delete,而这个 change >flag 目前是不对用户暴露的。 > >Best, >Jark > >On Fri, 25 Sep 2020 at 09:39, air23 wrote: > >> 你好 >> flink c

Re: 查询hbase sink结果表,有时查到数据,有时查不到

2020-09-26 文章 Leonard Xu
Hi > 实际在HBaseSinkFunction中打log测试下来发现,都是UPDATE_AFTER类型的RowData数据写Hbase,没有你说的那种retract消息呢。如果是retract > 应该是 会先发一条UPDATE_BEFORE 消息,再发一条UPDATE_AFTER消息吧。实际测下来 > 都是UPDATE_AFTER,转成了hbase的Put操作,就好比每次都是upsert一样。 HBase Sink 是upsert sink,一条retract消息里的 UPDATE_BEFORE 和 UPDATE_AFTER, UPDATE_BEFORE是会被框架推断后省略的

Re:Re:Re: flink获取latencymarker有什么好的方法

2020-09-26 文章 izual
Latency tracking[1] 开启后,metrics 里的 [.[.]]..latency 值只能作为一个参考值,更适合根据对比值判断哪个 channel、operator 延时变高了。 sql 的话,也可能遇到之前我之前困惑的一点:http://apache-flink.147419.n8.nabble.com/flink-Latency-tracking-td1800.html 所以如果是用于获取数据流 end-to-end 延迟的话,目前觉得还是在 sql 数据流里自己增加一个时间字段比较合适。 另外 source 是 kafka 的话 gr

Re: flink获取latencymarker有什么好的方法

2020-09-26 文章 JasonLee
hi LatencyMarker 是一个全链路的延迟 不是非常的准确 不过也能大致反应端到端的延迟情况 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink 1.10.1 checkpoint失败问题

2020-09-26 文章 Storm☀️
各位好,checkpoint相关问题L flink版本1.10.1:,个别的checkpoint过程发生问题: java.lang.Exception: Could not perform checkpoint 1194 for operator Map (3/3). at org.apache.flink.streaming.runtime.tasks.StreamTask.triggerCheckpointOnBarrier(StreamTask.java:816) at org.apache.flink.streaming.runtime.io.Che

Re: 关于sql中null值设置watermark

2020-09-26 文章 赵一旦
使用函数COALESCE将null情况转为一个默认值比如0. Kyle Zhang 于2020年9月25日周五 下午7:24写道: > Hi, > 我在flink1.11 create ddl中使用 WATERMARK FOR wm AS wm - INTERVAL '5’ SECOND > 设置watermark,当有脏数据的时候wm为null,就会报RowTime field should not be null, please > convert it to a non-null long value.有没有好的方法直接忽略脏数据。 > > Best >

答复: FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以

2020-09-26 文章 范超
多谢一旦哥,我大概摸清楚了这几个关系, 目前使用kafka-consumer-perf-test.sh对单broker单分区的kafka压测在8核16G的情况下是30W/s每秒的消费能力。 SINK端的写入大概是20W/s ON YARN的Per JOB模式下通过调整分区和并行度来进行扩容。 接下来的方向按照两位大佬所说应该是对应用的jvm调优来处理了。 感谢一旦哥和benchao哥 -邮件原件- 发件人: 赵一旦 [mailto:hinobl...@gmail.com] 发送时间: 2020年9月25日 星期五 14:57 收件人: user-zh@flink.ap

Re: 请教二阶段提交问题

2020-09-26 文章 tison
> 可是再次提交没有意义啊,没有数据[捂脸哭] 这个事儿是这样的,你用 checkpoint 之后呢没有反过来确认的 commit 会留在 state 里,所以重启的时候重新加载 state 的时候就会再提交一遍。然后向 kafka 这一类存储 commit offset 是幂等的,发现已经 commit 过就跳过就 OK 了。 Best, tison. 蒋佳成(Jiacheng Jiang) <920334...@qq.com> 于2020年9月26日周六 下午4:01写道: > > 两阶段提交的第一阶段提交中,事务参与者反馈ok后需要作出之后一定能提交事务的承诺,事务参与者需要

Re: flinksql接收到字段值格式为2020-09-23T20:58:24+08:00,如何转成TIMESTAMP

2020-09-26 文章 Tianwang Li
FROM_UNIXTIME 使用的是本地时区, (可以看,org.apache.flink.table.runtime.functions. SqlDateTimeUtils#fromUnixtime的实现) 可以指定时区,StreamTableEnvironment.getConfig().setLocalTimeZone() Joker 于2020年9月24日周四 下午1:54写道: > 不好意思,插入个问题。ts AS TO_TIMESTAMP(FROM_UNIXTIME(create_time / 1000, > '-MM-dd HH:mm:ss')) ,我按此方式生成

Re:Re: flink获取latencymarker有什么好的方法

2020-09-26 文章 郭士榕
感谢答复,是Sql的任务,想用LatencyMarker,本身提交的Sql任务可能没有用到EventTime 在 2020-09-26 21:27:08,"shizk233" 写道: >如果是Data Stream API的话,可以考虑在目标算子上使用自定义metrics来展示数据延时情况 > >郭士榕 于2020年9月26日周六 下午9:15写道: > >> Hi,All >> >> >> 想问下大家如果要展示Flink任务的当前延时情况,有什么比较好的方法吗?用LatencyMarker是否可以,用API/JMX层面来获取的histogram能否汇总成一个数字?

Re: flink获取latencymarker有什么好的方法

2020-09-26 文章 shizk233
如果是Data Stream API的话,可以考虑在目标算子上使用自定义metrics来展示数据延时情况 郭士榕 于2020年9月26日周六 下午9:15写道: > Hi,All > > > 想问下大家如果要展示Flink任务的当前延时情况,有什么比较好的方法吗?用LatencyMarker是否可以,用API/JMX层面来获取的histogram能否汇总成一个数字?

flink获取latencymarker有什么好的方法

2020-09-26 文章 郭士榕
Hi,All 想问下大家如果要展示Flink任务的当前延时情况,有什么比较好的方法吗?用LatencyMarker是否可以,用API/JMX层面来获取的histogram能否汇总成一个数字?

Re: [flink-1.10.2] Blink SQL 超用内存严重

2020-09-26 文章 Tianwang Li
目前,观察到另外一个现象, 如果任务出现了异常,例如写Kafka失败,任务自动重启,这个时候就会突然飙升。 应该是任务失败之后,关闭重启,rocksdb占用到内存没有回收。 通过pmap查看,占用比较多内存多是很多个(128MB 和 64MB 内存块)。 另外,失败重启和如下多jira 描述重启任务多时候比较类似。 https://issues.apache.org/jira/browse/FLINK-7289 pmap图: [image: image.png] [image: image.png] Tianwang Li 于2020年9月23日周三 下午9:11写道: > 使

????????????????????????

2020-09-26 文章 ??????(Jiacheng Jiang)
??ok??FlinkKafkaProducerpreCommit??KafkaProducer??flush??kafka??checkpointjob??

????????????????????????

2020-09-26 文章 ??????(Jiacheng Jiang)
??ok??FlinkKafkaProducerpreCommit??KafkaProducer??flush??kafka??checkpointjob??