Re: [ANNOUNCE] Flink Table Store Joins Apache Incubator as Apache Paimon(incubating)

2023-03-28 文章 Shuo Cheng
Cool ~ Congrats! Best Regards, Shuo On Mon, Mar 27, 2023 at 5:24 PM Yu Li wrote: > Dear Flinkers, > > > As you may have noticed, we are pleased to announce that Flink Table > Store has joined the Apache Incubator as a separate project called > Apache Paimon(incubating) [1] [2] [3]. The new proj

Re: 我上报的一个sql bug没人处理怎么办?

2023-03-21 文章 Shuo Cheng
Hi, 如果你知道问题出现在哪儿, 可以自己提个 PR 哦. Sincerely, Shuo On Wed, Mar 22, 2023 at 11:23 AM Jeff wrote: > 复制执行我提供的两个sql就一定会复现! > 不管哪个flink版本一定都会有这个问题,因为它们都是使用calcite 1.26.0。 > 这个问题是这个版本calcite引起的。 > > > > > > > > > > > > > > > > > > 在 2023-03-22 09:28:17,"Jeff" 写道: > >bug地址: > >https://issues.apache.org/

Re: 在计算Window Top-N时,Flink SQL 时间语义不生效

2023-02-24 文章 Shuo Cheng
更乱了哦...可以尝试加个附件或推到 github, 贴个链接 On Fri, Feb 24, 2023 at 4:59 PM wei_yuze wrote: > > 刚才的邮件正文代码出现乱码,现在重新发送。-您好!我在运行Flink程序时遇到了一个问题,特来向各位大佬请教。程序目标:用Flink SQL求窗口 Top-5,开一小时的窗口。数据源为Kafka,我分批向Kafka里传入数据。计算出的 Top-5结果,写入MySQL。问题:一小时窗口设置完全没生效,事件时间

Re: Re: Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-23 文章 Shuo Cheng
ot;By default, the materialize > operator will be added when a distributed disorder " > + "occurs on unique > keys. You can also choose no materialization(NONE) " >

Re: Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-21 文章 Shuo Cheng
Hi, Re *"如何确保同一主键变更记录(上游接的是cdc数据源)的时间先后顺序性呢?", *checking out ExecutionConfigOptions.TABLE_EXEC_SINK_UPSERT_MATERIALIZE for details about solution of disordering problems in KeyBy shuffling. Best, Shuo On Wed, Feb 22, 2023 at 10:23 AM casel.chen wrote: > > 如果像楼上所说[1]主动keyby将同一主键记录汇聚到同一个TM处理的话,

Re: flink sql 类型转化遇到转化失败时候可以跳过这条数据嘛

2022-11-20 文章 Shuo Cheng
可以了解下 TRY_CAST 是不是能满足需求. https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/functions/systemfunctions/#type-conversion-functions On Sat, Nov 19, 2022 at 4:31 PM kcz <573693...@qq.com.invalid> wrote: > flink-1.16.0 > flink sql 类型转化遇到转化失败时候可以跳过这条数据嘛? > 不想任务直接就挂了,数据可以丢掉。 > flink sq

Re: Flink SQL 中同时写入多个 sink 时,是否能够保证先后次序

2022-10-12 文章 Shuo Cheng
Flink SQL 自身机制无法保证同一个作业多个 sink 的写入次序。 是否可以考虑从业务逻辑上动手脚,比如写入消息队列 sink 前加个 udf filter, udf 查询 database,满足条件才写入消息队列,当然这种方式对性能可能有影响。 On Wed, Oct 12, 2022 at 2:41 PM Zhiwen Sun wrote: > hi all: > > 我们有个场景,需要 Flink SQL 同时写入消息和 database, 后续实时任务消费消息,再次读取 database, 如果消息先于 > database 写入,这就可能导致读取的数据不正确。 > >

Re: flink-1.14.4 提示内置函数不存在

2022-09-04 文章 Shuo Cheng
CURRENT_DATE 属于 niladic function (无参函数), 不需要加 '()' On Mon, Sep 5, 2022 at 11:51 AM kcz <573693...@qq.com.invalid> wrote: > select concat('1','2'),CURRENT_DATE(); > No match found for function signature CURRENT_DATE()。 > 是因为我哪里操作错了吗??? > concat是可以运行的。

Re: 基于savepoint重启作业无法保证端到端一致性

2022-09-02 文章 Shuo Cheng
设计上是支持的. 建议贴上代码, 这样大家比较好判断问题所在. On Fri, Aug 26, 2022 at 4:08 PM 杨扬 wrote: > 各位好! > 目前有一flink作业,source与sink均为kafka。 > 在换版时(未修改任何代码)基于官网文档命令,创建savepoint并停止作业;而后基于之前创建的savepoint启动作业。 > 现在发现如此操作无法实现启停前后数据无缝对接,会出现一定的数据重复。 > > 想请教这个问题是savepoint设计时本身就无法保证启停前后端到端一致性,还是我们哪

Re: 撤回流如何进行窗口分组聚合

2021-09-28 文章 Shuo Cheng
这个在 1.14 已经支持了, 详见 FLINK-20487 On 9/28/21, Liu Join wrote: > 我将数据流进行去重后,无法进行窗口聚合操作,一直报错GroupWindowAggregate doesn't support consuming > update and delete changes which is produced by node Deduplicate >

Re: flink 1.13.2 使用avg函数对int字段求平均值,输出类型为int类型,而不是浮点型

2021-09-27 文章 Shuo Cheng
by-design 的行为, avg 就是 sum / count, flink 目前行为是根据入参类型来推断返回类型 (与 `sum` 以及 `/` 保持一致), 想要保持高精度,可以考虑把入参 cast 成 double. On Mon, Sep 27, 2021 at 2:30 PM Asahi Lee <978466...@qq.com.invalid> wrote: > hi!      我使用flink 1.13.2版本,在对 int 类型的字段通过avg函数求平均值时,其返回值类型为 > int ,而不是 double,decimal等浮点类型,导致计算值的精度丢失,请问这

Re: flink sql streaming情况如何解决数据倾斜问题

2021-09-07 文章 Shuo Cheng
可以参考下针对 AGG 的调优指南 https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/table/tuning/ On Wed, Sep 8, 2021 at 11:05 AM yidan zhao wrote: > 我们流量大概4w的qps,如何根据key1+key2进行pv统计(SQL任务比较简单)。 > > 但是key2的分布比较极端,有些可能90%集中的。 > > Shuo Cheng 于2021年9月7日周二 下午7:30写道: > > > 最好具

Re: flink sql streaming情况如何解决数据倾斜问题

2021-09-07 文章 Shuo Cheng
最好具体描述下什么场景的倾斜, sql 上也有一些解倾斜的手段 On 9/7/21, yidan zhao wrote: > 如题,目前非sql情况本身实现灵活,有很多方案。 > 但是SQL情况下,倾斜严重,同时无解。有没有小伙伴解决过类似问题。 > > 注意:sql,流任务,数据倾斜。 >

Re: 未生成水位线

2021-09-02 文章 Shuo Cheng
Hello, 注意到你设置了 `table.exec.source.idle-timeout`, 需要注意的是这个参数是 table 层的参数, 需要确认你的设置方式是否生效. On Fri, Jan 29, 2021 at 5:41 PM 沉醉寒風 <1039601...@qq.com> wrote: > 有的 > > > > kafka 是3个分区, 但是只有一个分区有数据, flink是3个并行度 > > -- 原始邮件 -- > *发件人:* "user-zh" ; > *发送时间:* 2021年1月29日(星期五)

Re: 是否可以自定义trigger实现event time window的分散触发

2021-08-31 文章 Shuo Cheng
这样做是要达到设么目的呢? 目前的触发机制以及 early/late fire 满足不了需求么? On 8/31/21, yidan zhao wrote: > 如题,我目前计划自定义event time trigger实现分散触发。 > 比如0-5的窗口分散到6-11分触发, 从6开始是因为本身有个1min的乱序处理。 > 同时配合将allowedlateness设置为5min,这样避免窗口状态在触发之前被clean。 > > 不知道想法是否OK呢? >

Re: 基于flink 1.12 如何通过Flink SQL 实现 多sink端 在同一个事务中

2021-08-29 文章 Shuo Cheng
你好, 你说的这种控制写入的方式在同一个 Flink SQL job 里是无法实现的. 控制数据是否写入某个 Sink,可以看看是否从逻辑上能在 Sink 前加一个 Filter,从而达到过滤目的;如果 kafka sink 跟 MySQL 表是一种类似级联的关系, 可以考虑先写入 MySQL, 然后另起一个 Job 用 CDC 方式读 MySQL changelog 再写入 Kafka sink. On 8/26/21, jie han wrote: > HI: > 可以尝试下使用flink cdc 的方式写入到第二个kafka里面呀 > > 悟空 于2021年8月26日周四 下午1

Re: 窗口函数使用的时间类型

2021-06-01 文章 Shuo Cheng
SQL 流作业 window 可定义在两种时间属性类型字段上: 1) event time: ddl 中需要给时间类型字段 (timestamp) 定义 watermark 2) process time: 使用 PROCTIME() On 6/1/21, guoyb <861277...@qq.com> wrote: > 是的。 > > > 大神能否指条明路解决这问题。 > > > > ---原始邮件--- > 发件人: "MOBIN"<18814118...@163.com> > 发送时间: 2021年6月1日(周二) 晚上7:09 > 收件人: "user-zh@flink.apac

Re: 流与流 left join

2021-05-30 文章 Shuo Cheng
state ttl 只能是全局算子维度, table.exec.state.ttl -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink 1.12.2 编译报错

2021-05-27 文章 Shuo Cheng
Hi, org.hamcrest 是 junit 的依赖 On Fri, May 28, 2021 at 10:28 AM Zhiwen Sun wrote: > 才编译到 Test utils : Junit 模块,就报错了 > > maven 版本: 3.2.5 > jdk 版本:1.8.0_251 > flink 版本: flink 1.12.2 > 执行的命令:mvn clean install -DskipTests -Dfast > > 错误信息: > > [ERROR] COMPILATION ERROR : > [INFO] --

Re: 流与流 left join

2021-05-27 文章 Shuo Cheng
我理解双流 Join 就能满足需求吧, 缺点是数据全量放 state,只能靠 state ttl 来清理数据 On 5/27/21, chenchencc <1353637...@qq.com> wrote: > 想问下cep sql批处理能使用吗?想流批一体的。 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ >

Re: [DISCUSS] FLIP-133: Rework PyFlink Documentation

2020-07-31 文章 Hequn Cheng
Hi Jincheng, Thanks a lot for raising the discussion. +1 for the FLIP. I think this will bring big benefits for the PyFlink users. Currently, the Python TableAPI document is hidden deeply under the TableAPI&SQL tab which makes it quite unreadable. Also, the PyFlink documentation is mixed with Jav

Re: [ANNOUNCE] Apache Flink 1.11.1 released

2020-07-22 文章 Hequn Cheng
Thanks Dian for the great work and thanks to everyone who makes this release possible! Best, Hequn On Wed, Jul 22, 2020 at 4:40 PM Jark Wu wrote: > Congratulations! Thanks Dian for the great work and to be the release > manager! > > Best, > Jark > > On Wed, 22 Jul 2020 at 15:45, Yangze Guo wro

Re: [ANNOUNCE] Apache Flink 1.9.3 released

2020-04-25 文章 Hequn Cheng
@Dian, thanks a lot for the release and for being the release manager. Also thanks to everyone who made this release possible! Best, Hequn On Sat, Apr 25, 2020 at 7:57 PM Dian Fu wrote: > Hi everyone, > > The Apache Flink community is very happy to announce the release of Apache > Flink 1.9.3,

Re: 关于kafka connector通过python链接

2020-04-08 文章 Hequn Cheng
Hi 秦寒, Dian 说得很完善了。除此之外,金竹的博客[1]有介绍“Python API 中如何使用 Kafka”,可能对你有帮助,可以看下。 Best, Hequn [1] https://enjoyment.cool/2019/08/28/Apache%20Flink%20%E8%AF%B4%E9%81%93%E7%B3%BB%E5%88%97-%20Python%20API%20%E4%B8%AD%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8%20Kafka/ On Thu, Apr 9, 2020 at 9:34 AM Dian Fu wrot

Re: [ANNOUNCE] Apache Flink Python API(PyFlink) 1.9.2 released

2020-02-13 文章 Hequn Cheng
Thanks a lot for the release, Jincheng! Also thanks to everyone that make this release possible! Best, Hequn On Thu, Feb 13, 2020 at 2:18 PM Dian Fu wrote: > Thanks for the great work, Jincheng. > > Regards, > Dian > > 在 2020年2月13日,下午1:32,jincheng sun 写道: > > Hi everyone, > > The Apache Flink

Re: [VOTE] Release Flink Python API(PyFlink) 1.9.2 to PyPI, release candidate #1

2020-02-11 文章 Hequn Cheng
+1 (non-binding) - Check signature and checksum. - Install package successfully with Pip under Python 3.7.4. - Run wordcount example successfully under Python 3.7.4. Best, Hequn On Tue, Feb 11, 2020 at 12:17 PM Dian Fu wrote: > +1 (non-binding) > > - Verified the signature and checksum > - Pip

Re: [DISCUSS] Upload the Flink Python API 1.9.x to PyPI for user convenience.

2020-02-03 文章 Hequn Cheng
Hi Jincheng, +1 for this proposal. >From the perspective of users, I think it would nice to have PyFlink on PyPI which makes it much easier to install PyFlink. Best, Hequn On Tue, Feb 4, 2020 at 1:09 PM Jeff Zhang wrote: > +1 > > > Xingbo Huang 于2020年2月4日周二 下午1:07写道: > >> Hi Jincheng, >> >> T

[ANNOUNCE] Dian Fu becomes a Flink committer

2020-01-16 文章 Shuo Cheng
Congratulations! Dian Fu > Xingbo Wei Zhong 于2020年1月16日周四 下午6:13写道: >> jincheng sun > 于2020年1月16日周四 下午5:58写道:

Re: [ANNOUNCE] Dian Fu becomes a Flink committer

2020-01-16 文章 Hequn Cheng
Congratulations, Dian. Well deserved! Best, Hequn On Thu, Jan 16, 2020 at 6:08 PM Leonard Xu wrote: > Congratulations! Dian Fu > > Best, > Leonard > > 在 2020年1月16日,18:00,Jeff Zhang 写道: > > Congrats Dian Fu ! > > jincheng sun 于2020年1月16日周四 下午5:58写道: > >> Hi everyone, >> >> I'm very happy to a

[ANNOUNCE] 每周社区更新-51 (20191216-20191222)

2019-12-23 文章 Hequn Cheng
大家好, 很高兴与大家分享本周的社区摘要,其中包括发布 Flink 1.10 和 Flink 1.9.2 的更新,关于将 Flink Docker image 发布集成到 Flink 发布过程中的讨论,PyFlink 后期新功能的讨论以及一些博客文章。 Flink开发 == * [releases] Kostas Kloudas 建议在 feature-freeze 期间,关注下1.10新功能的文档。他创建了一个总 umbrella issue(FLINK-15273)来跟踪未完成的文档任务。 [1] * [releases] Hequn 展开了一个启动Fli

Re: 回复: 回复: 回复: 回复:如何用SQL表达对设备离在线监控

2019-12-05 文章 Shuo Cheng
用 udagg 应该能比较完美的解决你的问题 ^.^ On 12/6/19, Djeng Lee wrote: > 存在查询 > > 在 2019/12/5 下午4:06,“Yuan,Youjun” 写入: > > Count=0的窗口如何能得到呢?没有数据就没有产出。 > 然而可以同rows > over窗口,将两个前后窗口的sum-当前的count,可以间接得到两个窗口的count是否相等。同时辅以前后窗口时间的差,来辅助判断。 > > 最终在自定义函数last_value_str/first_value_str的帮助下,勉强得以实现(尚不完美,可能出现连续的ONL

Re: [ANNOUNCE] Apache Flink 1.9.1 released

2019-10-19 文章 Hequn Cheng
Thanks a lot to Jark, Jincheng, and everyone that make this release possible. Best, Hequn On Sat, Oct 19, 2019 at 10:29 PM Zili Chen wrote: > Thanks a lot for being release manager Jark. Great work! > > Best, > tison. > > > Till Rohrmann 于2019年10月19日周六 下午10:15写道: > >> Thanks a lot for being ou

Re: 如何优化flink内存?

2019-09-04 文章 Shuo Cheng
如果是使用 datastream api 的话,滑动窗口对于每条数据都会在 state 中存 size / slide 份,像你这种大小设置,肯定会导致内存的大量消耗. On Wed, Sep 4, 2019 at 8:07 PM Yifei Qi wrote: > 大家好: > > > > 不知道大家在使用flink时遇到过内存消耗过大的问题么? > > > > 我们最近在用flink算一些实时的统计数据, 但是内存消耗很大, 不知道有没有人知道如何优化? > > > > 具体情况是这样的: > > 准备的测试数据模拟一天时间内3万个用户的5万条数据. 原始数据一共是100M. >

Re: flink 1.8.1 时间窗口无法关闭以及消息丢失的问题

2019-07-13 文章 Hequn Cheng
Hi, 应该是watermark没有达到window的end时间,导致window没有fire。watermark的相关内容可以看这里[1]。其次,你也可以通过job的运行页面[2]查看job当前watermark的值。 Best, Hequn [1] https://ci.apache.org/projects/flink/flink-docs-stable/dev/event_time.html#watermarks-in-parallel-streams [2] https://ci.apache.org/projects/flink/flink-docs-master/moni

Re: Re: Flink如何实现Job间的协同联系?

2019-06-27 文章 Hequn Cheng
gt; 不知道一般对于实时数仓来说是怎样解决这样的问题的? > > 谢谢! > 徐涛 > > > > > 在 2019-06-21 21:21:34,"Hequn Cheng" 写道: > >Hi 徐涛, > > > >最后四个问题,3和4和业务逻辑关系大些,我大致说下1和2的想法, > > > >1. 因为每个变化都要发一个message,Kafka中的消息数可能很大。 > >这个问题,可以借助一些攒批的策略来减少数据量,比如在自定义的sink里

Re: Flink如何实现Job间的协同联系?

2019-06-21 文章 Hequn Cheng
Hi 徐涛, 最后四个问题,3和4和业务逻辑关系大些,我大致说下1和2的想法, 1. 因为每个变化都要发一个message,Kafka中的消息数可能很大。 这个问题,可以借助一些攒批的策略来减少数据量,比如在自定义的sink里加些cache,每1000条刷一次,刷的时候对这1000条按key去重。需要注意的是,攒批需要结合checkpoint一起来考虑,防止丢数据,可以参考下JDBCOutputFormat的实现(做checkpoint的时候需要flush)。此外,blink里面aggregate也有miniBatch的逻辑,也会减少输出的数据量(不过,flink里面还没有miniBat

Re: flink 自定义UDTF函数

2019-06-15 文章 Hequn Cheng
自定义的函数忘贴了么 :) On Fri, Jun 14, 2019 at 6:58 PM liu_mingzhang wrote: > > 我希望自定义一个这样功能的UDTF, > > 将表中原始数据: > idfiled1field2 > 1 A,B,C D,E,F > > 转换成: > idnumfiled1field2 > 1 1AD > 1 2BE > 1

Re: Flink Job 监控

2019-03-28 文章 cheng
我们目前是用standalone 模式部署的集群,请问这个job state 有关于job是否挂掉或者重启的指标?我看官方文档好像没找到。 > 在 2019年3月28日,下午4:51,浪人 <1543332...@qq.com> 写道: > > 如果是使用flink集成cluster可以监控flink的job state,如果是yarn是超脱模式可以监控yarn的状态。 > > > > > -- 原始邮件 -- > 发件人: "cheng&

Flink Job 监控

2019-03-28 文章 cheng
各位好! 请教下各位,Flink Job 在生产上运行时,关于job运行状态的监控和告警一般是采用什么方案处理的? 比如监控job是否在正常运行,如果发现job 挂掉了 或者重启了 就进行告警。我这边有将一些metric 推到prometheus 但是好像没有发现关于job是否挂掉的metric。 希望有做过这种方案的朋友能赐教下,谢谢了!!

Flink Job 监控

2019-03-28 文章 cheng
各位好! 请教下各位,Flink Job 在生产上运行时,关于job运行状态的监控和告警一般是采用什么方案处理的? 比如监控job是否在正常运行,如果发现job 挂掉了 或者重启了 就进行告警。我这边有将一些metric 推到prometheus 但是好像没有发现关于job是否挂掉的metric。 希望有做过这种方案的朋友能赐教下,谢谢了!!