from:"cheng"

Re: [ANNOUNCE] Flink Table Store Joins Apache Incubator as Apache Paimon(incubating)

2023-03-28 文章 Shuo Cheng

Cool ~ Congrats! Best Regards, Shuo On Mon, Mar 27, 2023 at 5:24 PM Yu Li wrote: > Dear Flinkers, > > > As you may have noticed, we are pleased to announce that Flink Table > Store has joined the Apache Incubator as a separate project called > Apache Paimon(incubating) [1] [2] [3]. The new proj

Re: 我上报的一个sql bug没人处理怎么办？

2023-03-21 文章 Shuo Cheng

Hi, 如果你知道问题出现在哪儿, 可以自己提个 PR 哦. Sincerely, Shuo On Wed, Mar 22, 2023 at 11:23 AM Jeff wrote: > 复制执行我提供的两个sql就一定会复现！ > 不管哪个flink版本一定都会有这个问题，因为它们都是使用calcite 1.26.0。 > 这个问题是这个版本calcite引起的。 > > > > > > > > > > > > > > > > > > 在 2023-03-22 09:28:17，"Jeff" 写道： > >bug地址： > >https://issues.apache.org/

Re: 在计算Window Top-N时，Flink SQL 时间语义不生效

2023-02-24 文章 Shuo Cheng

更乱了哦...可以尝试加个附件或推到 github, 贴个链接 On Fri, Feb 24, 2023 at 4:59 PM wei_yuze wrote: > > 刚才的邮件正文代码出现乱码，现在重新发送。-您好！我在运行Flink程序时遇到了一个问题，特来向各位大佬请教。程序目标：用Flink SQL求窗口 Top-5，开一小时的窗口。数据源为Kafka，我分批向Kafka里传入数据。计算出的 Top-5结果，写入MySQL。问题：一小时窗口设置完全没生效，事件时间

Re: Re: Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗？

2023-02-23 文章 Shuo Cheng

ot;By default, the materialize > operator will be added when a distributed disorder " > + "occurs on unique > keys. You can also choose no materialization(NONE) " >

Re: Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗？

2023-02-21 文章 Shuo Cheng

Hi, Re *"如何确保同一主键变更记录(上游接的是cdc数据源)的时间先后顺序性呢？", *checking out ExecutionConfigOptions.TABLE_EXEC_SINK_UPSERT_MATERIALIZE for details about solution of disordering problems in KeyBy shuffling. Best, Shuo On Wed, Feb 22, 2023 at 10:23 AM casel.chen wrote: > > 如果像楼上所说[1]主动keyby将同一主键记录汇聚到同一个TM处理的话，

Re: flink sql 类型转化遇到转化失败时候可以跳过这条数据嘛

2022-11-20 文章 Shuo Cheng

可以了解下 TRY_CAST 是不是能满足需求. https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/functions/systemfunctions/#type-conversion-functions On Sat, Nov 19, 2022 at 4:31 PM kcz <573693...@qq.com.invalid> wrote: > flink-1.16.0 > flink sql 类型转化遇到转化失败时候可以跳过这条数据嘛？ > 不想任务直接就挂了，数据可以丢掉。 > flink sq

Re: Flink SQL 中同时写入多个 sink 时，是否能够保证先后次序

2022-10-12 文章 Shuo Cheng

Flink SQL 自身机制无法保证同一个作业多个 sink 的写入次序。是否可以考虑从业务逻辑上动手脚，比如写入消息队列 sink 前加个 udf filter, udf 查询 database，满足条件才写入消息队列，当然这种方式对性能可能有影响。 On Wed, Oct 12, 2022 at 2:41 PM Zhiwen Sun wrote: > hi all： > > 我们有个场景，需要 Flink SQL 同时写入消息和 database，后续实时任务消费消息，再次读取 database，如果消息先于 > database 写入，这就可能导致读取的数据不正确。 > >

Re: flink-1.14.4 提示内置函数不存在

2022-09-04 文章 Shuo Cheng

CURRENT_DATE 属于 niladic function (无参函数), 不需要加 '()' On Mon, Sep 5, 2022 at 11:51 AM kcz <573693...@qq.com.invalid> wrote: > select concat('1','2'),CURRENT_DATE(); > No match found for function signature CURRENT_DATE()。 > 是因为我哪里操作错了吗？？？ > concat是可以运行的。

Re: 基于savepoint重启作业无法保证端到端一致性

2022-09-02 文章 Shuo Cheng

设计上是支持的. 建议贴上代码, 这样大家比较好判断问题所在. On Fri, Aug 26, 2022 at 4:08 PM 杨扬 wrote: > 各位好！ > 目前有一flink作业，source与sink均为kafka。 > 在换版时（未修改任何代码）基于官网文档命令，创建savepoint并停止作业；而后基于之前创建的savepoint启动作业。 > 现在发现如此操作无法实现启停前后数据无缝对接，会出现一定的数据重复。 > > 想请教这个问题是savepoint设计时本身就无法保证启停前后端到端一致性，还是我们哪

Re: 撤回流如何进行窗口分组聚合

2021-09-28 文章 Shuo Cheng

这个在 1.14 已经支持了, 详见 FLINK-20487 On 9/28/21, Liu Join wrote: > 我将数据流进行去重后，无法进行窗口聚合操作，一直报错GroupWindowAggregate doesn't support consuming > update and delete changes which is produced by node Deduplicate >

Re: flink 1.13.2 使用avg函数对int字段求平均值，输出类型为int类型，而不是浮点型

2021-09-27 文章 Shuo Cheng

by-design 的行为, avg 就是 sum / count, flink 目前行为是根据入参类型来推断返回类型 (与 `sum` 以及 `/` 保持一致), 想要保持高精度，可以考虑把入参 cast 成 double. On Mon, Sep 27, 2021 at 2:30 PM Asahi Lee <978466...@qq.com.invalid> wrote: > hi! 我使用flink 1.13.2版本，在对 int 类型的字段通过avg函数求平均值时，其返回值类型为 > int ，而不是 double，decimal等浮点类型，导致计算值的精度丢失，请问这

Re: flink sql streaming情况如何解决数据倾斜问题

2021-09-07 文章 Shuo Cheng

可以参考下针对 AGG 的调优指南 https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/table/tuning/ On Wed, Sep 8, 2021 at 11:05 AM yidan zhao wrote: > 我们流量大概4w的qps，如何根据key1+key2进行pv统计（SQL任务比较简单）。 > > 但是key2的分布比较极端，有些可能90%集中的。 > > Shuo Cheng 于2021年9月7日周二下午7:30写道： > > > 最好具

Re: flink sql streaming情况如何解决数据倾斜问题

2021-09-07 文章 Shuo Cheng

最好具体描述下什么场景的倾斜, sql 上也有一些解倾斜的手段 On 9/7/21, yidan zhao wrote: > 如题，目前非sql情况本身实现灵活，有很多方案。 > 但是SQL情况下，倾斜严重，同时无解。有没有小伙伴解决过类似问题。 > > 注意：sql，流任务，数据倾斜。 >

Re: 未生成水位线

2021-09-02 文章 Shuo Cheng

Hello, 注意到你设置了 `table.exec.source.idle-timeout`, 需要注意的是这个参数是 table 层的参数, 需要确认你的设置方式是否生效. On Fri, Jan 29, 2021 at 5:41 PM 沉醉寒風 <1039601...@qq.com> wrote: > 有的 > > > > kafka 是3个分区, 但是只有一个分区有数据, flink是3个并行度 > > -- 原始邮件 -- > *发件人:* "user-zh" ; > *发送时间:* 2021年1月29日(星期五)

Re: 是否可以自定义trigger实现event time window的分散触发

2021-08-31 文章 Shuo Cheng

这样做是要达到设么目的呢? 目前的触发机制以及 early/late fire 满足不了需求么？ On 8/31/21, yidan zhao wrote: > 如题，我目前计划自定义event time trigger实现分散触发。 > 比如0-5的窗口分散到6-11分触发，从6开始是因为本身有个1min的乱序处理。 > 同时配合将allowedlateness设置为5min，这样避免窗口状态在触发之前被clean。 > > 不知道想法是否OK呢？ >

Re: 基于flink 1.12 如何通过Flink SQL 实现多sink端在同一个事务中

2021-08-29 文章 Shuo Cheng

你好, 你说的这种控制写入的方式在同一个 Flink SQL job 里是无法实现的. 控制数据是否写入某个 Sink，可以看看是否从逻辑上能在 Sink 前加一个 Filter，从而达到过滤目的；如果 kafka sink 跟 MySQL 表是一种类似级联的关系, 可以考虑先写入 MySQL, 然后另起一个 Job 用 CDC 方式读 MySQL changelog 再写入 Kafka sink. On 8/26/21, jie han wrote: > HI： > 可以尝试下使用flink cdc 的方式写入到第二个kafka里面呀 > > 悟空于2021年8月26日周四下午1

Re: 窗口函数使用的时间类型

2021-06-01 文章 Shuo Cheng

SQL 流作业 window 可定义在两种时间属性类型字段上: 1) event time: ddl 中需要给时间类型字段 (timestamp) 定义 watermark 2) process time: 使用 PROCTIME() On 6/1/21, guoyb <861277...@qq.com> wrote: > 是的。 > > > 大神能否指条明路解决这问题。 > > > > ---原始邮件--- > 发件人: "MOBIN"<18814118...@163.com> > 发送时间: 2021年6月1日(周二) 晚上7:09 > 收件人: "user-zh@flink.apac

Re: 流与流 left join

2021-05-30 文章 Shuo Cheng

state ttl 只能是全局算子维度, table.exec.state.ttl -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink 1.12.2 编译报错

2021-05-27 文章 Shuo Cheng

Hi, org.hamcrest 是 junit 的依赖 On Fri, May 28, 2021 at 10:28 AM Zhiwen Sun wrote: > 才编译到 Test utils : Junit 模块，就报错了 > > maven 版本： 3.2.5 > jdk 版本：1.8.0_251 > flink 版本： flink 1.12.2 > 执行的命令：mvn clean install -DskipTests -Dfast > > 错误信息： > > [ERROR] COMPILATION ERROR : > [INFO] --

Re: 流与流 left join

2021-05-27 文章 Shuo Cheng

我理解双流 Join 就能满足需求吧, 缺点是数据全量放 state，只能靠 state ttl 来清理数据 On 5/27/21, chenchencc <1353637...@qq.com> wrote: > 想问下cep sql批处理能使用吗？想流批一体的。 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ >

Re: [DISCUSS] FLIP-133: Rework PyFlink Documentation

2020-07-31 文章 Hequn Cheng

Hi Jincheng, Thanks a lot for raising the discussion. +1 for the FLIP. I think this will bring big benefits for the PyFlink users. Currently, the Python TableAPI document is hidden deeply under the TableAPI&SQL tab which makes it quite unreadable. Also, the PyFlink documentation is mixed with Jav

Re: [ANNOUNCE] Apache Flink 1.11.1 released

2020-07-22 文章 Hequn Cheng

Thanks Dian for the great work and thanks to everyone who makes this release possible! Best, Hequn On Wed, Jul 22, 2020 at 4:40 PM Jark Wu wrote: > Congratulations! Thanks Dian for the great work and to be the release > manager! > > Best, > Jark > > On Wed, 22 Jul 2020 at 15:45, Yangze Guo wro

Re: [ANNOUNCE] Apache Flink 1.9.3 released

2020-04-25 文章 Hequn Cheng

@Dian, thanks a lot for the release and for being the release manager. Also thanks to everyone who made this release possible! Best, Hequn On Sat, Apr 25, 2020 at 7:57 PM Dian Fu wrote: > Hi everyone, > > The Apache Flink community is very happy to announce the release of Apache > Flink 1.9.3,

Re: 关于kafka connector通过python链接

2020-04-08 文章 Hequn Cheng

Hi 秦寒， Dian 说得很完善了。除此之外，金竹的博客[1]有介绍“Python API 中如何使用 Kafka”，可能对你有帮助，可以看下。 Best, Hequn [1] https://enjoyment.cool/2019/08/28/Apache%20Flink%20%E8%AF%B4%E9%81%93%E7%B3%BB%E5%88%97-%20Python%20API%20%E4%B8%AD%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8%20Kafka/ On Thu, Apr 9, 2020 at 9:34 AM Dian Fu wrot

Re: [ANNOUNCE] Apache Flink Python API(PyFlink) 1.9.2 released

2020-02-13 文章 Hequn Cheng

Thanks a lot for the release, Jincheng! Also thanks to everyone that make this release possible! Best, Hequn On Thu, Feb 13, 2020 at 2:18 PM Dian Fu wrote: > Thanks for the great work, Jincheng. > > Regards, > Dian > > 在 2020年2月13日，下午1:32，jincheng sun 写道： > > Hi everyone, > > The Apache Flink

Re: [VOTE] Release Flink Python API(PyFlink) 1.9.2 to PyPI, release candidate #1

2020-02-11 文章 Hequn Cheng

+1 (non-binding) - Check signature and checksum. - Install package successfully with Pip under Python 3.7.4. - Run wordcount example successfully under Python 3.7.4. Best, Hequn On Tue, Feb 11, 2020 at 12:17 PM Dian Fu wrote: > +1 (non-binding) > > - Verified the signature and checksum > - Pip

Re: [DISCUSS] Upload the Flink Python API 1.9.x to PyPI for user convenience.

2020-02-03 文章 Hequn Cheng

Hi Jincheng, +1 for this proposal. >From the perspective of users, I think it would nice to have PyFlink on PyPI which makes it much easier to install PyFlink. Best, Hequn On Tue, Feb 4, 2020 at 1:09 PM Jeff Zhang wrote: > +1 > > > Xingbo Huang 于2020年2月4日周二下午1:07写道： > >> Hi Jincheng, >> >> T

[ANNOUNCE] Dian Fu becomes a Flink committer

2020-01-16 文章 Shuo Cheng

Congratulations! Dian Fu > Xingbo Wei Zhong 于2020年1月16日周四下午6:13写道： >> jincheng sun > 于2020年1月16日周四下午5:58写道：

Re: [ANNOUNCE] Dian Fu becomes a Flink committer

2020-01-16 文章 Hequn Cheng

Congratulations, Dian. Well deserved! Best, Hequn On Thu, Jan 16, 2020 at 6:08 PM Leonard Xu wrote: > Congratulations! Dian Fu > > Best, > Leonard > > 在 2020年1月16日，18:00，Jeff Zhang 写道： > > Congrats Dian Fu ！ > > jincheng sun 于2020年1月16日周四下午5:58写道： > >> Hi everyone, >> >> I'm very happy to a

[ANNOUNCE] 每周社区更新-51 (20191216-20191222)

2019-12-23 文章 Hequn Cheng

大家好, 很高兴与大家分享本周的社区摘要，其中包括发布 Flink 1.10 和 Flink 1.9.2 的更新，关于将 Flink Docker image 发布集成到 Flink 发布过程中的讨论，PyFlink 后期新功能的讨论以及一些博客文章。 Flink开发 == * [releases] Kostas Kloudas 建议在 feature-freeze 期间，关注下1.10新功能的文档。他创建了一个总 umbrella issue（FLINK-15273）来跟踪未完成的文档任务。 [1] * [releases] Hequn 展开了一个启动Fli

Re: 回复: 回复：回复: 回复：如何用SQL表达对设备离在线监控

2019-12-05 文章 Shuo Cheng

用 udagg 应该能比较完美的解决你的问题 ^.^ On 12/6/19, Djeng Lee wrote: > 存在查询 > > 在 2019/12/5 下午4:06，“Yuan,Youjun” 写入: > > Count=0的窗口如何能得到呢？没有数据就没有产出。 > 然而可以同rows > over窗口，将两个前后窗口的sum-当前的count，可以间接得到两个窗口的count是否相等。同时辅以前后窗口时间的差，来辅助判断。 > > 最终在自定义函数last_value_str/first_value_str的帮助下，勉强得以实现(尚不完美，可能出现连续的ONL

Re: [ANNOUNCE] Apache Flink 1.9.1 released

2019-10-19 文章 Hequn Cheng

Thanks a lot to Jark, Jincheng, and everyone that make this release possible. Best, Hequn On Sat, Oct 19, 2019 at 10:29 PM Zili Chen wrote: > Thanks a lot for being release manager Jark. Great work! > > Best, > tison. > > > Till Rohrmann 于2019年10月19日周六下午10:15写道： > >> Thanks a lot for being ou

Re: 如何优化flink内存?

2019-09-04 文章 Shuo Cheng

如果是使用 datastream api 的话，滑动窗口对于每条数据都会在 state 中存 size / slide 份，像你这种大小设置，肯定会导致内存的大量消耗. On Wed, Sep 4, 2019 at 8:07 PM Yifei Qi wrote: > 大家好: > > > > 不知道大家在使用flink时遇到过内存消耗过大的问题么? > > > > 我们最近在用flink算一些实时的统计数据, 但是内存消耗很大, 不知道有没有人知道如何优化? > > > > 具体情况是这样的: > > 准备的测试数据模拟一天时间内3万个用户的5万条数据. 原始数据一共是100M. >

Re: flink 1.8.1 时间窗口无法关闭以及消息丢失的问题

2019-07-13 文章 Hequn Cheng

Hi, 应该是watermark没有达到window的end时间，导致window没有fire。watermark的相关内容可以看这里[1]。其次，你也可以通过job的运行页面[2]查看job当前watermark的值。 Best, Hequn [1] https://ci.apache.org/projects/flink/flink-docs-stable/dev/event_time.html#watermarks-in-parallel-streams [2] https://ci.apache.org/projects/flink/flink-docs-master/moni

Re: Re: Flink如何实现Job间的协同联系？

2019-06-27 文章 Hequn Cheng

gt; 不知道一般对于实时数仓来说是怎样解决这样的问题的？ > > 谢谢！ > 徐涛 > > > > > 在 2019-06-21 21:21:34，"Hequn Cheng" 写道： > >Hi 徐涛， > > > >最后四个问题，3和4和业务逻辑关系大些，我大致说下1和2的想法， > > > >1. 因为每个变化都要发一个message，Kafka中的消息数可能很大。 > >这个问题，可以借助一些攒批的策略来减少数据量，比如在自定义的sink里

Re: Flink如何实现Job间的协同联系？

2019-06-21 文章 Hequn Cheng

Hi 徐涛，最后四个问题，3和4和业务逻辑关系大些，我大致说下1和2的想法， 1. 因为每个变化都要发一个message，Kafka中的消息数可能很大。这个问题，可以借助一些攒批的策略来减少数据量，比如在自定义的sink里加些cache，每1000条刷一次，刷的时候对这1000条按key去重。需要注意的是，攒批需要结合checkpoint一起来考虑，防止丢数据，可以参考下JDBCOutputFormat的实现（做checkpoint的时候需要flush）。此外，blink里面aggregate也有miniBatch的逻辑，也会减少输出的数据量（不过，flink里面还没有miniBat

Re: flink 自定义UDTF函数

2019-06-15 文章 Hequn Cheng

自定义的函数忘贴了么：） On Fri, Jun 14, 2019 at 6:58 PM liu_mingzhang wrote: > > 我希望自定义一个这样功能的UDTF, > > 将表中原始数据: > idfiled1field2 > 1 A,B,C D,E,F > > 转换成: > idnumfiled1field2 > 1 1AD > 1 2BE > 1

Re: Flink Job 监控

2019-03-28 文章 cheng

我们目前是用standalone 模式部署的集群，请问这个job state 有关于job是否挂掉或者重启的指标？我看官方文档好像没找到。 > 在 2019年3月28日，下午4:51，浪人 <1543332...@qq.com> 写道： > > 如果是使用flink集成cluster可以监控flink的job state,如果是yarn是超脱模式可以监控yarn的状态。 > > > > > -- 原始邮件 -- > 发件人: "cheng&

Flink Job 监控

2019-03-28 文章 cheng

各位好！请教下各位，Flink Job 在生产上运行时，关于job运行状态的监控和告警一般是采用什么方案处理的？比如监控job是否在正常运行，如果发现job 挂掉了或者重启了就进行告警。我这边有将一些metric 推到prometheus 但是好像没有发现关于job是否挂掉的metric。希望有做过这种方案的朋友能赐教下，谢谢了！！

Flink Job 监控

2019-03-28 文章 cheng

各位好！请教下各位，Flink Job 在生产上运行时，关于job运行状态的监控和告警一般是采用什么方案处理的？比如监控job是否在正常运行，如果发现job 挂掉了或者重启了就进行告警。我这边有将一些metric 推到prometheus 但是好像没有发现关于job是否挂掉的metric。希望有做过这种方案的朋友能赐教下，谢谢了！！

40 matches

Mail list logo