Cool ~ Congrats!
Best Regards,
Shuo
On Mon, Mar 27, 2023 at 5:24 PM Yu Li wrote:
> Dear Flinkers,
>
>
> As you may have noticed, we are pleased to announce that Flink Table
> Store has joined the Apache Incubator as a separate project called
> Apache Paimon(incubating) [1] [2] [3]. The new proj
Hi,
如果你知道问题出现在哪儿, 可以自己提个 PR 哦.
Sincerely,
Shuo
On Wed, Mar 22, 2023 at 11:23 AM Jeff wrote:
> 复制执行我提供的两个sql就一定会复现!
> 不管哪个flink版本一定都会有这个问题,因为它们都是使用calcite 1.26.0。
> 这个问题是这个版本calcite引起的。
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2023-03-22 09:28:17,"Jeff" 写道:
> >bug地址:
> >https://issues.apache.org/
更乱了哦...可以尝试加个附件或推到 github, 贴个链接
On Fri, Feb 24, 2023 at 4:59 PM wei_yuze wrote:
>
> 刚才的邮件正文代码出现乱码,现在重新发送。-您好!我在运行Flink程序时遇到了一个问题,特来向各位大佬请教。程序目标:用Flink SQL求窗口 Top-5,开一小时的窗口。数据源为Kafka,我分批向Kafka里传入数据。计算出的 Top-5结果,写入MySQL。问题:一小时窗口设置完全没生效,事件时间
ot;By default, the materialize
> operator will be added when a distributed disorder "
> + "occurs on unique
> keys. You can also choose no materialization(NONE) "
>
Hi,
Re *"如何确保同一主键变更记录(上游接的是cdc数据源)的时间先后顺序性呢?", *checking out
ExecutionConfigOptions.TABLE_EXEC_SINK_UPSERT_MATERIALIZE for details about
solution of disordering problems in KeyBy shuffling.
Best,
Shuo
On Wed, Feb 22, 2023 at 10:23 AM casel.chen wrote:
>
> 如果像楼上所说[1]主动keyby将同一主键记录汇聚到同一个TM处理的话,
可以了解下 TRY_CAST 是不是能满足需求.
https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/functions/systemfunctions/#type-conversion-functions
On Sat, Nov 19, 2022 at 4:31 PM kcz <573693...@qq.com.invalid> wrote:
> flink-1.16.0
> flink sql 类型转化遇到转化失败时候可以跳过这条数据嘛?
> 不想任务直接就挂了,数据可以丢掉。
> flink sq
Flink SQL 自身机制无法保证同一个作业多个 sink 的写入次序。 是否可以考虑从业务逻辑上动手脚,比如写入消息队列 sink 前加个 udf
filter, udf 查询 database,满足条件才写入消息队列,当然这种方式对性能可能有影响。
On Wed, Oct 12, 2022 at 2:41 PM Zhiwen Sun wrote:
> hi all:
>
> 我们有个场景,需要 Flink SQL 同时写入消息和 database, 后续实时任务消费消息,再次读取 database, 如果消息先于
> database 写入,这就可能导致读取的数据不正确。
>
>
CURRENT_DATE 属于 niladic function (无参函数), 不需要加 '()'
On Mon, Sep 5, 2022 at 11:51 AM kcz <573693...@qq.com.invalid> wrote:
> select concat('1','2'),CURRENT_DATE();
> No match found for function signature CURRENT_DATE()。
> 是因为我哪里操作错了吗???
> concat是可以运行的。
设计上是支持的. 建议贴上代码, 这样大家比较好判断问题所在.
On Fri, Aug 26, 2022 at 4:08 PM 杨扬 wrote:
> 各位好!
> 目前有一flink作业,source与sink均为kafka。
> 在换版时(未修改任何代码)基于官网文档命令,创建savepoint并停止作业;而后基于之前创建的savepoint启动作业。
> 现在发现如此操作无法实现启停前后数据无缝对接,会出现一定的数据重复。
>
> 想请教这个问题是savepoint设计时本身就无法保证启停前后端到端一致性,还是我们哪
这个在 1.14 已经支持了, 详见 FLINK-20487
On 9/28/21, Liu Join wrote:
> 我将数据流进行去重后,无法进行窗口聚合操作,一直报错GroupWindowAggregate doesn't support consuming
> update and delete changes which is produced by node Deduplicate
>
by-design 的行为, avg 就是 sum / count, flink 目前行为是根据入参类型来推断返回类型 (与 `sum` 以及 `/`
保持一致), 想要保持高精度,可以考虑把入参 cast 成 double.
On Mon, Sep 27, 2021 at 2:30 PM Asahi Lee <978466...@qq.com.invalid> wrote:
> hi! 我使用flink 1.13.2版本,在对 int 类型的字段通过avg函数求平均值时,其返回值类型为
> int ,而不是 double,decimal等浮点类型,导致计算值的精度丢失,请问这
可以参考下针对 AGG 的调优指南
https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/table/tuning/
On Wed, Sep 8, 2021 at 11:05 AM yidan zhao wrote:
> 我们流量大概4w的qps,如何根据key1+key2进行pv统计(SQL任务比较简单)。
>
> 但是key2的分布比较极端,有些可能90%集中的。
>
> Shuo Cheng 于2021年9月7日周二 下午7:30写道:
>
> > 最好具
最好具体描述下什么场景的倾斜, sql 上也有一些解倾斜的手段
On 9/7/21, yidan zhao wrote:
> 如题,目前非sql情况本身实现灵活,有很多方案。
> 但是SQL情况下,倾斜严重,同时无解。有没有小伙伴解决过类似问题。
>
> 注意:sql,流任务,数据倾斜。
>
Hello, 注意到你设置了 `table.exec.source.idle-timeout`, 需要注意的是这个参数是 table 层的参数,
需要确认你的设置方式是否生效.
On Fri, Jan 29, 2021 at 5:41 PM 沉醉寒風 <1039601...@qq.com> wrote:
> 有的
>
>
>
> kafka 是3个分区, 但是只有一个分区有数据, flink是3个并行度
>
> -- 原始邮件 --
> *发件人:* "user-zh" ;
> *发送时间:* 2021年1月29日(星期五)
这样做是要达到设么目的呢? 目前的触发机制以及 early/late fire 满足不了需求么?
On 8/31/21, yidan zhao wrote:
> 如题,我目前计划自定义event time trigger实现分散触发。
> 比如0-5的窗口分散到6-11分触发, 从6开始是因为本身有个1min的乱序处理。
> 同时配合将allowedlateness设置为5min,这样避免窗口状态在触发之前被clean。
>
> 不知道想法是否OK呢?
>
你好, 你说的这种控制写入的方式在同一个 Flink SQL job 里是无法实现的. 控制数据是否写入某个
Sink,可以看看是否从逻辑上能在 Sink 前加一个 Filter,从而达到过滤目的;如果 kafka sink 跟 MySQL
表是一种类似级联的关系, 可以考虑先写入 MySQL, 然后另起一个 Job 用 CDC 方式读 MySQL changelog 再写入
Kafka sink.
On 8/26/21, jie han wrote:
> HI:
> 可以尝试下使用flink cdc 的方式写入到第二个kafka里面呀
>
> 悟空 于2021年8月26日周四 下午1
SQL 流作业 window 可定义在两种时间属性类型字段上:
1) event time: ddl 中需要给时间类型字段 (timestamp) 定义 watermark
2) process time: 使用 PROCTIME()
On 6/1/21, guoyb <861277...@qq.com> wrote:
> 是的。
>
>
> 大神能否指条明路解决这问题。
>
>
>
> ---原始邮件---
> 发件人: "MOBIN"<18814118...@163.com>
> 发送时间: 2021年6月1日(周二) 晚上7:09
> 收件人: "user-zh@flink.apac
state ttl 只能是全局算子维度, table.exec.state.ttl
--
Sent from: http://apache-flink.147419.n8.nabble.com/
Hi, org.hamcrest 是 junit 的依赖
On Fri, May 28, 2021 at 10:28 AM Zhiwen Sun wrote:
> 才编译到 Test utils : Junit 模块,就报错了
>
> maven 版本: 3.2.5
> jdk 版本:1.8.0_251
> flink 版本: flink 1.12.2
> 执行的命令:mvn clean install -DskipTests -Dfast
>
> 错误信息:
>
> [ERROR] COMPILATION ERROR :
> [INFO] --
我理解双流 Join 就能满足需求吧, 缺点是数据全量放 state,只能靠 state ttl 来清理数据
On 5/27/21, chenchencc <1353637...@qq.com> wrote:
> 想问下cep sql批处理能使用吗?想流批一体的。
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
>
Hi Jincheng,
Thanks a lot for raising the discussion. +1 for the FLIP.
I think this will bring big benefits for the PyFlink users. Currently, the
Python TableAPI document is hidden deeply under the TableAPI&SQL tab which
makes it quite unreadable. Also, the PyFlink documentation is mixed with
Jav
Thanks Dian for the great work and thanks to everyone who makes this
release possible!
Best, Hequn
On Wed, Jul 22, 2020 at 4:40 PM Jark Wu wrote:
> Congratulations! Thanks Dian for the great work and to be the release
> manager!
>
> Best,
> Jark
>
> On Wed, 22 Jul 2020 at 15:45, Yangze Guo wro
@Dian, thanks a lot for the release and for being the release manager.
Also thanks to everyone who made this release possible!
Best,
Hequn
On Sat, Apr 25, 2020 at 7:57 PM Dian Fu wrote:
> Hi everyone,
>
> The Apache Flink community is very happy to announce the release of Apache
> Flink 1.9.3,
Hi 秦寒,
Dian 说得很完善了。除此之外,金竹的博客[1]有介绍“Python API 中如何使用 Kafka”,可能对你有帮助,可以看下。
Best, Hequn
[1]
https://enjoyment.cool/2019/08/28/Apache%20Flink%20%E8%AF%B4%E9%81%93%E7%B3%BB%E5%88%97-%20Python%20API%20%E4%B8%AD%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8%20Kafka/
On Thu, Apr 9, 2020 at 9:34 AM Dian Fu wrot
Thanks a lot for the release, Jincheng!
Also thanks to everyone that make this release possible!
Best,
Hequn
On Thu, Feb 13, 2020 at 2:18 PM Dian Fu wrote:
> Thanks for the great work, Jincheng.
>
> Regards,
> Dian
>
> 在 2020年2月13日,下午1:32,jincheng sun 写道:
>
> Hi everyone,
>
> The Apache Flink
+1 (non-binding)
- Check signature and checksum.
- Install package successfully with Pip under Python 3.7.4.
- Run wordcount example successfully under Python 3.7.4.
Best, Hequn
On Tue, Feb 11, 2020 at 12:17 PM Dian Fu wrote:
> +1 (non-binding)
>
> - Verified the signature and checksum
> - Pip
Hi Jincheng,
+1 for this proposal.
>From the perspective of users, I think it would nice to have PyFlink on
PyPI which makes it much easier to install PyFlink.
Best, Hequn
On Tue, Feb 4, 2020 at 1:09 PM Jeff Zhang wrote:
> +1
>
>
> Xingbo Huang 于2020年2月4日周二 下午1:07写道:
>
>> Hi Jincheng,
>>
>> T
Congratulations! Dian Fu
> Xingbo Wei Zhong 于2020年1月16日周四 下午6:13写道: >> jincheng sun
> 于2020年1月16日周四 下午5:58写道:
Congratulations, Dian.
Well deserved!
Best, Hequn
On Thu, Jan 16, 2020 at 6:08 PM Leonard Xu wrote:
> Congratulations! Dian Fu
>
> Best,
> Leonard
>
> 在 2020年1月16日,18:00,Jeff Zhang 写道:
>
> Congrats Dian Fu !
>
> jincheng sun 于2020年1月16日周四 下午5:58写道:
>
>> Hi everyone,
>>
>> I'm very happy to a
大家好,
很高兴与大家分享本周的社区摘要,其中包括发布 Flink 1.10 和 Flink 1.9.2 的更新,关于将 Flink Docker image
发布集成到 Flink 发布过程中的讨论,PyFlink 后期新功能的讨论以及一些博客文章。
Flink开发
==
* [releases] Kostas Kloudas 建议在 feature-freeze 期间,关注下1.10新功能的文档。他创建了一个总
umbrella issue(FLINK-15273)来跟踪未完成的文档任务。 [1]
* [releases] Hequn 展开了一个启动Fli
用 udagg 应该能比较完美的解决你的问题 ^.^
On 12/6/19, Djeng Lee wrote:
> 存在查询
>
> 在 2019/12/5 下午4:06,“Yuan,Youjun” 写入:
>
> Count=0的窗口如何能得到呢?没有数据就没有产出。
> 然而可以同rows
> over窗口,将两个前后窗口的sum-当前的count,可以间接得到两个窗口的count是否相等。同时辅以前后窗口时间的差,来辅助判断。
>
> 最终在自定义函数last_value_str/first_value_str的帮助下,勉强得以实现(尚不完美,可能出现连续的ONL
Thanks a lot to Jark, Jincheng, and everyone that make this release
possible.
Best, Hequn
On Sat, Oct 19, 2019 at 10:29 PM Zili Chen wrote:
> Thanks a lot for being release manager Jark. Great work!
>
> Best,
> tison.
>
>
> Till Rohrmann 于2019年10月19日周六 下午10:15写道:
>
>> Thanks a lot for being ou
如果是使用 datastream api 的话,滑动窗口对于每条数据都会在 state 中存 size / slide
份,像你这种大小设置,肯定会导致内存的大量消耗.
On Wed, Sep 4, 2019 at 8:07 PM Yifei Qi wrote:
> 大家好:
>
>
>
> 不知道大家在使用flink时遇到过内存消耗过大的问题么?
>
>
>
> 我们最近在用flink算一些实时的统计数据, 但是内存消耗很大, 不知道有没有人知道如何优化?
>
>
>
> 具体情况是这样的:
>
> 准备的测试数据模拟一天时间内3万个用户的5万条数据. 原始数据一共是100M.
>
Hi,
应该是watermark没有达到window的end时间,导致window没有fire。watermark的相关内容可以看这里[1]。其次,你也可以通过job的运行页面[2]查看job当前watermark的值。
Best, Hequn
[1]
https://ci.apache.org/projects/flink/flink-docs-stable/dev/event_time.html#watermarks-in-parallel-streams
[2]
https://ci.apache.org/projects/flink/flink-docs-master/moni
gt; 不知道一般对于实时数仓来说是怎样解决这样的问题的?
>
> 谢谢!
> 徐涛
>
>
>
>
> 在 2019-06-21 21:21:34,"Hequn Cheng" 写道:
> >Hi 徐涛,
> >
> >最后四个问题,3和4和业务逻辑关系大些,我大致说下1和2的想法,
> >
> >1. 因为每个变化都要发一个message,Kafka中的消息数可能很大。
> >这个问题,可以借助一些攒批的策略来减少数据量,比如在自定义的sink里
Hi 徐涛,
最后四个问题,3和4和业务逻辑关系大些,我大致说下1和2的想法,
1. 因为每个变化都要发一个message,Kafka中的消息数可能很大。
这个问题,可以借助一些攒批的策略来减少数据量,比如在自定义的sink里加些cache,每1000条刷一次,刷的时候对这1000条按key去重。需要注意的是,攒批需要结合checkpoint一起来考虑,防止丢数据,可以参考下JDBCOutputFormat的实现(做checkpoint的时候需要flush)。此外,blink里面aggregate也有miniBatch的逻辑,也会减少输出的数据量(不过,flink里面还没有miniBat
自定义的函数忘贴了么 :)
On Fri, Jun 14, 2019 at 6:58 PM liu_mingzhang wrote:
>
> 我希望自定义一个这样功能的UDTF,
>
> 将表中原始数据:
> idfiled1field2
> 1 A,B,C D,E,F
>
> 转换成:
> idnumfiled1field2
> 1 1AD
> 1 2BE
> 1
我们目前是用standalone 模式部署的集群,请问这个job state 有关于job是否挂掉或者重启的指标?我看官方文档好像没找到。
> 在 2019年3月28日,下午4:51,浪人 <1543332...@qq.com> 写道:
>
> 如果是使用flink集成cluster可以监控flink的job state,如果是yarn是超脱模式可以监控yarn的状态。
>
>
>
>
> -- 原始邮件 --
> 发件人: "cheng&
各位好!
请教下各位,Flink Job 在生产上运行时,关于job运行状态的监控和告警一般是采用什么方案处理的?
比如监控job是否在正常运行,如果发现job 挂掉了 或者重启了 就进行告警。我这边有将一些metric 推到prometheus
但是好像没有发现关于job是否挂掉的metric。
希望有做过这种方案的朋友能赐教下,谢谢了!!
各位好!
请教下各位,Flink Job 在生产上运行时,关于job运行状态的监控和告警一般是采用什么方案处理的?
比如监控job是否在正常运行,如果发现job 挂掉了 或者重启了 就进行告警。我这边有将一些metric 推到prometheus
但是好像没有发现关于job是否挂掉的metric。
希望有做过这种方案的朋友能赐教下,谢谢了!!
40 matches
Mail list logo