Re: [ANNOUNCE] Donation Flink CDC into Apache Flink has Completed

2024-03-20 文章 weijie guo
Congratulations! Well done. Best regards, Weijie Feng Jin 于2024年3月21日周四 11:40写道: > Congratulations! > > > Best, > Feng > > > On Thu, Mar 21, 2024 at 11:37 AM Ron liu wrote: > > > Congratulations! > > > > Best, > > Ron > > > > Jark Wu 于2024年3月21日周四 10:46写道: > > > > > Congratulations and

Re: [ANNOUNCE] Apache Flink 1.19.0 released

2024-03-18 文章 weijie guo
Congratulations! Thanks release managers and all the contributors involved. Best regards, Weijie Leonard Xu 于2024年3月18日周一 16:45写道: > Congratulations, thanks release managers and all involved for the great > work! > > > Best, > Leonard > > > 2024年3月18日 下午4:32,Jingsong Li 写道: > > > >

Re: 关于DataStream API计算批数据的聚合值

2023-07-25 文章 weijie guo
你好: Batch 模式下的 reduce 操作默认应该就是只输出最后一条数据(per-key)的。Agg 的话可能有点麻烦,可以使用 GlobalWindow + 自定义 Trigger 来 Workaround. Best regards, Weijie Liu Join 于2023年7月26日周三 09:10写道: > 例如:我使用DataStream api计算批数据也就是有界流的平均值,如何实现只输出最后一条平均值的数据,不输出中间值 >

Re: 如果DataSet API 被彻底废掉了,那我如何用DataStream实现分区、排序这个需求?

2023-07-12 文章 weijie guo
你好, 首先,Batch Shuffle 的中间数据都是会落盘的。其次,对于 Sort 这个操作来说,上面给出的解法和Dataset一致,都不会落盘。 Best regards, Weijie jinzhuguang 于2023年7月12日周三 17:28写道: > 如果我的数据量很大,内存装不下,flink在batch > mode下的行为是否会像传统的批处理系统,例如hive那样,会进行shuffe、中间数据落盘等操作。 > > > 2023年7月12日 17:05,weijie guo 写道: > > > > >

Re: 如果DataSet API 被彻底废掉了,那我如何用DataStream实现分区、排序这个需求?

2023-07-12 文章 weijie guo
你好,对于DataSet中不按照key进行全量聚合/排序的API(例如,sortPartition/mapPartition),DataStream上目前没有直接提供相同的API,但可以通过组合DataStream上现有的API实现相同的功能。 以mapPartition为例,可以通过以下三个步骤实现相同的功能: 1. dataStream.map(record -> (subtaskIndex, record)),为每个Record增加处理该record时子任务编号。 2.

Re: [ANNOUNCE] Apache Flink 1.16.2 released

2023-05-28 文章 weijie guo
n Fri, May 26, 2023 at 4:41 PM Martijn Visser > wrote: > > > Thank you Weijie and those who helped with testing! > > > > On Fri, May 26, 2023 at 1:06 PM weijie guo > > wrote: > > > > > The Apache Flink community is very happy to announce the release of &

[ANNOUNCE] Apache Flink 1.17.1 released

2023-05-26 文章 weijie guo
The Apache Flink community is very happy to announce the release of Apache Flink 1.17.1, which is the first bugfix release for the Apache Flink 1.17 series. Apache Flink® is an open-source stream processing framework for distributed, high-performing, always-available, and accurate data

Re: 退订

2023-02-21 文章 weijie guo
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org Best regards, Weijie 宋品如 于2023年2月22日周三 11:37写道: > 退订 > > > > > > > > > > > -- > > 祝工作顺利,生活愉快! > 发件人:宋品如 > 岗位:大数据开发

Re: 退订

2023-02-21 文章 weijie guo
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org Best regards, Weijie 646208563 于2023年2月22日周三 11:39写道: > 退订

Re: Disable the chain of the Sink operator

2023-02-16 文章 weijie guo
Hi wu, I don't think it is a good choice to directly change the strategy of chain. Operator chain usually has better performance and resource utilization. If we directly change the chain policy between them, users can no longer chain them together, which is not a good starting point. Best

Re: 退订

2023-02-07 文章 weijie guo
Hi, 你需要发送邮件到 user-zh-unsubscr...@flink.apache.org 而不是 user-zh@flink.apache.org. Best regards, Weijie wujunxi <462329...@qq.com.invalid> 于2023年2月7日周二 16:52写道: > 退订

Re: Flink消费消息队列写入HDFS

2023-02-02 文章 weijie guo
你好,可以使用FileSink,这个是基于新的sink API的。 Best regards, Weijie Howie Yang 于2023年2月2日周四 16:28写道: > Hey, > > > 最近想把消费日志写入到HDFS中,找这块的connector发现大部分都停留在使用 BucketingSink 的方式,这个好像是老版本的api了, > 这块官方推荐的最新的方式是什么呢? > > > > > > > > > > > -- > > Best, > Howie

Re: [ANNOUNCE] Apache Flink 1.16.1 released

2023-02-01 文章 weijie guo
Thank Martin for managing the release and all the people involved. Best regards, Weijie Konstantin Knauf 于2023年2月2日周四 06:40写道: > Great. Thanks, Martijn for managing the release. > > Am Mi., 1. Feb. 2023 um 20:26 Uhr schrieb Martijn Visser < > martijnvis...@apache.org>: > > > The Apache

Re: Flink SQL 如何优化以及处理反压

2023-01-31 文章 weijie guo
最好先找到导致下游处理过慢的瓶颈算子,适当扩大一下并发。如果还不行,看下jstack的情况,可能需要调整逻辑。 Best regards, Weijie ssmq <374060...@qq.com.invalid> 于2023年1月31日周二 17:22写道: > 你可以测试不写入clickhouse是否还存在反压,如果不是因为写入瓶颈的话就从你的处理逻辑优化了 > > > 发件人: lxk > 发送时间: 2023年1月31日 15:16 > 收件人: user-zh@flink.apache.org > 主题: Flink SQL 如何优化以及处理反压 > >

Re: 退订

2023-01-30 文章 weijie guo
Hello, 退订请发邮件到user-zh-unsubscr...@flink.apache.org Best regards, Weijie 唐凯 于2023年1月19日周四 15:54写道: > 退订 > > > > > 唐凯 > mrdon...@foxmail.com > > > >

Re: 任务本地运行正常,提交到集群报错 - 图片挂掉,文字贴一下报错信息,非常抱歉打扰

2023-01-30 文章 weijie guo
ping 127.0.0.1:33271 可以ping通吗 Best regards, Weijie yidan zhao 于2023年1月12日周四 17:48写道: > 看报错 Could not connect to BlobServer at address > localhost/127.0.0.1:33271,你本地的配置是不是不对。提交到什么模式部署的集群,配置是否配对了。 > > WD.Z 于2023年1月10日周二 10:56写道: > > > > >

Re: 关于Flink重启策略疑惑

2022-12-09 文章 weijie guo
你好 1.Flink中(JM)JobMaster会监控各个Task的状态,如果Task由于某些原因失败了,JM触发failover,并且决策哪些task应该被重新启动。当然,如果JM挂掉的话,Flink支持配置高可用(HA),通过持久化一些信息到外部系统,从而做到通过standby JM正确接管作业。 2.无论单个Task挂掉还是TaskManager挂掉failover流程都可以正确处理,处理流程基本是一致的,TaskManager挂掉可以认为是上面所有被调度上去的Task fail了。 Best regards, Weijie 李义 于2022年12月9日周五

Re: batch mode如何同步等待执行结果

2022-11-09 文章 weijie guo
什么部署模式(per-job/session/application),另外是不是使用Detach参数,例如-d或者-yd Best regards, Weijie 唐世伟 于2022年11月9日周三 10:00写道: > 谢谢回复,这个应该只能在table api或者sql的情况下使用,stream api应该不行吧 > > > > 2022年11月8日 下午8:10,yuxia 写道: > > > > set table.dml-sync = true > > 是不是可以 > > > > Best regards, > > Yuxia > > > > - 原始邮件

Re: 关于LocalTransportException的优化方向咨询

2022-11-01 文章 weijie guo
r还是flink的jar。flink的jar不需要,因为我是standalone集群。 > 任务jar的话,这出现另外一个问题,如果一个TM分配到120*10=1200个task,那么任务jar不会分发这么多次吧。 > > weijie guo 于2022年10月31日周一 12:54写道: > > > > 你好,请问使用的flink版本是多少? > > 1.15的话TM间是有connection reuse的,默认TM间建立一个物理TCP连接。 > > > 并发大了的话,你的TM只有一个slot,启动的TM会变多。ta

Re: 关于busy,idle,backpressure的指标

2022-10-30 文章 weijie guo
可以提供一下A、B中一些并发的thread dump吗 Best regards, Weijie yidan zhao 于2022年10月30日周日 17:26写道: > 当前我发现部分奇怪现象,比如A=>B。 > 存在A处于反压,但是B全部都是idle的,busy为0,这种情况是什么原因呢? >

Re: 关于LocalTransportException的优化方向咨询

2022-10-30 文章 weijie guo
你好,请问使用的flink版本是多少? 1.15的话TM间是有connection reuse的,默认TM间建立一个物理TCP连接。 并发大了的话,你的TM只有一个slot,启动的TM会变多。task全变成running的状态变慢的因素也比较多:有些TM容器在的结点比较慢、下载jar包时间长、state restore慢等 Best regards, Weijie yidan zhao 于2022年10月30日周日 11:36写道: > 如题,我生产集群频繁报 org.apache.flink.runtime.io >

Re: Re: 关于如何得到管道中哪些源是有界和无界的问题

2022-10-28 文章 weijie guo
t; > org.apache.flink.table.api.TableException: Unsupported mode 'AUTOMATIC' > for 'execution.runtime-mode'. Only an explicit BATCH or STREAMING mode is > supported in Table API. > > > > 是后续版本已经支持execution.runtime-mode=AUTOMATIC了吗? > > > > > > 发件人: weijie guo > > 发送

Re: Re: 关于如何得到管道中哪些源是有界和无界的问题

2022-10-28 文章 weijie guo
有的source的有界/无界来判断整个管道是有界/无界的,如果所有scnSource都是有界的则管道必定是有界管道,否则管道就是无界管道。 > > > 发件人: weijie guo > 发送时间: 2022-10-28 15:44 > 收件人: user-zh > 主题: Re: Re: 关于如何得到管道中哪些源是有界和无界的问题 > Hi, junjie: > > 我想先了解一下你的目的是什么,为什么需要在Table API中判断Source的Boundness,这些信息对你的场景的帮助是什么? > > Best regar

Re: Re: 关于如何得到管道中哪些源是有界和无界的问题

2022-10-28 文章 weijie guo
Hi, junjie: 我想先了解一下你的目的是什么,为什么需要在Table API中判断Source的Boundness,这些信息对你的场景的帮助是什么? Best regards, Weijie junjie.m...@goupwith.com 于2022年10月28日周五 15:36写道: > public static DynamicTableSource FactoryUtil.createTableSource(@Nullable > Catalog catalog,ObjectIdentifier objectIdentifier,

Re: flink remote shuffle example运行出错

2021-12-01 文章 weijie guo
你好,你是在flink standalone模式下提交的作业吗,另外用的flink是官网download的Apache Flink 1.14.0 for Scala 2.12 吗 casel.chen 于2021年12月2日周四 上午8:12写道: > 按照 https://github.com/flink-extended/flink-remote-shuffle 上的指南试着运行flink >

Re: [ANNOUNCE] Apache Flink 1.11.2 released

2020-09-18 文章 Weijie Guo 2
Good job! Very thanks @ZhuZhu for driving this and thanks for all contributed to the release! best, Weijie Zhu Zhu-2 wrote > The Apache Flink community is very happy to announce the release of Apache > Flink 1.11.2, which is the second bugfix release for the Apache Flink 1.11 > series. > >