Re: 退订

2023-02-27 文章 Weihua Hu
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org Best, Weihua On Tue, Feb 28, 2023 at 12:13 AM zhangjunjie wrote: > 退订 > > >

退订

2023-02-27 文章 zhangjunjie
退订

Re: 【Windowing TVF】 GROUP BY window_start, window_end 没有输出

2023-02-27 文章 Weihua Hu
Hi, 可以详细描述下你的使用 case 吗?用的 SQL 语句是什么样子的 Best, Weihua On Mon, Feb 27, 2023 at 12:51 PM wei_yuze wrote: > 您好! > > > > > 我在使用Windowing table-valued functions (Windowing TVFs) 的时候,GROUP BY 中一旦加上 > window_start, window_end 就没有输出,但也不报错。请问有哪位大佬知道是什么原因吗? > > Lucas

退订

2023-02-26 文章 jiafu

????

2023-02-25 文章 zhangjunjie
| ?? | fei<704669...@qq.com.INVALID> | | | 2023??02??26?? 09:02 | | ?? | user-zh | | ?? | | | | |

Re:

2023-02-25 文章 Jane Chan
退订请发送邮件至 user-zh-unsubscr...@flink.apache.org Best, Jane On Fri, Feb 24, 2023 at 7:43 PM LITA LITA wrote: > 退订 > > <704669...@qq.com.invalid> 于2023年2月24日周五 07:58写道: > > > 退订 > > > > >

Re: 使用flink sql 将kafka的数据同步到mysql无法删除。

2023-02-25 文章 Jane Chan
Hi, 原问题中 String 变量 kafka 和 mysql 赋值反了, 以及能提供下所使用的 flink 版本吗, 我使用 1.16.1 没有复现此问题 payload { "before": { "rowid": "f251af39-1a95-4d6f-b4cb-cdf93d5d1b6d", "63f73b332e77497da91286f0": "Jerry", "63f73b3f2e77497da91286fb": "mobile number", "63f73b3f2e77497da91286fc": "telephone

Re:

2023-02-24 文章 LITA LITA
退订 <704669...@qq.com.invalid> 于2023年2月24日周五 07:58写道: > 退订 > >

Re: flink avro schema 升级变动,job如何平滑过渡

2023-02-24 文章 Shammon FY
Hi 你可以贴一下错误看下具体原因 Best, Shammon On Fri, Feb 24, 2023 at 6:10 PM Peihui He wrote: > Hi, all > > 请教大家有没有遇到这样的情况,flink 使用avro > 消费kafka中数据,后来在schema结构中加入新的字段。在灰度过程中会混杂着新老数据,这样的flink 消费程序就会挂掉。 > > 大家一般是怎么处理的呢 > > Best Wishes. >

flink avro schema 升级变动,job如何平滑过渡

2023-02-24 文章 Peihui He
Hi, all 请教大家有没有遇到这样的情况,flink 使用avro 消费kafka中数据,后来在schema结构中加入新的字段。在灰度过程中会混杂着新老数据,这样的flink 消费程序就会挂掉。 大家一般是怎么处理的呢 Best Wishes.

Re: 在计算Window Top-N时,Flink SQL 时间语义不生效

2023-02-24 文章 Shuo Cheng
更乱了哦...可以尝试加个附件或推到 github, 贴个链接 On Fri, Feb 24, 2023 at 4:59 PM wei_yuze wrote: > >

在计算Window Top-N时,Flink SQL 时间语义不生效

2023-02-24 文章 wei_yuze

使用flink sql 将kafka的数据同步到mysql无法删除。

2023-02-23 文章 陈佳豪
-建表语法如下 String kafka = "CREATE TABLE `电话` " + "(`rowID` VARCHAR(255),`名称` STRING,`手机` VARCHAR(255),`座机` VARCHAR(255), " + " PRIMARY KEY (`rowID`) NOT ENFORCED ) " + " WITH " + "('connector' = 'jdbc', " + " 'driver' = 'com.mysql.cj.jdbc.Driver', " + " 'url' =

Re: flink taskmanger重启失败的问题

2023-02-23 文章 Weihua Hu
从 region 改为 full 会扩容单个 Task 故障的影响范围,可以参考社区文档: https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/ops/state/task_failure_recovery/ Best, Weihua On Fri, Feb 24, 2023 at 2:12 PM 唐世伟 wrote: > 谢谢回复,我看日志已经超出来yarn保存的期限被删了。另外Failover从region改为full。是不是能避免这个问题啊? > > > 2023年2月23日

Re: flink taskmanger重启失败的问题

2023-02-23 文章 唐世伟
谢谢回复,我看日志已经超出来yarn保存的期限被删了。另外Failover从region改为full。是不是能避免这个问题啊? > 2023年2月23日 上午11:36,Weihua Hu 写道: > > Hi, > > 在 Cancel 其他 task 时会先将 task 状态置为 cancelling,这时 task 失败是不会二次触发 Failover 的。 > 可以检查下是不是作业划分了多个 region,多个 region 的异常是统一计数的。 > > 或者可以贴一下日志吗? > > > Best, > Weihua > > > On Thu, Feb 23,

Re: Re: Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-23 文章 Shuo Cheng
> 你说的这个参数我看了默认值不是auto吗?需要我显式地指定为force? Sink upsert materialize would be applied in the following circumstances: 1. `TABLE_EXEC_SINK_UPSERT_MATERIALIZE` set to FORCE and sink's primary key nonempty. 2. `TABLE_EXEC_SINK_UPSERT_MATERIALIZE` set to AUTO and sink's primary key doesn't contain upsert

Re:Re: Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-23 文章 casel.chen
你说的这个参数我看了默认值不是auto吗?需要我显式地指定为force? Because of the disorder of ChangeLog data caused by Shuffle in distributed system, the data received by Sink may not be the order of global upsert. So add upsert materialize operator before upsert sink. It receives the upstream changelog records and

答复:

2023-02-23 文章 704669594
退订

[ANNOUNCE] Apache Flink Kubernetes Operator 1.4.0 released

2023-02-23 文章 Gyula Fóra
The Apache Flink community is very happy to announce the release of Apache Flink Kubernetes Operator 1.4.0. The Flink Kubernetes Operator allows users to manage their Apache Flink applications and their lifecycle through native k8s tooling like kubectl. Release highlights: - Flink Job

Re: 退订

2023-02-22 文章 Shammon FY
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org Best, Shammon On Thu, Feb 23, 2023 at 11:03 AM 宋品如 wrote: > 退订

Re: flink taskmanger重启失败的问题

2023-02-22 文章 Weihua Hu
Hi, 在 Cancel 其他 task 时会先将 task 状态置为 cancelling,这时 task 失败是不会二次触发 Failover 的。 可以检查下是不是作业划分了多个 region,多个 region 的异常是统一计数的。 或者可以贴一下日志吗? Best, Weihua On Thu, Feb 23, 2023 at 11:16 AM 唐世伟 wrote: > 我们有一个flink任务,同时写10几张doris表,每次doris出问题的时候任务就挂,flink的重启策略没有效果。 > flink的重启配置入下: > restart-strategy:

flink taskmanger重启失败的问题

2023-02-22 文章 唐世伟
我们有一个flink任务,同时写10几张doris表,每次doris出问题的时候任务就挂,flink的重启策略没有效果。 flink的重启配置入下: restart-strategy: failure-rate restart-strategy.failure-rate.delay: 60 s restart-strategy.failure-rate.failure-rate-interval: 10 min restart-strategy.failure-rate.max-failures-per-interval: 3

退订

2023-02-22 文章 jianbo zhang
退订

退订

2023-02-22 文章 zhangjunjie
退订

Re: FlinkSql如何实现水位线对齐

2023-02-22 文章 Shammon FY
Hi 目前SQL还不支持watermark对齐,目前有FLIP正在讨论中 https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=240884405 Best, Shammon On Wed, Feb 22, 2023 at 3:15 PM haishui wrote: > Hi, all > 以并行度4读取kafka的topic1和topic2形成两个流,然后IntervalJoin。在kafka堆积大量数据的情况下,我分别用SQL和DataStream > API实现了上述功能。 > > >

Re: Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-21 文章 Shuo Cheng
Hi, Re *"如何确保同一主键变更记录(上游接的是cdc数据源)的时间先后顺序性呢?", *checking out ExecutionConfigOptions.TABLE_EXEC_SINK_UPSERT_MATERIALIZE for details about solution of disordering problems in KeyBy shuffling. Best, Shuo On Wed, Feb 22, 2023 at 10:23 AM casel.chen wrote: > >

FlinkSql如何实现水位线对齐

2023-02-21 文章 haishui
Hi, all 以并行度4读取kafka的topic1和topic2形成两个流,然后IntervalJoin。在kafka堆积大量数据的情况下,我分别用SQL和DataStream API实现了上述功能。 使用SQL实现的作业中IntervalJoin算子的状态会逐渐增大,直到checkpoint失败。原因是在8个Source分区中输出水位线差距很大。 使用API实现的作业,在使用Flink15版本的水位线对齐后可以保证正常读取topic内的所有数据。

Re: Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-21 文章 Weihua Hu
如果想保证每次写入 mysql 的事件是最新的,需要在 Flink 内部针对事件时间排序取 TOP 1, 可以参考[1]。 但是需要注意这需要使用 state,你可以需要指定合适的 TTL[2] 来保证 state 不会过大 [1] https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/sql/queries/topn/ [2]

Re: 退订

2023-02-21 文章 weijie guo
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org Best regards, Weijie 宋品如 于2023年2月22日周三 11:37写道: > 退订 > > > > > > > > > > > -- > > 祝工作顺利,生活愉快! > 发件人:宋品如 > 岗位:大数据开发

Re: 退订

2023-02-21 文章 weijie guo
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org Best regards, Weijie 646208563 于2023年2月22日周三 11:39写道: > 退订

Re:Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-21 文章 casel.chen
如果像楼上所说[1]主动keyby将同一主键记录汇聚到同一个TM处理的话,Flink如何确保同一主键变更记录(上游接的是cdc数据源)的时间先后顺序性呢? 在 2023-02-20 09:50:50,"Shengkai Fang" 写道: >我理解如果sink 表上带有 pk,就会主动 keyby 的[1]。 > >Best, >Shengkai > >[1]

Re:Re: Re: Flink程序内存Dump不了

2023-02-21 文章 lxk
非常感谢,切换账户之后,有些job是能dump下来,但是有些job还是会报相同的错误,并且已经确认过flink作业的user和运行linux命令的user是一致的。 在 2023-02-21 11:26:07,"Biao Geng" 写道: >Hi, >这个报错 sun.jvm.hotspot.debugger.UnmappedAddressException: 7f74efa5d410 >可能和flink关系不大。 >我们之前在生产环境中dump内存的时候遇到过类似问题,后续定位发现是运行jmap命令的Linux

Re: Whether Flink SQL window operations support "Allow Lateness and SideOutput"?

2023-02-21 文章 Weihua Hu
Hi, Maybe you can use CURRENT_WATERMARK()[1] to handle some late data. [1] https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/functions/systemfunctions/ Best, Weihua On Tue, Feb 21, 2023 at 1:46 PM wang <24248...@163.com> wrote: > Hi dear engineers, > > One question as

Whether Flink SQL window operations support "Allow Lateness and SideOutput"?

2023-02-20 文章 wang
Hi dear engineers, One question as title: Whether Flink SQL window operations support "Allow Lateness and SideOutput"? Just as supported in Datastream api (allowedLateness and sideOutputLateData) like: SingleOutputStreamOperator<>sumStream = dataStream.keyBy().timeWindow()

Re: 广播流与非广播流 数据先后问题

2023-02-20 文章 Weihua Hu
Hi, 可以看到你的问题,你需要订阅 user-zh 的邮件列表才能收到相关的回复,可以参考: https://flink.apache.org/community.html Best, Weihua On Tue, Feb 21, 2023 at 12:17 PM 知而不惑 wrote: > 有收到我的问题吗 > > > > > --原始邮件-- > 发件人: > "user-zh" > >

Re: Re: Flink程序内存Dump不了

2023-02-20 文章 Biao Geng
Hi, 这个报错 sun.jvm.hotspot.debugger.UnmappedAddressException: 7f74efa5d410 可能和flink关系不大。 我们之前在生产环境中dump内存的时候遇到过类似问题,后续定位发现是运行jmap命令的Linux user与运行flink作业的Linux user不一致导致的。 不知道和你们的问题一不一致,你可以试试t用op -p 查到USER,然后su 一下,再进行jmap -dump:format=b,file=/tmp/dump.hprof 试试。 Best, Biao Geng Weihua Hu

Re: 广播流与非广播流 数据先后问题

2023-02-20 文章 Weihua Hu
Hi, 可以把具体的报错信息贴一下,另外代码中没有看到使用 listState 缓存元素的部分 Best, Weihua On Tue, Feb 21, 2023 at 9:38 AM 知而不惑 wrote: > 各位大佬好 > 我使用广播流与非广播流进行connet,随后继承实现了BroadcastProcessFunction,运行时发现在自定义实现的BroadcastProcessFunction > 中,广播流数据会先到,导致processElement() 中获取广播流数据为空,请问有什么写法或机制解决该问题?我尝试在谷歌和chatgpt > 找寻答案,给到的回复是

flink cep A B C 事件一段时间不分先后顺序匹配

2023-02-20 文章 Peihui He
hi, all 如题,看了https://mp.weixin.qq.com/s/PT8ImeOOheXR295gQRsN8w 这篇文章后,发现第四个问题没有讲到解决方案。 请教大家有什么好的方案没呢? Best Wishes!

Re: Re: flink canal json格式忽略不识别的type

2023-02-19 文章 Weihua Hu
Hi, 可以尝试使用: json.ignore-parse-errors[1] 来忽略解析的报错,需要注意这个参数会忽略所有的解析错误 [1] https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/formats/json/#json-ignore-parse-errors Best, Weihua On Mon, Feb 20, 2023 at 10:14 AM casel.chen wrote: > 日志中就是报这个 "type":"INIT_DDL"

Re: Re: Flink程序内存Dump不了

2023-02-19 文章 Weihua Hu
Hi, 可以把心跳超时(heartbeat.timeout)[1]也调大再尝试 dump 内存。 [1] https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#advanced-fault-tolerance-options Best, Weihua On Mon, Feb 20, 2023 at 1:58 PM lxk wrote: > 我尝试调整了参数,具体数值如下 > > > akka.ask.timeout: 900s > > > > 但还是报同样的错 > > > >

Re:Re: Flink程序内存Dump不了

2023-02-19 文章 lxk
我尝试调整了参数,具体数值如下 akka.ask.timeout: 900s 但还是报同样的错 在 2023-02-17 17:32:51,"Guo Thompson" 写道: >可能是jm 和 tm之间的心跳时间太短了, dump的过程会stop the world,tm就不响应jm的heartbeat了; > >lxk 于2023年2月14日周二 14:32写道: > >> Flink version:1.16 >> java version: jdk1.8.0_251 >> 问题:最近上线的Flink程序,频繁young >>

Re:Re: Flink1.16写入kafka 报错:Cluster authorization failed.

2023-02-19 文章 lxk
我们改了权限确实解决了这个问题。但我现在想了解的是为什么Flink在1.16的时候需要创建producerID的权限,以及这个权限是不是针对新老Kafka API都需要的。针对新的Kafka API在精准一次的时候需要管理ProducerID在源码中有体现,但是老的API没看见相关的,只使用了一个ProducerID也需要由Flink内部自己管理吗? 在 2023-02-20 08:45:18,"Shammon FY" 写道: >Hi > >从`Caused by:

Re:Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-19 文章 casel.chen
Flink SQL作业示意如下: create table user_source_table ( id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED, name STRING, dept_id BIGINT NOT NULL, proctime AS PROCTIME() ) with ( 'connector' = 'kafka', 'format' = 'canal-json', ... ); create table department_dim_table ( id BIGINT NOT NULL

Re:Re: flink canal json格式忽略不识别的type

2023-02-19 文章 casel.chen
日志中就是报这个 "type":"INIT_DDL" 不能识别呀,然后作业就退出了 在 2023-02-20 09:58:56,"Shengkai Fang" 写道: >Hi. 能同时分享下复现这个 case 的sql 以及相关的报错栈吗? > >Best, >Shengkai > >casel.chen 于2023年2月9日周四 12:03写道: > >> 不同云厂商的数据同步工具对于全量+增量同步mysql数据到kafka canal json格式时行为不一致 >> 有的厂商会将DDL语句同步到topic导致下游flink

Re:Re:[急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-19 文章 casel.chen
你说的这个在写入之前进行shuffle(先执行一个group by主键)这个操作我认为应该是Flink框架层面的事情,不应该在作业层面显式添加。 Flink框架应该在执行sink的时候判断目标表是否有主键,如果有主键的话应该插入一个group by算子将相同主键的记录发到同一个TaskManager处理。 我听说 Flink新版本1.15还是1.16不记得了已经改进了这个问题,有谁知道吗?有相关issue或PR链接没? 在 2023-02-19 13:43:29,"RS" 写道: >Hi,

Re: flink canal json格式忽略不识别的type

2023-02-19 文章 Shengkai Fang
Hi. 能同时分享下复现这个 case 的sql 以及相关的报错栈吗? Best, Shengkai casel.chen 于2023年2月9日周四 12:03写道: > 不同云厂商的数据同步工具对于全量+增量同步mysql数据到kafka canal json格式时行为不一致 > 有的厂商会将DDL语句同步到topic导致下游flink sql作业不能识别抛错,建议flink canal > json格式解析时直接忽略不识别的type,例如 > 例1: >

Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-19 文章 Shengkai Fang
我理解如果sink 表上带有 pk,就会主动 keyby 的[1]。 Best, Shengkai [1] https://github.com/apache/flink/blob/master/flink-table/flink-table-planner/src/main/java/org/apache/flink/table/planner/plan/nodes/exec/common/CommonExecSink.java#L188 Shammon FY 于2023年2月20日周一 08:41写道: > Hi > >

Re: Flink1.16写入kafka 报错:Cluster authorization failed.

2023-02-19 文章 Shammon FY
Hi 从`Caused by: org.apache.kafka.common.errors.ClusterAuthorizationException: Cluster authorization failed.`这个错误看起来像是权限错误,可以你检查下是否有权限问题 Best, Shammon On Fri, Feb 17, 2023 at 6:29 PM lxk wrote: > Flink版本:1.16 > 目前公司针对Flink版本进行升级,从Flink1.14升级到Flink1.16,代码没做任何调整,但是在写入kafka的时候报错: > 2023-02-17

Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-19 文章 Shammon FY
Hi 如果join计算的关联字段里没有主键,在将join结果直接写入sink表时,像上面RS提到的,需要自己再增加一次shuffle操作 Best, Shammon On Sun, Feb 19, 2023 at 1:43 PM RS wrote: > Hi, > connector里面配置的主键控制是写入存储的,有些存储在写入数据的时候,能根据主键自动更新去重 > 所以我感觉,你这里的应该是想在计算的时候shuffle(写入之前),你应该需要先执行一个 group by 主键,然后再执行insert into > > > Thanks > > > > 在 2023-02-17

Re:[急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-18 文章 RS
Hi, connector里面配置的主键控制是写入存储的,有些存储在写入数据的时候,能根据主键自动更新去重 所以我感觉,你这里的应该是想在计算的时候shuffle(写入之前),你应该需要先执行一个 group by 主键,然后再执行insert into Thanks 在 2023-02-17 15:56:51,"casel.chen" 写道: >作业场景是kafka cdc数据源关联几张redis维表再和其他流表进行双流regular inner >join,最后将打宽表写入mongodb。使用的是flink 1.13.2 sql模式。开了debug日志。

Flink1.16写入kafka 报错:Cluster authorization failed.

2023-02-17 文章 lxk
Flink版本:1.16 目前公司针对Flink版本进行升级,从Flink1.14升级到Flink1.16,代码没做任何调整,但是在写入kafka的时候报错: 2023-02-17 15:03:19 org.apache.kafka.common.KafkaException: Cannot execute transactional method because we are in an error state at

Re: Flink程序内存Dump不了

2023-02-17 文章 Guo Thompson
可能是jm 和 tm之间的心跳时间太短了, dump的过程会stop the world,tm就不响应jm的heartbeat了; lxk 于2023年2月14日周二 14:32写道: > Flink version:1.16 > java version: jdk1.8.0_251 > 问题:最近上线的Flink程序,频繁young > gc,几秒一次,在调整了新生代大小之后,还是没有解决,目前整个jvm堆大小是3.57g。因此想通过程序内存情况来分析哪里问题有问题,我们通过yarn上的applicationId,使用ps > -ef|grep

[急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-16 文章 casel.chen
作业场景是kafka cdc数据源关联几张redis维表再和其他流表进行双流regular inner join,最后将打宽表写入mongodb。使用的是flink 1.13.2 sql模式。开了debug日志。 测试下来发现相同主键的记录在不同的taskmanager上打了日志(我是在Sink Function的invoke方法打的日志),该行为导致最终结果表数据不正确。 请问: flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗? 是因为flink版本旧不支持吗?从flink哪个版本开始支持的呢? 我理解flink

Re: Disable the chain of the Sink operator

2023-02-16 文章 wudi
Thank you for your reply But in my local test environment (flink1.15 and flink1.16), when the chain of writer and commiter is disabled, the back pressure can be reduced. The specific phenomenon is as follows: 1. After ck-4 is completed, the commit execution is very slow 2. At this time, the

Re: Disable the chain of the Sink operator

2023-02-16 文章 Shammon FY
Hi wudi I'm afraid it cannot reduce back pressure. If Writer and Commiter are not chained together, and the Commiter task runs slowly, it can block the upstream Writer tasks by back pressure too. On the other hand, you can try to increase the parallelism of sink node to speedup the Commiter

Re:Flink SQL 实现数组元素变换的UDF

2023-02-16 文章 casel.chen
目前应该是不支持,一个替代方案是利用concat函数将数组转成string作为输入,再在你的UDF中拆成数组进行处理。 在 2023-02-15 16:29:19,"723849736" <723849...@qq.com.INVALID> 写道: >大家好, > >我在用flink sql的时候有一个场景,就是需要对数组中的某一列做变换,类似于spark sql中的tranform函数 > > >https://spark.apache.org/docs/latest/api/sql/index.html#transform > > >目前flink

Re: Disable the chain of the Sink operator

2023-02-16 文章 wudi
thanks for your replies. I think that if Writer and Commiter are not chained together, data consistency can be guaranteed, right? Because when the Commiter does not block the Writer, at the next Checkpoint, if the Commit is not completed, the SinkWriter.precommit will not be triggered In

Re: Disable the chain of the Sink operator

2023-02-16 文章 Chesnay Schepler
As far as I know that chain between committer and writer is also required for correctness. On 16/02/2023 14:53, weijie guo wrote: Hi wu, I don't think it is a good choice to directly change the strategy of chain. Operator chain usually has better performance and resource utilization. If we

Re: Disable the chain of the Sink operator

2023-02-16 文章 weijie guo
Hi wu, I don't think it is a good choice to directly change the strategy of chain. Operator chain usually has better performance and resource utilization. If we directly change the chain policy between them, users can no longer chain them together, which is not a good starting point. Best

Re: Disable the chain of the Sink operator

2023-02-16 文章 wudi
Thank you for your reply. Currently in the custom Sink Connector, the Flink task will combine Writer and Committer into one thread, and the thread name is similar: [Sink: Writer -> Sink: Committer (1/1)#0]. In this way, when the Committer.commit() method is very slow, it will block the

Re: Disable the chain of the Sink operator

2023-02-16 文章 Shammon FY
Hi Do you mean how to disable `chain` in your custom sink connector? Can you give an example of what you want? On Wed, Feb 15, 2023 at 10:42 PM di wu <676366...@qq.com> wrote: > Hello > > The current Sink operator will be split into two operations, Writer and > Commiter. By default, they will

Re: Flink SQL 实现数组元素变换的UDF

2023-02-16 文章 Shammon FY
Hi 可以考虑将这个function打入到udf包里,在自定义的udf里直接调用? On Wed, Feb 15, 2023 at 4:29 PM 723849736 <723849...@qq.com.invalid> wrote: > 大家好, > > 我在用flink sql的时候有一个场景,就是需要对数组中的某一列做变换,类似于spark sql中的tranform函数 > > > https://spark.apache.org/docs/latest/api/sql/index.html#transform > > > 目前flink

Re: Flink on yarn 运行一段时间出现 TaskManager with id is no longer reachable

2023-02-16 文章 Shammon FY
Hi 上面TM心跳出现unreachable,一般是TM退出了,可以看下退出原因 下面Checkpoint超时,可以看下是否出现反压等问题,也可以看checkpoint执行时间,考虑增加checkpoint超时时间 Best, Shammon On Thu, Feb 16, 2023 at 10:34 AM lxk wrote: > 你好,可以dump下内存分析 > > > > > > > > > > > > > > > > > > 在 2023-02-16 10:05:19,"Fei Han" 写道: > >@all > >大家好!我的Flink

Re:Flink on yarn 运行一段时间出现 TaskManager with id is no longer reachable

2023-02-15 文章 lxk
你好,可以dump下内存分析 在 2023-02-16 10:05:19,"Fei Han" 写道: >@all >大家好!我的Flink 版本是1.14.5。CDC版本是2.2.1。在on yarn 运行一段时间后会出现如下报错: >org.apache.flink.runtime.jobmaster.JobMasterException: TaskManager with id >container_e506_1673750933366_49579_01_02(hdp-server-010.yigongpin.com:8041) > is

Flink on yarn 运行一段时间出现 TaskManager with id is no longer reachable

2023-02-15 文章 Fei Han
@all 大家好!我的Flink 版本是1.14.5。CDC版本是2.2.1。在on yarn 运行一段时间后会出现如下报错: org.apache.flink.runtime.jobmaster.JobMasterException: TaskManager with id container_e506_1673750933366_49579_01_02(hdp-server-010.yigongpin.com:8041) is no longer reachable. at

Re: regular join每条流单独设置ttl

2023-02-14 文章 Jane Chan
你好, 目前 Flink SQL 还不支持为每条流单独设置 state TTL, 不过社区计划支持这个功能, 最近就会有 FLIP 提出, 也欢迎参与讨论. Best regards, Jane On Wed, Feb 15, 2023 at 11:13 AM Jason_H wrote: > 大家好, > 我遇到一个问题,在使用flinksql做双流join时,我用的是常规的regular > join,分别是一条数据流,一条维表流,现在我想单独给数据流设置ttl,请教一下可以怎么做,flink版本是1.15.2 > > > | | > Jason_H > | > | >

regular join每条流单独设置ttl

2023-02-14 文章 Jason_H
大家好, 我遇到一个问题,在使用flinksql做双流join时,我用的是常规的regular join,分别是一条数据流,一条维表流,现在我想单独给数据流设置ttl,请教一下可以怎么做,flink版本是1.15.2 | | Jason_H | | hyb_he...@163.com |

Re: 运行中的作业状态清除操作

2023-02-14 文章 Shammon FY
Hi 这个是无法办到的,建议还是重启 On Mon, Feb 13, 2023 at 4:33 PM Jason_H wrote: > 遇到的问题:在flink中,使用状态的地方已经设置了ttl, 但是上下游把数据清空了,然后想重新测试发现, > flink计算的结果不是从0开始累计的,是基于之前的结果继续累计的,这种情况在不重启作业的情况下 有什么办法处理吗? > > > 具体来说就是,在不停止flink作业的情况下,怎么清楚运行中的flink作业的状态数据,以达到计算结果归0开始累计。 > > >

Flink程序内存Dump不了

2023-02-13 文章 lxk
Flink version:1.16 java version: jdk1.8.0_251 问题:最近上线的Flink程序,频繁young gc,几秒一次,在调整了新生代大小之后,还是没有解决,目前整个jvm堆大小是3.57g。因此想通过程序内存情况来分析哪里问题有问题,我们通过yarn上的applicationId,使用ps -ef|grep 1666758697316_2639108,找到对应的pid,最后执行 jmap -dump:format b,file=user.dump 26326

运行中的作业状态清除操作

2023-02-13 文章 Jason_H
遇到的问题:在flink中,使用状态的地方已经设置了ttl, 但是上下游把数据清空了,然后想重新测试发现, flink计算的结果不是从0开始累计的,是基于之前的结果继续累计的,这种情况在不重启作业的情况下 有什么办法处理吗? 具体来说就是,在不停止flink作业的情况下,怎么清楚运行中的flink作业的状态数据,以达到计算结果归0开始累计。 在不重启作业的情况下,清空状态数据是不是和重启作业运行是一样的效果,避免状态累计数据对结果产生影响呢。 | | Jason_H | | hyb_he...@163.com |

flink connector kafka,单条 msg 为 7kb,poll 较慢

2023-02-12 文章 xuhaiLong
hi all 最近遇到一个问题,flink消费 kafka,kafka单条 msg 大概在 7kb(json 格式,value值大),流量较大,很快会产生堆积。处理逻辑已经过调优,目前的瓶颈是在 poll 消息的时候,1w条消息(总共70mb)大概要3s才能拉取结束,已经尝试调节过consumer配置,没有较好的性能提升,请问有较好解决的方案吗? props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

退订

2023-02-09 文章 ZhouZH
退订

Re: 退订

2023-02-09 文章 huang huang
退订 weijie guo 于2023年2月8日周三 05:29写道: > Hi, > > 你需要发送邮件到 user-zh-unsubscr...@flink.apache.org > 而不是 user-zh@flink.apache.org. > > > Best regards, > > Weijie > > > wujunxi <462329...@qq.com.invalid> 于2023年2月7日周二 16:52写道: > > > 退订 >

flink canal json格式忽略不识别的type

2023-02-08 文章 casel.chen
不同云厂商的数据同步工具对于全量+增量同步mysql数据到kafka canal json格式时行为不一致 有的厂商会将DDL语句同步到topic导致下游flink sql作业不能识别抛错,建议flink canal json格式解析时直接忽略不识别的type,例如 例1:

Re: Re: Kafka 数据源无法实现基于事件时间的窗口聚合

2023-02-08 文章 yidan zhao
实际使用你肯定不会是console producer吧。或者你换java代码写kafka,方便控制些。 wei_yuze 于2023年2月8日周三 13:30写道: > > 非常感谢各位的回答! > > > > Weihua和飞雨正确定位出了问题。问题出在Flink 并发数大于Kafka分区数,导致部分Flink task slot > 接收不到数据,进而导致watermark(取所有task slot的最小值)无法推进。 > > > 我尝试了Weihua提供的两个解决方案后都可以推进watermark求得窗口聚合结果。 > > >

Re: 退订

2023-02-07 文章 weijie guo
Hi, 你需要发送邮件到 user-zh-unsubscr...@flink.apache.org 而不是 user-zh@flink.apache.org. Best regards, Weijie wujunxi <462329...@qq.com.invalid> 于2023年2月7日周二 16:52写道: > 退订

Re: I want to subscribe users' questions

2023-02-07 文章 yuxia
Maybe you will also be interested in joining Flink Slack, here is my invite link for joining Flink Slack: https://join.slack.com/t/apache-flink/shared_invite/zt-1obpql04h-R3o5XM8d~Siyl3KGldkl2Q Best regards, Yuxia - 原始邮件 - 发件人: "guanyuan chen" 收件人: "User" , "user-zh" 发送时间: 星期五, 2023年

Re: I want to subscribe users' questions

2023-02-07 文章 Hang Ruan
Hi, guanyuan, This document( https://flink.apache.org/community.html#how-to-subscribe-to-a-mailing-list) will be helpful. welcome~ Best, Hang guanyuan chen 于2023年2月7日周二 21:37写道: > Hi, > My name is Guanyuan Chen.I am a big data development engineer, tencent > wechat department, china. I

I want to subscribe users' questions

2023-02-07 文章 guanyuan chen
Hi, My name is Guanyuan Chen.I am a big data development engineer, tencent wechat department, china. I have 4 years experience in flink developing, and want to subscribe flink's development news and help someone developing flink job willingly. Thanks a lot.

回复: Kafka 数据源无法实现基于事件时间的窗口聚合

2023-02-07 文章 drewfranklin
Hi ,应该是Kafka 可能存在空闲分区,如果只是partition 数量少于并发数的话,并不会影响水位推进,只是会浪费资源。默认程序不指定并行度,使用电脑cpu 核数。 如果是table api 的话,可以添加如下参数解决,table.exec.source.idle-timeout | | 飞雨 | | bigdata drewfrank...@126.com | 回复的原邮件 | 发件人 | Weihua Hu | | 发送日期 | 2023年02月7日 18:48 | | 收件人 | | | 主题 | Re: Kafka

Re: Kafka 数据源无法实现基于事件时间的窗口聚合

2023-02-07 文章 Weihua Hu
Hi, 问题应该是 kafka source 配置了多并发运行,但数据量比较少(或者 topic 的 partition 数量小于 task 的并发数量),不是所有的 source task 都消费到了数据并产生 watermark,导致下游聚合算子无法对齐 watermark 触发计算。 可以尝试通过以下办法解决: 1. 将 source 并发控制为 1 2. 为 watermark 策略开始 idleness 处理,参考 [#1] fromElement 数据源会强制指定并发为 1 [#1]

Re: idea构建flink源码失败

2023-02-07 文章 Ran Tao
jdk8 & scala2.12的组合是支持的,你这个问题一般就是jdk和idea设置问题。可以通过以下方法尝试下: 1.注意查看 maven profile,查看勾选的profile(可以使用scala-2.12)。 2.ProjectStrccture -> modules 设置各个module 匹配 jdk8 3.IDEA-Settings-Builder-Compiler 设置 jdk8,以及使用jdk11的话注意开启交叉编译 4.scala-compiler的server也要设置jdk8 tiger <2372554...@qq.com.invalid>

Re: idea构建flink源码失败

2023-02-06 文章 Weihua Hu
Hi, Flink 1.15 版本之后已经不支持 JDK 8 了,可以尝试使用 jdk 11 编译,另外在 idea 编译具体是怎么操作的呢?可以尝试在命令行编译,如果有问题可以发一下更多的错误日志。 源码编译可以参考文档: https://nightlies.apache.org/flink/flink-docs-master/docs/flinkdev/building/ Best, Weihua On Sat, Feb 4, 2023 at 6:06 PM tiger <2372554...@qq.com.invalid> wrote: > hi, > > >

退订

2023-02-06 文章 郑林怡
退订

Re: Flink SQL使用hive dialect异常

2023-02-06 文章 yuxia
你好,可以贴一下详细的异常栈吗? 可以在 FLINK_HOME/log/ 下面看到 Best regards, Yuxia - 原始邮件 - 发件人: "aiden" <18765295...@163.com> 收件人: "user-zh" 发送时间: 星期一, 2023年 2 月 06日 下午 4:44:02 主题: Flink SQL使用hive dialect异常 HI 我在使用Flink SQL Client开发hive时遇到一个问题,在设置set table.sql-dialect=hive时,会报如下错误 Flink SQL> CREATE

idea构建flink源码失败

2023-02-04 文章 tiger
hi,     各位大佬好,在idea构建flink源码失败,吧几乎所有scala版本,sbt版本都下载下来,一一测试都失败了。 环境如下: 操作系统:Ubuntu22.04 idea:2022.3.2 jdk:      java version "1.8.0_191"     Java(TM) SE Runtime Environment (build 1.8.0_191-b12)     Java HotSpot(TM) 64-Bit Server VM (build 25.191-b12, mixed mode) scala:   

flink提交jar包时报连接不上BlobServer

2023-02-02 文章 孙冬燕
2023-02-02 19:21:21,288 WARN org.apache.flink.client.deployment.application.DetachedApplicationRunner [] - Could not execute application: org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Failed to execute job 'Flink Streaming Job'. at

Re: Flink消费消息队列写入HDFS

2023-02-02 文章 weijie guo
你好,可以使用FileSink,这个是基于新的sink API的。 Best regards, Weijie Howie Yang 于2023年2月2日周四 16:28写道: > Hey, > > > 最近想把消费日志写入到HDFS中,找这块的connector发现大部分都停留在使用 BucketingSink 的方式,这个好像是老版本的api了, > 这块官方推荐的最新的方式是什么呢? > > > > > > > > > > > -- > > Best, > Howie

Flink消费消息队列写入HDFS

2023-02-02 文章 Howie Yang
Hey, 最近想把消费日志写入到HDFS中,找这块的connector发现大部分都停留在使用 BucketingSink 的方式,这个好像是老版本的api了, 这块官方推荐的最新的方式是什么呢? -- Best, Howie

Re: [ANNOUNCE] Apache Flink 1.16.1 released

2023-02-01 文章 weijie guo
Thank Martin for managing the release and all the people involved. Best regards, Weijie Konstantin Knauf 于2023年2月2日周四 06:40写道: > Great. Thanks, Martijn for managing the release. > > Am Mi., 1. Feb. 2023 um 20:26 Uhr schrieb Martijn Visser < > martijnvis...@apache.org>: > > > The Apache

Re: [ANNOUNCE] Apache Flink 1.16.1 released

2023-02-01 文章 Konstantin Knauf
Great. Thanks, Martijn for managing the release. Am Mi., 1. Feb. 2023 um 20:26 Uhr schrieb Martijn Visser < martijnvis...@apache.org>: > The Apache Flink community is very happy to announce the release of Apache > Flink 1.16.1, which is the first bugfix release for the Apache Flink 1.16 >

[ANNOUNCE] Apache Flink 1.16.1 released

2023-02-01 文章 Martijn Visser
The Apache Flink community is very happy to announce the release of Apache Flink 1.16.1, which is the first bugfix release for the Apache Flink 1.16 series. Apache Flink® is an open-source stream processing framework for distributed, high-performing, always-available, and accurate data streaming

flink 访问hive 表,怎样实现读写权限校验?

2023-01-31 文章 melin li
flink 访问hive 表,怎样实现读写权限校验?能够支持sql或者java api 任务。

Re:Re: Flink SQL 如何优化以及处理反压

2023-01-31 文章 lxk
现在从web ui上看,瓶颈主要在于group by 聚合函数之后去重这个逻辑。 而且SQL这个并行度是全局设置的,没法针对某一个特定的算子设置并行度,并行度多了之后,资源又感觉有点吃紧。 在 2023-01-31 17:45:15,"weijie guo" 写道: >最好先找到导致下游处理过慢的瓶颈算子,适当扩大一下并发。如果还不行,看下jstack的情况,可能需要调整逻辑。 > >Best regards, > >Weijie > > >ssmq <374060...@qq.com.invalid> 于2023年1月31日周二 17:22写道: >

Re: Flink SQL 如何优化以及处理反压

2023-01-31 文章 weijie guo
最好先找到导致下游处理过慢的瓶颈算子,适当扩大一下并发。如果还不行,看下jstack的情况,可能需要调整逻辑。 Best regards, Weijie ssmq <374060...@qq.com.invalid> 于2023年1月31日周二 17:22写道: > 你可以测试不写入clickhouse是否还存在反压,如果不是因为写入瓶颈的话就从你的处理逻辑优化了 > > > 发件人: lxk > 发送时间: 2023年1月31日 15:16 > 收件人: user-zh@flink.apache.org > 主题: Flink SQL 如何优化以及处理反压 > >

回复: Flink SQL 如何优化以及处理反压

2023-01-31 文章 ssmq
你可以测试不写入clickhouse是否还存在反压,如果不是因为写入瓶颈的话就从你的处理逻辑优化了 发件人: lxk 发送时间: 2023年1月31日 15:16 收件人: user-zh@flink.apache.org 主题: Flink SQL 如何优化以及处理反压 Flink版本:1.16.0 目前在使用Flink SQL进行多流关联,并写入Clickhouse中 具体代码如下: select \ header.id as id, \ LAST_VALUE(header.order_status), \ LAST_VALUE(header.customer_id), \

Re: [ANNOUNCE] FRocksDB 6.20.3-ververica-2.0 released

2023-01-31 文章 Leonard Xu
Thanks Yanfei for driving the release ! ! Best, Leonard > On Jan 31, 2023, at 3:43 PM, Yun Tang wrote: > > Thanks Yuanfei for driving the frocksdb release! > > Best > Yun Tang > From: Yuan Mei > Sent: Tuesday, January 31, 2023 15:09 > To: Jing Ge > Cc: Yanfei Lei ; d...@flink.apache.org >

Re: [ANNOUNCE] FRocksDB 6.20.3-ververica-2.0 released

2023-01-30 文章 Yun Tang
Thanks Yuanfei for driving the frocksdb release! Best Yun Tang From: Yuan Mei Sent: Tuesday, January 31, 2023 15:09 To: Jing Ge Cc: Yanfei Lei ; d...@flink.apache.org ; user ; user-zh@flink.apache.org Subject: Re: [ANNOUNCE] FRocksDB 6.20.3-ververica-2.0

Flink SQL 如何优化以及处理反压

2023-01-30 文章 lxk
Flink版本:1.16.0 目前在使用Flink SQL进行多流关联,并写入Clickhouse中 具体代码如下: select \ header.id as id, \ LAST_VALUE(header.order_status), \ LAST_VALUE(header.customer_id), \ LAST_VALUE(header.shop_id), \ LAST_VALUE(header.parent_order_id), \ LAST_VALUE(header.order_at), \ LAST_VALUE(header.pay_at), \

Re: [ANNOUNCE] FRocksDB 6.20.3-ververica-2.0 released

2023-01-30 文章 Yuan Mei
Thanks Yanfei for driving the release! Best Yuan On Mon, Jan 30, 2023 at 8:46 PM Jing Ge via user wrote: > Hi Yanfei, > > Thanks for your effort. Looking forward to checking it. > > Best regards, > Jing > > On Mon, Jan 30, 2023 at 1:42 PM Yanfei Lei wrote: > >> It is very happy to announce

<    7   8   9   10   11   12   13   14   15   16   >