【问题分析】Fink任务无限反压

2021-06-07 Thread yidan zhao
该任务有时候正常,偶尔反压。 最近观察发现,反压时,kafkaSouce节点100%反压到停滞,后续算子什么也收不到,任务整体停滞。 这类错误遇到过很多次了,目前我生产中flink有个很大问题就是这些稳定性,压力大不是需要时间去追赶,而是压力一大就整体处于停滞状态。

Re: 【问题分析】Fink任务无限反压

2021-06-07 Thread LakeShen
你可以先结合你的任务逻辑,以及 Flink Web UI 反压监控,看看到底是什么地方引起反压。 一般 source 反压,是下游的算子一直反压到 source。可以看看那个算子引起 Best, LakeShen yidan zhao 于2021年6月8日周二 上午10:28写道: > 该任务有时候正常,偶尔反压。 > 最近观察发现,反压时,kafkaSouce节点100%反压到停滞,后续算子什么也收不到,任务整体停滞。 > > 这类错误遇到过很多次了,目前我生产中flink有个很大问题就是这些稳定性,压力大不是需要时间去追赶,而是压力一大就整体处于停滞状态。 >

Re: 【问题分析】Fink任务无限反压

2021-06-07 Thread yidan zhao
正常的反压遇到过很多,也解决过很多。 但我现在这个问题类似的也是很多次了,很奇怪。就是反压到CPU利用率反而成0,就是不工作了。 LakeShen 于2021年6月8日周二 上午10:37写道: > > 你可以先结合你的任务逻辑,以及 Flink Web UI 反压监控,看看到底是什么地方引起反压。 > 一般 source 反压,是下游的算子一直反压到 source。可以看看那个算子引起 > > Best, > LakeShen > > > yidan zhao 于2021年6月8日周二 上午10:28写道: > > > 该任务有时候正常,偶尔反压。 > > 最近观察发现,反压时,

Re: 【问题分析】Fink任务无限反压

2021-06-07 Thread HunterXHunter
掐头去尾的提问,完全不知道是什么问题,没法回答你,最好是贴出代码,贴出图片等大家才能帮忙分析 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:Re: 【问题分析】Fink任务无限反压

2021-06-07 Thread 东东
反压也可能是下游IO跟不上造成的啊,严重的话上游确实就不工作了呗 在 2021-06-08 11:11:34,"yidan zhao" 写道: >正常的反压遇到过很多,也解决过很多。 但我现在这个问题类似的也是很多次了,很奇怪。就是反压到CPU利用率反而成0,就是不工作了。 > >LakeShen 于2021年6月8日周二 上午10:37写道: >> >> 你可以先结合你的任务逻辑,以及 Flink Web UI 反压监控,看看到底是什么地方引起反压。 >> 一般 source 反压,是下游的算子一直反压到 source。可以看看那个算子引起 >> >> Best, >> L

Re: 【问题分析】Fink任务无限反压

2021-06-07 Thread yidan zhao
怎么说的,这个应该不是代码层面的问题,所以感觉贴代码意义不大。 我是想看有没有类似的什么idea,什么情况可能呈现类似现象。 就是直接停滞了,我发现的时候所有算子都非反压,只要source处于反压状态。 然后source到下一个算子直接的records sent和records received数量已经彻底不变(眼看好几分钟也不变)。 HunterXHunter <1356469...@qq.com> 于2021年6月8日周二 上午11:13写道: > > 掐头去尾的提问,完全不知道是什么问题,没法回答你,最好是贴出代码,贴出图片等大家才能帮忙分析 > > > > -- > Sent fr

Re:Re: 【问题分析】Fink任务无限反压

2021-06-08 Thread 13631283359
1.不知道这边有没有flink数据链路监控 2.flink反压可能有以下几种原因: 数据倾斜 TaskManager配置内存太小,导致full gc checkpoint太慢 状态太大 在 2021-06-08 10:36:49,"LakeShen" 写道: >你可以先结合你的任务逻辑,以及 Flink Web UI 反压监控,看看到底是什么地方引起反压。 >一般 source 反压,是下游的算子一直反压到 source。可以看看那个算子引起 > >Best, >LakeShen > > >yidan zhao 于2021年6月8日周二 上午10:28

回复:【问题分析】Fink任务无限反压

2021-06-07 Thread smq
之前遇到过在sink到kudu的时候出现反压很严重,主要原因是测试数据不当的问题,根据我的经验,比较多的是下游io瓶颈,可以到sink组件的日志查看问题 -- 原始邮件 -- 发件人: yidan zhao http://apache-flink.147419.n8.nabble.com/

Re: Re: 【问题分析】Fink任务无限反压

2021-06-08 Thread yidan zhao
目前遇到个报错,这个有人看得懂不。 org.apache.flink.runtime.io.network.netty.exception.LocalTransportException: readAddress(..) failed: Connection timed out (connection to '10.35.213.143/10.35.213.143:2008') at org.apache.flink.runtime.io.network.netty.CreditBasedPartitionRequestClientHandler.exceptionCaught(C