subject:"PartitionNotFoundException"

Re: Re: PartitionNotFoundException循环重启

2023-07-14 文章 Shammon FY

Hi, 我觉得增加到3分钟可能不是一个合适的方法，这会增加作业恢复时间。建议还是追查一下为什么上游task这么长时间没有部署启动成功比较好。 Best, Shammon FY On Fri, Jul 14, 2023 at 2:25 PM zhan...@eastcom-sw.com < zhan...@eastcom-sw.com> wrote: > hi, 上次将`taskmanager.network.request-backoff.max` 从默认的10s增加到30s后跑了5天还是出现 > PartitionNotFoundException循环

Re: Re: PartitionNotFoundException循环重启

2023-07-05 文章 Shammon FY

com-sw.com> wrote: > 从前面日志看是重启后从hdfs加载checkpoint数据处理（100M左右）这过程好像有点久，还有连kafka消费 > 下游的超时重试可以设置次数或者时长吗？ > > 发件人： Shammon FY > 发送时间： 2023-07-04 10:12 > 收件人： user-zh > 主题： Re: PartitionNotFoundException循环重启 > Hi, > > PartitionNotFoundException异常原因通常是下游task向上游task发送par

Re: PartitionNotFoundException循环重启

2023-07-03 文章 Shammon FY

Hi, PartitionNotFoundException异常原因通常是下游task向上游task发送partition request请求，但是上游task还没有部署成功。一般情况下，下游task会重试，超时后会报出异常。你可以查看下有没有其他的异常日志，查一下上游task为什么没有部署成功。 Best, Shammon FY On Tue, Jul 4, 2023 at 9:30 AM zhan...@eastcom-sw.com < zhan...@eastcom-sw.com> wrote: > > 异常日志内容 > > 2023-

Re: Re: PartitionNotFoundException

2023-04-09 文章 Weihua Hu

Hi, 可以提供下 JobManager 和相关 TaskManager 的日志吗？一般来说 PartitionNotFoundException 只在作业启动建立链接的时候才会出现，根据你的描述，应该是一个消费 Kafka 的流式任务，不太应该在运行一周后出现 PartitionNotFoundException 可以检查下是否存在其他异常 Best, Weihua On Mon, Apr 10, 2023 at 9:51 AM zhan...@eastcom-sw.com < zhan...@eastcom-sw.com>

Re: Re: PartitionNotFoundException

2023-04-09 文章 Shammon FY

像上面提到的，流式作业可以设置taskmanager.network.tcp-connection.enable-reuse-across-jobs: false，一般作业影响不会有影响 Best, Shammon FY On Mon, Apr 10, 2023 at 9:27 AM zhan...@eastcom-sw.com < zhan...@eastcom-sw.com> wrote: > hi, 上周调整这两参数后，正常运行了近一个星期后又重现了[PartitionNotFoundException]... > > taskmanager.

Re: PartitionNotFoundException

2023-04-02 文章 yidan zhao

设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为 false，设置 taskmanager.network.max-num-tcp-connections 大点。之前有个bug导致这个问题我记得，不知道1.16修复没有。 zhan...@eastcom-sw.com 于2023年4月3日周一 10:08写道： > > > hi, 最近从1.14升级到1.16后，kafka消费不定时会出现 >

Re: PartitionNotFoundException

2023-04-02 文章 Shammon FY

Hi 出现PartitionNotFoundException通常是指定task的上游有subtask失败了，你可以查看一下上游subtask有没有错误日志，根据错误日志查看具体原因 Best, Shammon FY On Mon, Apr 3, 2023 at 10:08 AM zhan...@eastcom-sw.com < zhan...@eastcom-sw.com> wrote: > > hi, 最近从1.14升级到1.16后，k

Re: PartitionNotFoundException

2022-09-29 文章 Shammon FY

ger.network.request-backoff.max 的值。默认值是 1，也就是 10 s。 > > 上下游可能是并发部署的，所以是有可能下游请求 partition 时，上游还没部署完成，增大 > taskmanager.network.request-backoff.max 可以增加下游的等待时间和重试次数，减小出现 > PartitionNotFoundException 的概率。 > > > > Best, > > Lijie > > > > yidan zhao 于2022年9月2

Re: PartitionNotFoundException

2022-09-28 文章 yidan zhao

加下游的等待时间和重试次数，减小出现 > PartitionNotFoundException 的概率。 > > Best, > Lijie > > yidan zhao 于2022年9月28日周三 17:35写道： >> >> 按照flink的设计，存在上游还没部署成功，下游就开始请求 partition 的情况吗？此外，上游没有部署成功一般会有相关日志不？ >> >> 我目前重启了集群后OK了，在等段时间，看看还会不会出现。 >> >> Shammon FY 于2022年9月28日周三 15:45写道： >

Re: PartitionNotFoundException

2022-09-28 文章 Lijie Wang

Hi，可以尝试增大一下 taskmanager.network.request-backoff.max 的值。默认值是 1，也就是 10 s。上下游可能是并发部署的，所以是有可能下游请求 partition 时，上游还没部署完成，增大 taskmanager.network.request-backoff.max 可以增加下游的等待时间和重试次数，减小出现 PartitionNotFoundException 的概率。 Best, Lijie yidan zhao 于2022年9月28日周三 17:35写道： > 按照flink的设计，存在上游还没部署成功，下游

Re: PartitionNotFoundException

2022-09-28 文章 yidan zhao

按照flink的设计，存在上游还没部署成功，下游就开始请求 partition 的情况吗？此外，上游没有部署成功一般会有相关日志不？我目前重启了集群后OK了，在等段时间，看看还会不会出现。 Shammon FY 于2022年9月28日周三 15:45写道： > > Hi > > 计算任务输出PartitionNotFoundException，原因是它向上游TaskManager发送partition > request请求，上游TaskManager的netty server接收到partition request后发现它请求的上游计算任务没有部

Re: PartitionNotFoundException

2022-09-28 文章 Shammon FY

Hi 计算任务输出PartitionNotFoundException，原因是它向上游TaskManager发送partition request请求，上游TaskManager的netty server接收到partition request后发现它请求的上游计算任务没有部署成功。所以从这个异常错误来看netty连接是通的，你可能需要根据输出PartitionNotFoundException信息的计算任务，查一下它的上游计算任务为什么没有部署成功 On Tue, Sep 27, 2022 at 10:20 PM yidan zhao wrote: >

Re: PartitionNotFoundException

2022-09-27 文章 yidan zhao

补充：flink1.15.2版本，standalone集群，基于zk的ha。环境是公司自研容器环境。3个容器启JM+HistoryServer。剩下几百个容器都是TM。每个TM提供1个slot。 yidan zhao 于2022年9月27日周二 22:07写道： > > 此外，今天还做了个尝试，貌似和长时间没重启TM有关？重启后频率低很多会。 > 我预留的TM很多，比如500个TM，每个TM就提供1个slot，任务可能只用100个TM。 > 会不会剩下400的TM的连接，时间厂了就会出现某种问题？ > > yidan zhao 于2022年9月27日周二 16:21写道： > >

Re: PartitionNotFoundException

2022-09-27 文章 yidan zhao

此外，今天还做了个尝试，貌似和长时间没重启TM有关？重启后频率低很多会。我预留的TM很多，比如500个TM，每个TM就提供1个slot，任务可能只用100个TM。会不会剩下400的TM的连接，时间厂了就会出现某种问题？ yidan zhao 于2022年9月27日周二 16:21写道： > > 打开了TM的debug日志后发现很多这种日志： > Responding with error: class > org.apache.flink.runtime.io.network.partition.PartitionNotFoundException > >

PartitionNotFoundException

2022-09-27 文章 yidan zhao

打开了TM的debug日志后发现很多这种日志： Responding with error: class org.apache.flink.runtime.io.network.partition.PartitionNotFoundException 目前问题的直观表现是：提交任务后，一直报 LocalTransportException： org.apache.flink.runtime.io.network.netty.exception.LocalTransportException: Sending the partition request to

Re: Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

2020-11-23 文章赵一旦

Hi > > 集群负载比较大的时候，下游一直收不到request的partition，就会导致PartitionNotFoundException，建议增大 > taskmanager.network.request-backoff.max [1][2] 以增大重试次数 > > [1] > https://ci.apache.org/projects/flink/flink-docs-stable/ops/config.html#taskmanager-network-request-backoff-max > [2] https://juejin.cn/

Re: Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

2020-11-23 文章 Yun Tang

Hi 集群负载比较大的时候，下游一直收不到request的partition，就会导致PartitionNotFoundException，建议增大 taskmanager.network.request-backoff.max [1][2] 以增大重试次数 [1] https://ci.apache.org/projects/flink/flink-docs-stable/ops/config.html#taskmanager-network-request-backoff-max [2] https://juejin.cn/post/6844904185347964942

Re: Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

2020-11-22 文章赵一旦

这个报错和kafka没有关系的哈，我大概理解是提交任务的瞬间，jobManager/taskManager机器压力较大，存在机器之间心跳超时什么的？这个partition应该是指flink运行图中的数据partition，我感觉。没有具体细看，每次提交的瞬间可能遇到这个问题，然后会自动重试成功。 zhisheng 于2020年11月18日周三下午10:51写道： > 是不是有 kafka 机器挂了？ > > Best > zhisheng > > hailongwang <18868816...@163.com> 于2020年11月18日周三下午5:56写道： > > >

Re: Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

2020-11-18 文章 zhisheng

是不是有 kafka 机器挂了？ Best zhisheng hailongwang <18868816...@163.com> 于2020年11月18日周三下午5:56写道： > 感觉还有其它 root cause，可以看下还有其它日志不？ > > > Best, > Hailong > > At 2020-11-18 15:52:57, "赵一旦" wrote: > >2020-11-18 16:51:37 > >org.apache.flink.runtime.io.network.partition.PartitionNotFoundException: >

Re:Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

2020-11-18 文章 hailongwang

感觉还有其它 root cause，可以看下还有其它日志不？ Best, Hailong At 2020-11-18 15:52:57, "赵一旦" wrote: >2020-11-18 16:51:37 >org.apache.flink.runtime.io.network.partition.PartitionNotFoundException: >Partition b225fa9143dfa179d3a3bd223165d5c5#3@3fee4d51f5a43001ef743f3f15e4cfb2 >not found. >at

Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

2020-11-18 文章赵一旦

2020-11-18 16:51:37 org.apache.flink.runtime.io.network.partition.PartitionNotFoundException: Partition b225fa9143dfa179d3a3bd223165d5c5#3@3fee4d51f5a43001ef743f3f15e4cfb2 not found. at org.apache.flink.runtime.io.network.partition.consumer.

Re: Re: PartitionNotFoundException循环重启

Re: Re: PartitionNotFoundException循环重启

Re: PartitionNotFoundException循环重启

Re: Re: PartitionNotFoundException

Re: Re: PartitionNotFoundException

Re: PartitionNotFoundException

Re: PartitionNotFoundException

Re: PartitionNotFoundException

Re: PartitionNotFoundException

Re: PartitionNotFoundException

Re: PartitionNotFoundException

Re: PartitionNotFoundException

Re: PartitionNotFoundException

Re: PartitionNotFoundException

PartitionNotFoundException

Re: Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

Re: Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

Re: Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

Re: Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

Re:Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

Flink任务启动偶尔报错PartitionNotFoundException，会自动恢复。

21 matches

Site Navigation

Mail list logo

Footer information