Hi,
我觉得增加到3分钟可能不是一个合适的方法,这会增加作业恢复时间。建议还是追查一下为什么上游task这么长时间没有部署启动成功比较好。
Best,
Shammon FY
On Fri, Jul 14, 2023 at 2:25 PM zhan...@eastcom-sw.com <
zhan...@eastcom-sw.com> wrote:
> hi, 上次将`taskmanager.network.request-backoff.max` 从默认的10s增加到30s后 跑了5天还是出现
> PartitionNotFoundException循环
com-sw.com> wrote:
> 从前面日志看是重启后从hdfs加载checkpoint数据处理(100M左右)这过程好像有点久,还有连kafka消费
> 下游的超时重试 可以设置次数或者时长吗?
>
> 发件人: Shammon FY
> 发送时间: 2023-07-04 10:12
> 收件人: user-zh
> 主题: Re: PartitionNotFoundException循环重启
> Hi,
>
> PartitionNotFoundException异常原因通常是下游task向上游task发送par
Hi,
PartitionNotFoundException异常原因通常是下游task向上游task发送partition
request请求,但是上游task还没有部署成功。一般情况下,下游task会重试,超时后会报出异常。你可以查看下有没有其他的异常日志,查一下上游task为什么没有部署成功。
Best,
Shammon FY
On Tue, Jul 4, 2023 at 9:30 AM zhan...@eastcom-sw.com <
zhan...@eastcom-sw.com> wrote:
>
> 异常日志内容
>
> 2023-
Hi,
可以提供下 JobManager 和相关 TaskManager 的日志吗?
一般来说 PartitionNotFoundException 只在作业启动建立链接的时候才会出现,
根据你的描述,应该是一个消费 Kafka 的流式任务,不太应该在运行一周后
出现 PartitionNotFoundException
可以检查下是否存在其他异常
Best,
Weihua
On Mon, Apr 10, 2023 at 9:51 AM zhan...@eastcom-sw.com <
zhan...@eastcom-sw.com>
像上面提到的,流式作业可以设置taskmanager.network.tcp-connection.enable-reuse-across-jobs:
false,一般作业影响不会有影响
Best,
Shammon FY
On Mon, Apr 10, 2023 at 9:27 AM zhan...@eastcom-sw.com <
zhan...@eastcom-sw.com> wrote:
> hi, 上周调整这两参数后,正常运行了近一个星期后 又重现了[PartitionNotFoundException]...
>
> taskmanager.
设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为
false,设置 taskmanager.network.max-num-tcp-connections 大点。
之前有个bug导致这个问题我记得,不知道1.16修复没有。
zhan...@eastcom-sw.com 于2023年4月3日周一 10:08写道:
>
>
> hi, 最近从1.14升级到1.16后,kafka消费不定时会出现
>
Hi
出现PartitionNotFoundException通常是指定task的上游有subtask失败了,你可以查看一下上游subtask有没有错误日志,根据错误日志查看具体原因
Best,
Shammon FY
On Mon, Apr 3, 2023 at 10:08 AM zhan...@eastcom-sw.com <
zhan...@eastcom-sw.com> wrote:
>
> hi, 最近从1.14升级到1.16后,k
ger.network.request-backoff.max 的值。默认值是 1,也就是 10 s。
> > 上下游可能是并发部署的,所以是有可能下游请求 partition 时,上游还没部署完成,增大
> taskmanager.network.request-backoff.max 可以增加下游的等待时间和重试次数,减小出现
> PartitionNotFoundException 的概率。
> >
> > Best,
> > Lijie
> >
> > yidan zhao 于2022年9月2
加下游的等待时间和重试次数,减小出现
> PartitionNotFoundException 的概率。
>
> Best,
> Lijie
>
> yidan zhao 于2022年9月28日周三 17:35写道:
>>
>> 按照flink的设计,存在上游还没部署成功,下游就开始请求 partition 的情况吗? 此外,上游没有部署成功一般会有相关日志不?
>>
>> 我目前重启了集群后OK了,在等段时间,看看还会不会出现。
>>
>> Shammon FY 于2022年9月28日周三 15:45写道:
>
Hi,
可以尝试增大一下 taskmanager.network.request-backoff.max 的值。默认值是 1,也就是 10 s。
上下游可能是并发部署的,所以是有可能下游请求 partition 时,上游还没部署完成,增大
taskmanager.network.request-backoff.max 可以增加下游的等待时间和重试次数,减小出现
PartitionNotFoundException 的概率。
Best,
Lijie
yidan zhao 于2022年9月28日周三 17:35写道:
> 按照flink的设计,存在上游还没部署成功,下游
按照flink的设计,存在上游还没部署成功,下游就开始请求 partition 的情况吗? 此外,上游没有部署成功一般会有相关日志不?
我目前重启了集群后OK了,在等段时间,看看还会不会出现。
Shammon FY 于2022年9月28日周三 15:45写道:
>
> Hi
>
> 计算任务输出PartitionNotFoundException,原因是它向上游TaskManager发送partition
> request请求,上游TaskManager的netty server接收到partition request后发现它请求的上游计算任务没有部
Hi
计算任务输出PartitionNotFoundException,原因是它向上游TaskManager发送partition
request请求,上游TaskManager的netty server接收到partition request后发现它请求的上游计算任务没有部署成功。
所以从这个异常错误来看netty连接是通的,你可能需要根据输出PartitionNotFoundException信息的计算任务,查一下它的上游计算任务为什么没有部署成功
On Tue, Sep 27, 2022 at 10:20 PM yidan zhao wrote:
>
补充:flink1.15.2版本,standalone集群,基于zk的ha。
环境是公司自研容器环境。3个容器启JM+HistoryServer。剩下几百个容器都是TM。每个TM提供1个slot。
yidan zhao 于2022年9月27日周二 22:07写道:
>
> 此外,今天还做了个尝试,貌似和长时间没重启TM有关?重启后频率低很多会。
> 我预留的TM很多,比如500个TM,每个TM就提供1个slot,任务可能只用100个TM。
> 会不会剩下400的TM的连接,时间厂了就会出现某种问题?
>
> yidan zhao 于2022年9月27日周二 16:21写道:
> >
此外,今天还做了个尝试,貌似和长时间没重启TM有关?重启后频率低很多会。
我预留的TM很多,比如500个TM,每个TM就提供1个slot,任务可能只用100个TM。
会不会剩下400的TM的连接,时间厂了就会出现某种问题?
yidan zhao 于2022年9月27日周二 16:21写道:
>
> 打开了TM的debug日志后发现很多这种日志:
> Responding with error: class
> org.apache.flink.runtime.io.network.partition.PartitionNotFoundException
>
>
打开了TM的debug日志后发现很多这种日志:
Responding with error: class
org.apache.flink.runtime.io.network.partition.PartitionNotFoundException
目前问题的直观表现是:提交任务后,一直报 LocalTransportException:
org.apache.flink.runtime.io.network.netty.exception.LocalTransportException:
Sending the partition request to
Hi
>
> 集群负载比较大的时候,下游一直收不到request的partition,就会导致PartitionNotFoundException,建议增大
> taskmanager.network.request-backoff.max [1][2] 以增大重试次数
>
> [1]
> https://ci.apache.org/projects/flink/flink-docs-stable/ops/config.html#taskmanager-network-request-backoff-max
> [2] https://juejin.cn/
Hi
集群负载比较大的时候,下游一直收不到request的partition,就会导致PartitionNotFoundException,建议增大
taskmanager.network.request-backoff.max [1][2] 以增大重试次数
[1]
https://ci.apache.org/projects/flink/flink-docs-stable/ops/config.html#taskmanager-network-request-backoff-max
[2] https://juejin.cn/post/6844904185347964942
这个报错和kafka没有关系的哈,我大概理解是提交任务的瞬间,jobManager/taskManager机器压力较大,存在机器之间心跳超时什么的?
这个partition应该是指flink运行图中的数据partition,我感觉。没有具体细看,每次提交的瞬间可能遇到这个问题,然后会自动重试成功。
zhisheng 于2020年11月18日周三 下午10:51写道:
> 是不是有 kafka 机器挂了?
>
> Best
> zhisheng
>
> hailongwang <18868816...@163.com> 于2020年11月18日周三 下午5:56写道:
>
> >
是不是有 kafka 机器挂了?
Best
zhisheng
hailongwang <18868816...@163.com> 于2020年11月18日周三 下午5:56写道:
> 感觉还有其它 root cause,可以看下还有其它日志不?
>
>
> Best,
> Hailong
>
> At 2020-11-18 15:52:57, "赵一旦" wrote:
> >2020-11-18 16:51:37
> >org.apache.flink.runtime.io.network.partition.PartitionNotFoundException:
>
感觉还有其它 root cause,可以看下还有其它日志不?
Best,
Hailong
At 2020-11-18 15:52:57, "赵一旦" wrote:
>2020-11-18 16:51:37
>org.apache.flink.runtime.io.network.partition.PartitionNotFoundException:
>Partition b225fa9143dfa179d3a3bd223165d5c5#3@3fee4d51f5a43001ef743f3f15e4cfb2
>not found.
>at
2020-11-18 16:51:37
org.apache.flink.runtime.io.network.partition.PartitionNotFoundException:
Partition b225fa9143dfa179d3a3bd223165d5c5#3@3fee4d51f5a43001ef743f3f15e4cfb2
not found.
at org.apache.flink.runtime.io.network.partition.consumer.
21 matches
Mail list logo