1日 21:07
>收件人: user-zh@flink.apache.org
>主题: Re: Flink FailureRateRestartStrategy策略异常
>
>
>1. 可以根据作业的 region 数量、单 TaskManager Slot 数量综合来考虑,我个人建议要容忍 1~2 台 TM 故障而不直接退出
>2. 预期也是会超过重试次数退出的,可以从日志看看没有退出的原因
>
>> 2022年3月1日 下午3:08,刘 家锹 写道:
>>
>> 是的,我们用的pipelined region的Failover策略,r
发件人: 胡伟华
发送时间: 2022年3月1日 21:07
收件人: user-zh@flink.apache.org
主题: Re: Flink FailureRateRestartStrategy策略异常
1. 可以根据作业的 region 数量、单 TaskManager Slot 数量综合来考虑,我个人建议要容忍 1~2 台 TM 故障而不直接退出
2. 预期也是会超过重试次数退出的,可以从日志看看没有退出的原因
> 2022年3月1日 下午3:08,刘 家锹 写道:
>
> 是的,我们用的pipeline
个,故障的时候就直接超过了。
>
> 不过还有点疑问,希望可以解答下哈
> 对于这种FailoverStrategy+pipeline region的,best practice应该要如何比较好
> 测试主动kill taskmanager的,因为只有一个taskmanager,预期行为是否应该也是超过重试次数呢
>
> 作业jm日志以及拓扑图
>
>
> 发件人: 胡伟华
> 发送时间: 2022年3月1日 14:07
> 收件人: user-zh@flink.apache.org
> 主题: Re: F
重试次数呢
作业jm日志以及拓扑图
[cid:a6f5540c-def2-4ece-8bde-43ef7e11c6f1]
[cid:54a76182-bb60-49bd-aeaa-48d68a01f14b]
发件人: 胡伟华
发送时间: 2022年3月1日 14:07
收件人: user-zh@flink.apache.org
主题: Re: Flink FailureRateRestartStrategy策略异常
Hi, 家锹
你应该使用了 pipelined region 的 Failover Strategy
Hi, 家锹
你应该使用了 pipelined region 的 Failover Strategy,这种模式下会将作业划分为多个
region,每次故障恢复只重启涉及到的 region.
单台机器故障时,如果多个 region 的 task 同时部署在这台机器上,那这些涉及到的 region 都会触发 failover,以至于达到了
FailureRateRestartStrategy 配置的重启上限,导致作业退出。
至于主动 kill TaskManager 作业重启而不退出,应该和 TaskManager 上运行的 Task 数量相关。
可以参考社区文档:https://n
你好,伙伴们
我们最近碰到一个关于FailureRateRestartStrategy策略的问题,有点困惑。情况是这样子的:
Flink版本:0.10.1
部署方式: on Yarn
FailureRateRestartStrategy配置:failuresIntervalMS=6,backoffTimeMS=15000,maxFailuresPerInterval=4
当时我们hadoop集群的一台机器假死卡住,而Flink任务的TaskManager就运行在这台机器上。机器故障时,JobManager收到了heartbeat超时异常,从日志上看是连续抛出的4次超时异常(每个异