Re:回复: Flink FailureRateRestartStrategy策略异常

2022-03-02 文章 janke
1日 21:07 >收件人: user-zh@flink.apache.org >主题: Re: Flink FailureRateRestartStrategy策略异常 > > >1. 可以根据作业的 region 数量、单 TaskManager Slot 数量综合来考虑,我个人建议要容忍 1~2 台 TM 故障而不直接退出 >2. 预期也是会超过重试次数退出的,可以从日志看看没有退出的原因 > >> 2022年3月1日 下午3:08,刘 家锹 写道: >> >> 是的,我们用的pipelined region的Failover策略,r

回复: Flink FailureRateRestartStrategy策略异常

2022-03-01 文章 刘 家锹
发件人: 胡伟华 发送时间: 2022年3月1日 21:07 收件人: user-zh@flink.apache.org 主题: Re: Flink FailureRateRestartStrategy策略异常 1. 可以根据作业的 region 数量、单 TaskManager Slot 数量综合来考虑,我个人建议要容忍 1~2 台 TM 故障而不直接退出 2. 预期也是会超过重试次数退出的,可以从日志看看没有退出的原因 > 2022年3月1日 下午3:08,刘 家锹 写道: > > 是的,我们用的pipeline

Re: Flink FailureRateRestartStrategy策略异常

2022-03-01 文章 胡伟华
个,故障的时候就直接超过了。 > > 不过还有点疑问,希望可以解答下哈 > 对于这种FailoverStrategy+pipeline region的,best practice应该要如何比较好 > 测试主动kill taskmanager的,因为只有一个taskmanager,预期行为是否应该也是超过重试次数呢 > > 作业jm日志以及拓扑图 > > > 发件人: 胡伟华 > 发送时间: 2022年3月1日 14:07 > 收件人: user-zh@flink.apache.org > 主题: Re: F

Re: Flink FailureRateRestartStrategy策略异常

2022-02-28 文章 胡伟华
Hi, 家锹 你应该使用了 pipelined region 的 Failover Strategy,这种模式下会将作业划分为多个 region,每次故障恢复只重启涉及到的 region. 单台机器故障时,如果多个 region 的 task 同时部署在这台机器上,那这些涉及到的 region 都会触发 failover,以至于达到了 FailureRateRestartStrategy 配置的重启上限,导致作业退出。 至于主动 kill TaskManager 作业重启而不退出,应该和 TaskManager 上运行的 Task 数量相关。

Flink FailureRateRestartStrategy策略异常

2022-02-28 文章 刘 家锹
你好,伙伴们 我们最近碰到一个关于FailureRateRestartStrategy策略的问题,有点困惑。情况是这样子的: Flink版本:0.10.1 部署方式: on Yarn FailureRateRestartStrategy配置:failuresIntervalMS=6,backoffTimeMS=15000,maxFailuresPerInterval=4