Re:回复: Flink FailureRateRestartStrategy策略异常

2022-03-02 文章 janke
可以通过降低restratstrategy的统计灵敏度,短时间持续出现同个异常导致的failed只会计数一次,目前已经有相关patch,具体可看: https://issues.apache.org/jira/browse/FLINK-26315 在 2022-03-02 12:04:39,"刘 家锹" 写道: >你好,感谢回答我的疑问 > >我想我大概找到原因了,跟你说的一样。使用pipelined-region的failover策略,而作业本身切分了6个reion,在一次container失败当中就会全部失败。 >目前我们作业改为使用full的faio

回复: Flink FailureRateRestartStrategy策略异常

2022-03-01 文章 刘 家锹
你好,感谢回答我的疑问 我想我大概找到原因了,跟你说的一样。使用pipelined-region的failover策略,而作业本身切分了6个reion,在一次container失败当中就会全部失败。 目前我们作业改为使用full的faiover策略,因为都是1个TM且拓扑比较简单。 关于回复中的亮点: 1. 这个确实是一个解决办法,但存在参数不好配置,需要根据重试策略+region数+TM部署来指定 2. 测试中没有退出的原因是,测试作业的拓扑与实际运行的作业有差异,测试作业中只有一个region,所以就没有退出了。符合预期 再次感谢哈

回复: Flink FailureRateRestartStrategy策略异常

2022-02-28 文章 刘 家锹
是的,我们用的pipelined region的Failover策略,region切分这块没找到具体规则的文档。 但我们作业只有一个taskmanager,同时并行度为6,逻辑是从kafka消费处理后写到下游kafka。从日志以及拓扑中来看,猜测我们的作业应该只能按并行度切分成6个,故障的时候就直接超过了。 不过还有点疑问,希望可以解答下哈 1. 对于这种FailoverStrategy+pipeline region的,best practice应该要如何比较好 2. 测试主动kill taskmanager的,因为只有一个taskmanager,预期行为是否应该也是超过重