subject:" 回复\: Flink FailureRateRestartStrategy策略异常"

Re:回复: Flink FailureRateRestartStrategy策略异常

2022-03-02 文章 janke

可以通过降低restratstrategy的统计灵敏度，短时间持续出现同个异常导致的failed只会计数一次，目前已经有相关patch，具体可看： https://issues.apache.org/jira/browse/FLINK-26315 在 2022-03-02 12:04:39，"刘家锹" 写道： >你好，感谢回答我的疑问 > >我想我大概找到原因了，跟你说的一样。使用pipelined-region的failover策略，而作业本身切分了6个reion，在一次container失败当中就会全部失败。 >目前我们作业改为使用full的faio

回复: Flink FailureRateRestartStrategy策略异常

2022-03-01 文章刘家锹

你好，感谢回答我的疑问我想我大概找到原因了，跟你说的一样。使用pipelined-region的failover策略，而作业本身切分了6个reion，在一次container失败当中就会全部失败。目前我们作业改为使用full的faiover策略，因为都是1个TM且拓扑比较简单。关于回复中的亮点： 1. 这个确实是一个解决办法，但存在参数不好配置，需要根据重试策略+region数+TM部署来指定 2. 测试中没有退出的原因是，测试作业的拓扑与实际运行的作业有差异，测试作业中只有一个region，所以就没有退出了。符合预期再次感谢哈

回复: Flink FailureRateRestartStrategy策略异常

2022-02-28 文章刘家锹

是的，我们用的pipelined region的Failover策略，region切分这块没找到具体规则的文档。但我们作业只有一个taskmanager，同时并行度为6，逻辑是从kafka消费处理后写到下游kafka。从日志以及拓扑中来看，猜测我们的作业应该只能按并行度切分成6个，故障的时候就直接超过了。不过还有点疑问，希望可以解答下哈 1. 对于这种FailoverStrategy+pipeline region的，best practice应该要如何比较好 2. 测试主动kill taskmanager的，因为只有一个taskmanager，预期行为是否应该也是超过重