可以通过降低restratstrategy的统计灵敏度,短时间持续出现同个异常导致的failed只会计数一次,目前已经有相关patch,具体可看:
https://issues.apache.org/jira/browse/FLINK-26315
在 2022-03-02 12:04:39,"刘 家锹" 写道:
>你好,感谢回答我的疑问
>
>我想我大概找到原因了,跟你说的一样。使用pipelined-region的failover策略,而作业本身切分了6个reion,在一次container失败当中就会全部失败。
>目前我们作业改为使用full的faio
你好,感谢回答我的疑问
我想我大概找到原因了,跟你说的一样。使用pipelined-region的failover策略,而作业本身切分了6个reion,在一次container失败当中就会全部失败。
目前我们作业改为使用full的faiover策略,因为都是1个TM且拓扑比较简单。
关于回复中的亮点:
1. 这个确实是一个解决办法,但存在参数不好配置,需要根据重试策略+region数+TM部署来指定
2. 测试中没有退出的原因是,测试作业的拓扑与实际运行的作业有差异,测试作业中只有一个region,所以就没有退出了。符合预期
再次感谢哈
是的,我们用的pipelined region的Failover策略,region切分这块没找到具体规则的文档。
但我们作业只有一个taskmanager,同时并行度为6,逻辑是从kafka消费处理后写到下游kafka。从日志以及拓扑中来看,猜测我们的作业应该只能按并行度切分成6个,故障的时候就直接超过了。
不过还有点疑问,希望可以解答下哈
1. 对于这种FailoverStrategy+pipeline region的,best practice应该要如何比较好
2. 测试主动kill taskmanager的,因为只有一个taskmanager,预期行为是否应该也是超过重