从 region 改为 full 会扩容单个 Task 故障的影响范围,可以参考社区文档:
https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/ops/state/task_failure_recovery/
Best,
Weihua
On Fri, Feb 24, 2023 at 2:12 PM 唐世伟 wrote:
> 谢谢回复,我看日志已经超出来yarn保存的期限被删了。另外Failover从region改为full。是不是能避免这个问题啊?
>
> > 2023年2月23日
谢谢回复,我看日志已经超出来yarn保存的期限被删了。另外Failover从region改为full。是不是能避免这个问题啊?
> 2023年2月23日 上午11:36,Weihua Hu 写道:
>
> Hi,
>
> 在 Cancel 其他 task 时会先将 task 状态置为 cancelling,这时 task 失败是不会二次触发 Failover 的。
> 可以检查下是不是作业划分了多个 region,多个 region 的异常是统一计数的。
>
> 或者可以贴一下日志吗?
>
>
> Best,
> Weihua
>
>
> On Thu, Feb 23,
Hi,
在 Cancel 其他 task 时会先将 task 状态置为 cancelling,这时 task 失败是不会二次触发 Failover 的。
可以检查下是不是作业划分了多个 region,多个 region 的异常是统一计数的。
或者可以贴一下日志吗?
Best,
Weihua
On Thu, Feb 23, 2023 at 11:16 AM 唐世伟 wrote:
> 我们有一个flink任务,同时写10几张doris表,每次doris出问题的时候任务就挂,flink的重启策略没有效果。
> flink的重启配置入下:
> restart-strategy:
我们有一个flink任务,同时写10几张doris表,每次doris出问题的时候任务就挂,flink的重启策略没有效果。
flink的重启配置入下:
restart-strategy: failure-rate
restart-strategy.failure-rate.delay: 60 s
restart-strategy.failure-rate.failure-rate-interval: 10 min
restart-strategy.failure-rate.max-failures-per-interval: 3