subject:"flink taskmanger重启失败的问题"

Re: flink taskmanger重启失败的问题

2023-02-23 文章 Weihua Hu

从 region 改为 full 会扩容单个 Task 故障的影响范围，可以参考社区文档： https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/ops/state/task_failure_recovery/ Best, Weihua On Fri, Feb 24, 2023 at 2:12 PM 唐世伟 wrote: > 谢谢回复，我看日志已经超出来yarn保存的期限被删了。另外Failover从region改为full。是不是能避免这个问题啊？ > > > 2023年2月23日

Re: flink taskmanger重启失败的问题

2023-02-23 文章唐世伟

谢谢回复，我看日志已经超出来yarn保存的期限被删了。另外Failover从region改为full。是不是能避免这个问题啊？ > 2023年2月23日上午11:36，Weihua Hu 写道： > > Hi, > > 在 Cancel 其他 task 时会先将 task 状态置为 cancelling，这时 task 失败是不会二次触发 Failover 的。 > 可以检查下是不是作业划分了多个 region，多个 region 的异常是统一计数的。 > > 或者可以贴一下日志吗？ > > > Best, > Weihua > > > On Thu, Feb 23,

Re: flink taskmanger重启失败的问题

2023-02-22 文章 Weihua Hu

Hi, 在 Cancel 其他 task 时会先将 task 状态置为 cancelling，这时 task 失败是不会二次触发 Failover 的。可以检查下是不是作业划分了多个 region，多个 region 的异常是统一计数的。或者可以贴一下日志吗？ Best, Weihua On Thu, Feb 23, 2023 at 11:16 AM 唐世伟 wrote: > 我们有一个flink任务，同时写10几张doris表，每次doris出问题的时候任务就挂，flink的重启策略没有效果。 > flink的重启配置入下： > restart-strategy:

flink taskmanger重启失败的问题

2023-02-22 文章唐世伟

我们有一个flink任务，同时写10几张doris表，每次doris出问题的时候任务就挂，flink的重启策略没有效果。 flink的重启配置入下： restart-strategy: failure-rate restart-strategy.failure-rate.delay: 60 s restart-strategy.failure-rate.failure-rate-interval: 10 min restart-strategy.failure-rate.max-failures-per-interval: 3