Re: 退订
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org Best, Shammon On Thu, Feb 23, 2023 at 11:03 AM 宋品如 wrote: > 退订
Re: flink taskmanger重启失败的问题
Hi, 在 Cancel 其他 task 时会先将 task 状态置为 cancelling,这时 task 失败是不会二次触发 Failover 的。 可以检查下是不是作业划分了多个 region,多个 region 的异常是统一计数的。 或者可以贴一下日志吗? Best, Weihua On Thu, Feb 23, 2023 at 11:16 AM 唐世伟 wrote: > 我们有一个flink任务,同时写10几张doris表,每次doris出问题的时候任务就挂,flink的重启策略没有效果。 > flink的重启配置入下: > restart-strategy: failure-rate > restart-strategy.failure-rate.delay: 60 s > restart-strategy.failure-rate.failure-rate-interval: 10 min > restart-strategy.failure-rate.max-failures-per-interval: 3 > > 这边看了一下任务日志逻辑,发现任务写doris失败的时候,进入了重启流程,然后尝试cancel其他的operator。而每次cancel > operator的时候都会触发当前operator的checkpoint。但是由于存在其他大量写doris表的算子。在执行checkpoint都会尝试flush数据到doris,导致再次报错calcel失败。而每次失败都会计入尝试重启次数,最后导致超过重启上限次数,任务直接挂了。请问这个是不是不太合理?理论上说,执行失败就失败了,没必要计入重启失败次数。最后导致重启失败。这个有办法调整吗?
flink taskmanger重启失败的问题
我们有一个flink任务,同时写10几张doris表,每次doris出问题的时候任务就挂,flink的重启策略没有效果。 flink的重启配置入下: restart-strategy: failure-rate restart-strategy.failure-rate.delay: 60 s restart-strategy.failure-rate.failure-rate-interval: 10 min restart-strategy.failure-rate.max-failures-per-interval: 3 这边看了一下任务日志逻辑,发现任务写doris失败的时候,进入了重启流程,然后尝试cancel其他的operator。而每次cancel operator的时候都会触发当前operator的checkpoint。但是由于存在其他大量写doris表的算子。在执行checkpoint都会尝试flush数据到doris,导致再次报错calcel失败。而每次失败都会计入尝试重启次数,最后导致超过重启上限次数,任务直接挂了。请问这个是不是不太合理?理论上说,执行失败就失败了,没必要计入重启失败次数。最后导致重启失败。这个有办法调整吗?
退订
退订
退订
退订
Re: FlinkSql如何实现水位线对齐
Hi 目前SQL还不支持watermark对齐,目前有FLIP正在讨论中 https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=240884405 Best, Shammon On Wed, Feb 22, 2023 at 3:15 PM haishui wrote: > Hi, all > 以并行度4读取kafka的topic1和topic2形成两个流,然后IntervalJoin。在kafka堆积大量数据的情况下,我分别用SQL和DataStream > API实现了上述功能。 > > > 使用SQL实现的作业中IntervalJoin算子的状态会逐渐增大,直到checkpoint失败。原因是在8个Source分区中输出水位线差距很大。 > 使用API实现的作业,在使用Flink15版本的水位线对齐后可以保证正常读取topic内的所有数据。 > > > > 想请教一下大家如何在SQL上解决Source处水位线差距过大,数据堆积导致checkpoint失败问题。还有如果只有一个topic有数据如何保证作业不会崩溃