Re: Re: 使用join+聚合时,checkpoint异常

2022-06-21 文章 Lincoln Lee
Hi,
   确认了下, cdc source 目前全量结束后 task 还是保持的,不会 finish, 这里的 finished task 应该是你提到的
" 使用了lookup join + 外部mysql维表,任务开始时,全量加载了一次维表数据,对应task状态就变成了finished。"

Best,
Lincoln Lee


amber_...@qq.com.INVALID  于2022年6月21日周二 14:35写道:

> 非常感谢!你的建议很有用。
>
> 我在代码中添加execution.checkpointing.checkpoints-after-tasks-finish.enabled相关配置,完美解决了问题。
> 我使用了lookup join + 外部mysql维表,任务开始时,全量加载了一次维表数据,对应task状态就变成了finished。
>
> best wishes!
>
>
> amber_...@qq.com
>
> 发件人: Lincoln Lee
> 发送时间: 2022-06-21 11:18
> 收件人: user-zh
> 主题: Re: Re: 使用join+聚合时,checkpoint异常
> Hi,
>   从描述来看, 因为使用了 cdc source (猜测是先 全量 后增量同步),  全量阶段完成时对应的 task 会到达 finished
> 状态, 在 1.14 版本中, 对应的配置项 `
> execution.checkpointing.checkpoints-after-tasks-finish.enabled` 默认值是关闭的
> (1.15+ 版本默认会开启), 可以开启或升级到 1.15 版本后再观察下
>
> > because Some tasks of the job have already finished and checkpointing
> with finished tasks is not enabled
>
> Best,
> Lincoln Lee
>
>
> amber_...@qq.com.INVALID  于2022年6月21日周二 10:27写道:
>
> > 感谢!
> > 未发生背压,但我在日志中发现了一些异常信息,如下:
> > Failed to trigger checkpoint for job 297c5a840f8fd3a1cbcb63825200e8d4
> > because Some tasks of the job have already finished and checkpointing
> with
> > finished tasks is not enabled. Failure reason: Not all required tasks are
> > currently running.
> >
> > 通过web ui可以看到,确实有一部分任务是finished状态。
> >
> > 是否因为我关联多张维表的时候,同时使用了lookup join和普通join呢?
> > ------
> > amber_...@qq.com
> >
> >
> > *发件人:* Shengkai Fang 
> > *发送时间:* 2022-06-21 09:53
> > *收件人:* user-zh 
> > *主题:* Re: 使用join+聚合时,checkpoint异常
> > hi.
> >
> > 这种情况下,最好查看一下是否发生了反压,同时看看日志之中是否有相关的异常信息。
> >
> > Best,
> > Shengkai
> >
> > amber_...@qq.com.INVALID  于2022年6月21日周二
> 09:43写道:
> >
> > > 您好!
> > > 我使用flink1.14.4,sqlserver-cdc-2.2.1,yarn-per-job模式提交任务;
> > > 当我提交普通数据同步任务时,一切正常;
> > > 当我提交JOIN+聚合任务时,checkpoint无法正常工作,具体表现为无任何checkpoint记录,且Task Managed
> > > Memory使用率始终是100%;
> > > 以下是我的checkpoint配置:
> > >
> > >
> > > 我尝试增加Task Managed内存,但使用率总是100%;
> > > 当我关闭增量检查点时,无任何变化;
> > > 当我将State Backend切换为hashmap时,Managed
> Memory使用率回归正常,但checkpoint仍然无法工作;
> > >
> > > 期待你的回复。
> > > 祝好!
> > > --
> > > amber_...@qq.com
> > >
> >
> >
>


Re: Re: 使用join+聚合时,checkpoint异常

2022-06-21 文章 amber_...@qq.com.INVALID
非常感谢!你的建议很有用。

我在代码中添加execution.checkpointing.checkpoints-after-tasks-finish.enabled相关配置,完美解决了问题。
我使用了lookup join + 外部mysql维表,任务开始时,全量加载了一次维表数据,对应task状态就变成了finished。

best wishes!


amber_...@qq.com
 
发件人: Lincoln Lee
发送时间: 2022-06-21 11:18
收件人: user-zh
主题: Re: Re: 使用join+聚合时,checkpoint异常
Hi,
  从描述来看, 因为使用了 cdc source (猜测是先 全量 后增量同步),  全量阶段完成时对应的 task 会到达 finished
状态, 在 1.14 版本中, 对应的配置项 `
execution.checkpointing.checkpoints-after-tasks-finish.enabled` 默认值是关闭的
(1.15+ 版本默认会开启), 可以开启或升级到 1.15 版本后再观察下
 
> because Some tasks of the job have already finished and checkpointing
with finished tasks is not enabled
 
Best,
Lincoln Lee
 
 
amber_...@qq.com.INVALID  于2022年6月21日周二 10:27写道:
 
> 感谢!
> 未发生背压,但我在日志中发现了一些异常信息,如下:
> Failed to trigger checkpoint for job 297c5a840f8fd3a1cbcb63825200e8d4
> because Some tasks of the job have already finished and checkpointing with
> finished tasks is not enabled. Failure reason: Not all required tasks are
> currently running.
>
> 通过web ui可以看到,确实有一部分任务是finished状态。
>
> 是否因为我关联多张维表的时候,同时使用了lookup join和普通join呢?
> --
> amber_...@qq.com
>
>
> *发件人:* Shengkai Fang 
> *发送时间:* 2022-06-21 09:53
> *收件人:* user-zh 
> *主题:* Re: 使用join+聚合时,checkpoint异常
> hi.
>
> 这种情况下,最好查看一下是否发生了反压,同时看看日志之中是否有相关的异常信息。
>
> Best,
> Shengkai
>
> amber_...@qq.com.INVALID  于2022年6月21日周二 09:43写道:
>
> > 您好!
> > 我使用flink1.14.4,sqlserver-cdc-2.2.1,yarn-per-job模式提交任务;
> > 当我提交普通数据同步任务时,一切正常;
> > 当我提交JOIN+聚合任务时,checkpoint无法正常工作,具体表现为无任何checkpoint记录,且Task Managed
> > Memory使用率始终是100%;
> > 以下是我的checkpoint配置:
> >
> >
> > 我尝试增加Task Managed内存,但使用率总是100%;
> > 当我关闭增量检查点时,无任何变化;
> > 当我将State Backend切换为hashmap时,Managed Memory使用率回归正常,但checkpoint仍然无法工作;
> >
> > 期待你的回复。
> > 祝好!
> > --
> > amber_...@qq.com
> >
>
>


Re: Re: 使用join+聚合时,checkpoint异常

2022-06-20 文章 Lincoln Lee
Hi,
  从描述来看, 因为使用了 cdc source (猜测是先 全量 后增量同步),  全量阶段完成时对应的 task 会到达 finished
状态, 在 1.14 版本中, 对应的配置项 `
execution.checkpointing.checkpoints-after-tasks-finish.enabled` 默认值是关闭的
(1.15+ 版本默认会开启), 可以开启或升级到 1.15 版本后再观察下

> because Some tasks of the job have already finished and checkpointing
with finished tasks is not enabled

Best,
Lincoln Lee


amber_...@qq.com.INVALID  于2022年6月21日周二 10:27写道:

> 感谢!
> 未发生背压,但我在日志中发现了一些异常信息,如下:
> Failed to trigger checkpoint for job 297c5a840f8fd3a1cbcb63825200e8d4
> because Some tasks of the job have already finished and checkpointing with
> finished tasks is not enabled. Failure reason: Not all required tasks are
> currently running.
>
> 通过web ui可以看到,确实有一部分任务是finished状态。
>
> 是否因为我关联多张维表的时候,同时使用了lookup join和普通join呢?
> --
> amber_...@qq.com
>
>
> *发件人:* Shengkai Fang 
> *发送时间:* 2022-06-21 09:53
> *收件人:* user-zh 
> *主题:* Re: 使用join+聚合时,checkpoint异常
> hi.
>
> 这种情况下,最好查看一下是否发生了反压,同时看看日志之中是否有相关的异常信息。
>
> Best,
> Shengkai
>
> amber_...@qq.com.INVALID  于2022年6月21日周二 09:43写道:
>
> > 您好!
> > 我使用flink1.14.4,sqlserver-cdc-2.2.1,yarn-per-job模式提交任务;
> > 当我提交普通数据同步任务时,一切正常;
> > 当我提交JOIN+聚合任务时,checkpoint无法正常工作,具体表现为无任何checkpoint记录,且Task Managed
> > Memory使用率始终是100%;
> > 以下是我的checkpoint配置:
> >
> >
> > 我尝试增加Task Managed内存,但使用率总是100%;
> > 当我关闭增量检查点时,无任何变化;
> > 当我将State Backend切换为hashmap时,Managed Memory使用率回归正常,但checkpoint仍然无法工作;
> >
> > 期待你的回复。
> > 祝好!
> > --
> > amber_...@qq.com
> >
>
>


Re: Re: 使用join+聚合时,checkpoint异常

2022-06-20 文章 amber_...@qq.com.INVALID
感谢!
未发生背压,但我在日志中发现了一些异常信息,如下:
Failed to trigger checkpoint for job 297c5a840f8fd3a1cbcb63825200e8d4 because 
Some tasks of the job have already finished and checkpointing with finished 
tasks is not enabled. Failure reason: Not all required tasks are currently 
running.

通过web ui可以看到,确实有一部分任务是finished状态。

是否因为我关联多张维表的时候,同时使用了lookup join和普通join呢?


amber_...@qq.com
 
发件人: Shengkai Fang
发送时间: 2022-06-21 09:53
收件人: user-zh
主题: Re: 使用join+聚合时,checkpoint异常
hi.
 
这种情况下,最好查看一下是否发生了反压,同时看看日志之中是否有相关的异常信息。
 
Best,
Shengkai
 
amber_...@qq.com.INVALID  于2022年6月21日周二 09:43写道:
 
> 您好!
> 我使用flink1.14.4,sqlserver-cdc-2.2.1,yarn-per-job模式提交任务;
> 当我提交普通数据同步任务时,一切正常;
> 当我提交JOIN+聚合任务时,checkpoint无法正常工作,具体表现为无任何checkpoint记录,且Task Managed
> Memory使用率始终是100%;
> 以下是我的checkpoint配置:
>
>
> 我尝试增加Task Managed内存,但使用率总是100%;
> 当我关闭增量检查点时,无任何变化;
> 当我将State Backend切换为hashmap时,Managed Memory使用率回归正常,但checkpoint仍然无法工作;
>
> 期待你的回复。
> 祝好!
> --
> amber_...@qq.com
>


Re:使用join+聚合时,checkpoint异常

2022-06-20 文章 lxk



你好,图片挂了,可以尝试使用图床工具上传图片。













在 2022-06-21 09:42:54,"amber_...@qq.com.INVALID"  写道:

您好!
我使用flink1.14.4,sqlserver-cdc-2.2.1,yarn-per-job模式提交任务;
当我提交普通数据同步任务时,一切正常;
当我提交JOIN+聚合任务时,checkpoint无法正常工作,具体表现为无任何checkpoint记录,且Task Managed 
Memory使用率始终是100%;
以下是我的checkpoint配置:



我尝试增加Task Managed内存,但使用率总是100%;
当我关闭增量检查点时,无任何变化;
当我将State Backend切换为hashmap时,Managed Memory使用率回归正常,但checkpoint仍然无法工作;


期待你的回复。
祝好!
amber_...@qq.com

Re: 使用join+聚合时,checkpoint异常

2022-06-20 文章 Shengkai Fang
hi.

这种情况下,最好查看一下是否发生了反压,同时看看日志之中是否有相关的异常信息。

Best,
Shengkai

amber_...@qq.com.INVALID  于2022年6月21日周二 09:43写道:

> 您好!
> 我使用flink1.14.4,sqlserver-cdc-2.2.1,yarn-per-job模式提交任务;
> 当我提交普通数据同步任务时,一切正常;
> 当我提交JOIN+聚合任务时,checkpoint无法正常工作,具体表现为无任何checkpoint记录,且Task Managed
> Memory使用率始终是100%;
> 以下是我的checkpoint配置:
>
>
> 我尝试增加Task Managed内存,但使用率总是100%;
> 当我关闭增量检查点时,无任何变化;
> 当我将State Backend切换为hashmap时,Managed Memory使用率回归正常,但checkpoint仍然无法工作;
>
> 期待你的回复。
> 祝好!
> --
> amber_...@qq.com
>