Re: 回复: flink任务挂掉后自动重启

2020-11-02 文章 bradyMk
了解了,是我想的太局限了,谢谢zhisheng大佬啦~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-02 文章 zhisheng
平台层是将功能自动化,产品化,没有平台总可以手动按照这个思路去实现。 bradyMk 于2020年11月2日周一 下午2:27写道: > 那我们没有这样的计算平台该怎么办呢? > > > > - > Best Wishes > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ >

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
您好,请问每次任务重启后,jm节点是不一样的,你是如何获取到{cluster}的信息的呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
那我们没有这样的计算平台该怎么办呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 zhisheng
平台层的意思就是说:假设你们有实时计算平台,那么可以考虑把这个想法做在你们的平台里面。 bradyMk 于2020年11月2日周一 上午11:40写道: > zhisheng大佬好~我不是很理解您说的平台层具体是什么意思,指的是什么。。。 > > > > - > Best Wishes > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink任务挂掉后自动重启

2020-11-01 文章 silence
说一下我们平台的实现方式 1、自定义metricReporter,假如任务开启了checkpoint,reporter会自动的将最新完成的checkpoint路径进行上报 可参考https://ci.apache.org/projects/flink/flink-docs-release-1.11/monitoring/metrics.html#checkpointing 2、平台会有是否重试和是否基于checkpoint进行恢复的选项 3、假如上述两选项都开启了之后,可以对运行失败的任务基于最新的checkpoint进行拉起 -- Sent from: http://apac

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
zhisheng大佬好~我不是很理解您说的平台层具体是什么意思,指的是什么。。。 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
zhisheng大佬好~我不太理解你说的平台层是什么。。。 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 zhisheng
hi, 提供一个方案,平台层可以做到作业自动拉起,那么需要平台层有这些信息。 1、作业启动的时候保存一下作业的 jobid 信息 2、平台轮训检测作业的状态,如果作业挂了,直接从配置的 checkpoint 基础路径 + jobid 目录下去找最新的目录(里面含 _metadata) eg: hdfs:/flink/checkpoints/9b4cddb385b0c5db96b0774769867673/chk-15109 然后平台层将作业从 checkpoint 拉起,当然这个是否自动拉起,拉起的次数可以让用户去选择。 Best! zhisheng bradyMk 于202

Re: 回复: flink任务挂掉后自动重启

2020-10-31 文章 bradyMk
好的,我去试试这种方法,感谢~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复: flink任务挂掉后自动重启

2020-10-30 文章 史 正超
可以通过使用rest api 定时拉取checkpoints的状态 rest api uri为 {cluster}/jobs/{jobid}/checkpoints 返回的是json,里面有最近一次的ck记录和 历史记录。 发件人: bradyMk 发送时间: 2020年10月30日 6:52 收件人: user-zh@flink.apache.org 主题: Re: flink任务挂掉后自动重启 谢谢您的解答~ 重启策略确实可以解决任务故障重启,但是有的时候(例如集群资源不够),任务会直接被kill掉,我想问的是

Re: flink任务挂掉后自动重启

2020-10-29 文章 bradyMk
谢谢您的解答~ 重启策略确实可以解决任务故障重启,但是有的时候(例如集群资源不够),任务会直接被kill掉,我想问的是针对被kill掉的任务,有没有什么方法可以自动重启,特别是带有ck的任务,如果想要自动重启,如何在启动的时候自动去hdfs上获取最新的ck地址呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink任务挂掉后自动重启

2020-10-29 文章 Congxian Qiu
Hi 1 Flink 的 RestartStrategy[1] 可以解决你的问题吗? 2 从 checkpoint 恢复 这个,可以尝试记录每个作业最新的 checkpoint 地址,也可以在启动的时候从 hdfs 获取一下 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/dev/task_failure_recovery.html Best, Congxian bradyMk 于2020年10月30日周五 上午11:51写道: > > flink任务一般都是7*24h在跑的,如

flink任务挂掉后自动重启

2020-10-29 文章 bradyMk
flink任务一般都是7*24h在跑的,如果挂掉,有没有什么办法自动重启任务?之前都是任务挂掉然后手动再提交一次任务,但是不可能每次挂掉都可以手动重启;另外,如果对于没做checkpoints的任务,可以通过定时脚本监控yarn,如果任务不存在,则重新提交任务,但是,对于做了checkpoints的任务,我们提交的时候就需要指定ck的目录,这个目录都是在变的,那么又该如何让任务挂掉后能自动重启呢?希望能得到大佬们的指点~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/