plication指定jar包地址到hdfs上,看是否能够复现。
>
>
> Best,
> xiao cai
>
>
> 原始邮件
> 发件人: Congxian Qiu
> 收件人: user-zh
> 发送时间: 2020年8月24日(周一) 20:39
> 主题: Re: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件
>
>
> Hi 理论上第一次能启动,后续的 failover 也应该是可以正常恢复的。你这边是稳定复现吗?如果能够稳定
Hi
确实可以稳定复现,failover后就会出现找不到lib包中的jar文件里的class文件,只能重启。不过我是cli模式启动的on-yarn,没有试过per-job和application,计划这两天尝试下application指定jar包地址到hdfs上,看是否能够复现。
Best,
xiao cai
原始邮件
发件人: Congxian Qiu
收件人: user-zh
发送时间: 2020年8月24日(周一) 20:39
主题: Re: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件
Hi 理论上第
方面的内容。有进展再交流。
>
>
> Best,
> xiao cai
>
>
> 原始邮件
> 发件人: 范超
> 收件人: user-zh@flink.apache.org
> 发送时间: 2020年8月20日(周四) 09:11
> 主题: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件
>
>
> 我之前开启job的failover
> restart,结果也是发现yarn直接申请新的container且旧的container
Hi:
感谢答复,确实是个思路。
不过个人感觉能够在启动第一个container的时候,将本地的lib中的jar文件上传到hdfs中,然后后续的failover的container能够统一从hdfs中获取,这样应该就不会有这个问题了。貌似社区在1.11版本针对jar的拷贝做了优化,我还在看这方面的内容。有进展再交流。
Best,
xiao cai
原始邮件
发件人: 范超
收件人: user-zh@flink.apache.org
发送时间: 2020年8月20日(周四) 09:11
主题: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会
我之前开启job的failover
restart,结果也是发现yarn直接申请新的container且旧的container并没有进一步进行处理,一直导致你这样子的报错,旧的container没有绑定的task
executor
No TaskExecutor registered under containe_.
我这边干脆写了个脚本通过savepoint的方式来reload应用了
希望对你有帮助
-邮件原件-
发件人: xiao cai [mailto:flin...@163.com]
发送时间: 2020年8月19日 星期三 12:50
收件人: us