各位大佬好:
请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
但是 在yarn上跑的spark 任务 都是可以看到错误日志的, flink这边配置的是log4j的日志文件,本地运行 控制台是可以看到错误原因 和日志
在 2020-11-20 17:53:03,"caozhen" 写道:
>
>1、jobmanager的日志有没有错误呢?
>2、或者通过yarn history查下日志 yarn logs -applicationId xxx
>3、如果是flink client 提交作业可以看下客户端日志
>
>
>
>air23 wrote
>> 你好
&
yarn logs -applicationId xxx 和 yarn 历史log 都查看不到FAILED 错误日志。
在 2020-11-20 17:53:03,"caozhen" 写道:
>
>1、jobmanager的日志有没有错误呢?
>2、或者通过yarn history查下日志 yarn logs -applicationId xxx
>3、如果是flink client 提交作业可以看下客户端日志
>
>
>
>air23 wrote
>> 你好
>> flink on yarn
1、jobmanager的日志有没有错误呢?
2、或者通过yarn history查下日志 yarn logs -applicationId xxx
3、如果是flink client 提交作业可以看下客户端日志
air23 wrote
> 你好
> flink on yarn 任务FAILED后 没有错误日志 输出到yarn log
> 这样定位不到 具体是什么问题导致任务 失败了,请问怎么配置把log输出到yarn的log里面
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
把 -d 参加加上用分离方式启动 应该就可以了
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
execution.attached的值是true,execution.target值是yarn-per-job
best,
amenhub
发件人: amen...@163.com
发送时间: 2020-11-13 11:30
收件人: user-zh
主题: Re: Re: Flink与Yarn的状态一致性问题
hi
1.确定提交的是Per-job模式,提交命令是./bin/flink run -m yarn-cluster xxx,并且从Flink web ui中的Job
Manager -> Configuration观察到execution.target值为yarn-
execution.attached的值是true,execution.target值是yarn-per-job
best,
amenhub
发件人: amen...@163.com
发送时间: 2020-11-13 11:30
收件人: user-zh
主题: Re: Re: Flink与Yarn的状态一致性问题
hi
1.确定提交的是Per-job模式,提交命令是./bin/flink run -m yarn-cluster xxx,并且从Flink web ui中的Job
Manager -> Configuration观察到execution.target值为yarn-
hi
从你的描述看确实起的是per-job模式,per-job模式目前应该是没有这个问题的.可以再看下你的UI上execution.attached
的值是什么吗? 再有启动任务的时候是否加了 -d 参数
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
detached 是另一个坑,因为你 attached 的时候需要等 client 去 request status 才会触发状态变化,但是普通的
execute 应该也是会自动的去拉结果的。
可以看下下列关键日志的打印情况
- log.info("Job {} reached globally terminal state {}.", ...)
- LOG.debug("Shutting down cluster because someone retrieved the job
result.");
- LOG.info("Shutting {} down with
hi
1.确定提交的是Per-job模式,提交命令是./bin/flink run -m yarn-cluster xxx,并且从Flink web ui中的Job
Manager -> Configuration观察到execution.target值为yarn-per-job
2.整体任务状态为Failed,但是TM挂了,JM没有挂(没有挂的原因猜测是因为Yarn application还在Running的原因吧?所以还能从Job
Manager -> logs查看失败日志内容)
best,
amenhub
发件人: JasonLee
发送时间: 2020
hi
1.确定提交的是Per-job模式,提交命令是./bin/flink run -m yarn-cluster xxx,并且从Flink web ui中的Job
Manager -> Configuration观察到execution.target值为yarn-per-job
2.整体任务状态为Failed,但是TM挂了,JM没有挂(没有挂的原因猜测是因为Yarn application还在Running的原因吧?所以还能从Job
Manager -> logs查看失败日志内容)
best,
amenhub
发件人: JasonLee
发送时间: 2020
hi
1,首先确定你提交的是per-job模式吗?
2,你说的任务状态是说jm还在任务在failover,还是任务确实是挂了,jm已经退出了?
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
>按照这个说法,应当是偶发性行为,然而我一直等待Flink上报,大概几个小时过去了Yarn状态仍然处于Running..
>
>>>>你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢?
>这个话没有看懂,我的提交方式是./bin/flink run -m yarn-cluster xxx,Flink版本是1.11.1
>
>昨天在社区邮件里发现了Flink-1.10以前可以通过-d参数解决Per-job模式下Flink web
>ui状态为Failed的时候,实时反馈Failed状态给Ya
>>>当然,在 FLINK 察觉自己 FAILED 到上报给 YARN 是有一定的时延的,也有可能因为网络等问题上报失败。
按照这个说法,应当是偶发性行为,然而我一直等待Flink上报,大概几个小时过去了Yarn状态仍然处于Running..
>>>你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢?
这个话没有看懂,我的提交方式是./bin/flink run -m yarn-cluster xxx,Flink版本是1.11.1
昨天在社区邮件里发现了Flink-1.10以前可以通过-d参数解决Per-jo
20年11月12日周四 下午8:07写道:
>
> > 可以设置检查点失败任务也失败
> >
> >
> >
> > 发自vivo智能手机
> > > hi everyone,
> > >
> > > 最近在使用Flink-1.11.1 On Yarn Per
> > Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn
> >
同遇见过这个问题,所以作业监控告警的时候一般都是拿作业所有的 task 级别的状态,而不是简单的 yarn 状态
hdxg1101300123 于2020年11月12日周四 下午8:07写道:
> 可以设置检查点失败任务也失败
>
>
>
> 发自vivo智能手机
> > hi everyone,
> >
> > 最近在使用Flink-1.11.1 On Yarn Per
> Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed
可以设置检查点失败任务也失败
发自vivo智能手机
> hi everyone,
>
> 最近在使用Flink-1.11.1 On Yarn Per
> Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn
> application仍处于运行状态
>
> 疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢
>
> best,
> amenhub
hi everyone,
最近在使用Flink-1.11.1 On Yarn Per
Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn
application仍处于运行状态
疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢
best,
amenhub
hi everyone,
最近在使用Flink-1.11.1 On Yarn Per
Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn
application仍处于运行状态
疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢
best,
amenhub
Hi,您好,请问如何拼接url可以看到已经结束了的任务的tm日志文件呢?
-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/
您好,请问一下,如何通过拼接url获取已经结束的任务的tm日志呢?
-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/
看看是不是任务出错,或者内存超了
在 2020-10-13 14:12:08,"Dream-底限" 写道:
>hi
>先前我是一个container申请四个core,经常遇到分配完applicationid然后任务处于standby后就挂掉了,现在申请四个container,每个container一个core后正常启动任务了
>
>Congxian Qiu 于2020年10月13日周二 下午1:12写道:
>
>> Hi
>> 容易异常退出是指 container 退出吗?可以看下 JM/TM log 是否有相应信息,如果没有,可以尝试从 yarn 侧看下日志为什么
>>
hi
先前我是一个container申请四个core,经常遇到分配完applicationid然后任务处于standby后就挂掉了,现在申请四个container,每个container一个core后正常启动任务了
Congxian Qiu 于2020年10月13日周二 下午1:12写道:
> Hi
> 容易异常退出是指 container 退出吗?可以看下 JM/TM log 是否有相应信息,如果没有,可以尝试从 yarn 侧看下日志为什么
> container 退出了
> Best,
> Congxian
>
>
> caozhen 于2020年10月12日周一
Hi
容易异常退出是指 container 退出吗?可以看下 JM/TM log 是否有相应信息,如果没有,可以尝试从 yarn 侧看下日志为什么
container 退出了
Best,
Congxian
caozhen 于2020年10月12日周一 下午6:08写道:
>
> 可以发下 "分配完applicationid后,容器经常异常退出" 产生的错误日志吗?
>
> 或者排查下flink客户端中的错误日志,以及yarn-historyserver里的日志。
>
>
>
> Dream-底限 wrote
> > hi
> >
可以发下 "分配完applicationid后,容器经常异常退出" 产生的错误日志吗?
或者排查下flink客户端中的错误日志,以及yarn-historyserver里的日志。
Dream-底限 wrote
> hi
> 我正在使用flink1.11.1 on
> yarn以分离模式运行任务,但在任务提交的时候,任务在分配完applicationid后,容器经常异常退出,先前以为是yarn环境问题,但是在两个集群测都有遇到这种情况,请问这是一个已知的bug吗
--
Sent from:
"user-zh"
> <
> tonysong...@gmail.com;
> 发送时间:2020年10月9日(星期五) 上午10:53
> 收件人:"user-zh"
> 主题:Re: flink on yarn 内存
>
>
>
> 你的理解没有错。cutoff 包含的既有 direct 内存也有 native 内存,native 内存是不受 maxDirectMemorySize
> 控制的。所以
hi Xintong:
directgc??maxDirectMemorysystem.gc()??maxDirectMemorykill??
----
??:
比实际需要的 direct
内存大,却不一定会用满 maxDirectMemorySize 指定的内存大小,因为即使没有达到上限,不用的 direct 内存还是会随着 GC
被释放掉。
Thank you~
Xintong Song
On Tue, Oct 6, 2020 at 9:58 PM 蒋佳成(Jiacheng Jiang) <920334...@qq.com> wrote:
> 大家好:
> 我有个flink on
> yarn的内存问题,flink版本是1.7.2,因此没有新的内存模型。在on
> yarn模式下,taskm
??flink on
yarnflink??1.7.2??on
yarntaskmanager.heap.sizecontainer??container??kill??taskmanager.heap.size
= xmx+maxDirectMemorySizexmx = taskmanager.heap.size - cutoff
看对应节点的
> NodeManger的JVM堆内存几乎占满了(1.5G),从曲线图上看整个堆内存是逐步增加的(和我测试Flink任务的时间基本吻合),GC持续达到30多秒,把flink任务停止后,JVM堆内存始终下不来,只能重启Yarn集群;
> 想请教大家,flink on yarn给了 taskmanger的内存
> 和jobmanager的内存,怎么还会影响到Nodemanger的JVM内存,另外任务已经停掉,JVM堆内存也下不来,这块会和rocksdb有关系吗?
>
>
> | |
> superainbower
> |
> |
>
Hi, 大家好
我有个flink任务在yarn上跑,statebackend是rocksdb,由于是测试,所以一段时间内我反复起停了任务,后来我发现在Yarn集群的NodeManger出现GC时间超出阈值报警(没有其他错误日志),此时我查看对应节点的
NodeManger的JVM堆内存几乎占满了(1.5G),从曲线图上看整个堆内存是逐步增加的(和我测试Flink任务的时间基本吻合),GC持续达到30多秒,把flink任务停止后,JVM堆内存始终下不来,只能重启Yarn集群;
想请教大家,flink on yarn给了 taskmanger的内存
和jobmanager的内存,怎么还会
hi
我正在使用flink1.11.1 on
yarn以分离模式运行任务,但在任务提交的时候,任务在分配完applicationid后,容器经常异常退出,先前以为是yarn环境问题,但是在两个集群测都有遇到这种情况,请问这是一个已知的bug吗
; >
> >
> >
> >
> > --原始邮件--
> > 发件人:
> > "user-zh"
> > <
> > rjia...@163.com;
> > 发送时间:2020年7月14日(星期
-原始邮件--
> 发件人:
> "user-zh"
> <
> rjia...@163.com;
> 发送时间:2020年7月14日(星期二) 下午5:31
> 收件人:"user-zh@flink.apache.org"
> 主
这个问题暂停段时间,这部分比较复杂。可能还涉及到自定义的scheduler,以及自定义的hadoop鉴权方式等。目前我也不是很清楚还,还需要继续问问公司相关基础设施的同学。
Yang Wang 于2020年8月25日周二 上午11:21写道:
>
> 你确认upd_security这个queue是存在的吧,另外你Yarn集群的scheduler是capacityScheduler还是FairScheduler
> 如果是Fair的话,需要指定完整的queue名字,而不是叶子节点的
>
>
> Best,
> Yang
>
> 赵一旦 于2020年8月24日周一 上午10:55写道:
; 1. 目前Flink是允许在一个user jar的main里面,运行多次execute的,包括executeAsyc。
>>> 每执行一次execute,就是提交了一个任务。所以你是可以这样来实现一个Application里面
>>> 运行多个job。但这里需要注意的是,目前只有非HA的Application模式可以支持多job
>>> HA模式还不行,具体原因主要是恢复起来会很麻烦,还没有实现。
>>>
>>> 2. Flink会检查用户提交的user jar,然后从其中提取出来。具体可以看一
不行,具体原因主要是恢复起来会很麻烦,还没有实现。
> >
> > 2. Flink会检查用户提交的user jar,然后从其中提取出来。具体可以看一下PackagedProgram#loadMainClass
> > 的实现。
> >
> >
> > Best,
> > Yang
> >
> > yang zhang 于2020年8月25日周二 下午1:50写道:
> >
> >> 1.flink on yarn 的applica
里面
> 运行多个job。但这里需要注意的是,目前只有非HA的Application模式可以支持多job
> HA模式还不行,具体原因主要是恢复起来会很麻烦,还没有实现。
>
> 2. Flink会检查用户提交的user jar,然后从其中提取出来。具体可以看一下PackagedProgram#loadMainClass
> 的实现。
>
>
> Best,
> Yang
>
> yang zhang 于2020年8月25日周二 下午1:50写道:
>
>> 1.flink on yarn 的appl
年8月25日周二 下午1:50写道:
> 1.flink on yarn 的application模式怎么提交多个job组成应用程序呢?在官网和论坛的文章中这里没有详细展开。
>
> 与per-job 模式相比,Application
> 模式允许提交由多个Job组成的应用程序。Job执行的顺序不受部署模式的影响,但受启动Job的调用的影响。使用阻塞的
> execute()方法,将是一个顺序执行的效果,结果就是"下一个"Job的执行被推迟到“该”Job完成为止。相反,一旦提交当前作业,非阻塞executeAsync()方法将立即继续提交“
1.flink on yarn 的application模式怎么提交多个job组成应用程序呢?在官网和论坛的文章中这里没有详细展开。
与per-job 模式相比,Application
模式允许提交由多个Job组成的应用程序。Job执行的顺序不受部署模式的影响,但受启动Job的调用的影响。使用阻塞的
execute()方法,将是一个顺序执行的效果,结果就是"下一个"Job的执行被推迟到“该”Job完成为止。相反,一旦提交当前作业,非阻塞executeAsync()方法将立即继续提交“下一个”Job。
怎么做到呢?
2.而且提交job时,没有指定运行ma
plication指定jar包地址到hdfs上,看是否能够复现。
>
>
> Best,
> xiao cai
>
>
> 原始邮件
> 发件人: Congxian Qiu
> 收件人: user-zh
> 发送时间: 2020年8月24日(周一) 20:39
> 主题: Re: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件
>
>
> Hi 理论上第一次能启动,后续的 failover 也应该是可以正常恢复的。你这边是稳定复现吗?如果能够稳定
你确认upd_security这个queue是存在的吧,另外你Yarn集群的scheduler是capacityScheduler还是FairScheduler
如果是Fair的话,需要指定完整的queue名字,而不是叶子节点的
Best,
Yang
赵一旦 于2020年8月24日周一 上午10:55写道:
> 比如今天尝试了一波命令:./bin/yarn-session.sh -nm test_flink -q -qu upd_security -s 1
> -tm 3024MB -jm 3024MB
> 同时我设置了 export HADOOP_USER_NAME=xxx
>
搞清楚这是怎么回事,希望有了解的朋友帮忙解答下。感谢!
> >
> > 备注:我可以通过在flink-conf.yaml中设置env.java.opts: -XX:+UseG1GC来使flink on
> yarn也使用G1。
> >
>
ink自从1.10开始默认GC就是G1了,在taskmanager.sh脚本中也能看到。
> 在*默认设置*下,能观察到本地flink使用的G1,但on yarn运行时却发现使用的是PS,想请教下这是为什么?是yarn会对应用有一些默认设置吗?
>
> 我搜索了一些相关资料,但仍然没有搞清楚这是怎么回事,希望有了解的朋友帮忙解答下。感谢!
>
> 备注:我可以通过在flink-conf.yaml中设置env.java.opts: -XX:+UseG1GC来使flink on yarn也使用G1。
>
Hi
确实可以稳定复现,failover后就会出现找不到lib包中的jar文件里的class文件,只能重启。不过我是cli模式启动的on-yarn,没有试过per-job和application,计划这两天尝试下application指定jar包地址到hdfs上,看是否能够复现。
Best,
xiao cai
原始邮件
发件人: Congxian Qiu
收件人: user-zh
发送时间: 2020年8月24日(周一) 20:39
主题: Re: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件
Hi 理论上第
方面的内容。有进展再交流。
>
>
> Best,
> xiao cai
>
>
> 原始邮件
> 发件人: 范超
> 收件人: user-zh@flink.apache.org
> 发送时间: 2020年8月20日(周四) 09:11
> 主题: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件
>
>
> 我之前开启job的failover
> restart,结果也是发现yarn直接申请新的container且旧的contai
Hi all,
请教一下,flink自从1.10开始默认GC就是G1了,在taskmanager.sh脚本中也能看到。
在*默认设置*下,能观察到本地flink使用的G1,但on yarn运行时却发现使用的是PS,想请教下这是为什么?是yarn会对应用有一些默认设置吗?
我搜索了一些相关资料,但仍然没有搞清楚这是怎么回事,希望有了解的朋友帮忙解答下。感谢!
备注:我可以通过在flink-conf.yaml中设置env.java.opts: -XX:+UseG1GC来使flink on yarn也使用G1。
比如今天尝试了一波命令:./bin/yarn-session.sh -nm test_flink -q -qu upd_security -s 1
-tm 3024MB -jm 3024MB
同时我设置了 export HADOOP_USER_NAME=xxx
,这个在启动的时候会看到日志:org.apache.flink.runtime.security.modules.HadoopModule -
Hadoop user set to upd_security (auth:SIMPLE)。
然后报错:
2020-08-24 10:52:31 ERROR
报错是 AM申请资源时vcore不够
1、可以确认当前队列是否有足够的vcore
2、确认当前队列允许允许的最大application数
我之前遇到这个问题是队列没有配置好资源导致
--
Sent from: http://apache-flink.147419.n8.nabble.com/
报错是 AM申请资源时vcore不够
1、可以确认当前队列是否有足够的vcore
2、确认当前队列允许允许的最大application数
我之前遇到这个问题是队列没有配置好资源导致
--
Sent from: http://apache-flink.147419.n8.nabble.com/
报错是申请AM时vcore不够
1、可以确认下当前队列是否有剩余vcore数
2、确认当前队列允许的最大应用数是否超了
之前遇到过这个问题原因是队列没有分配资源,跟你的可能不一样
--
Sent from: http://apache-flink.147419.n8.nabble.com/
Hi
一旦,提交任务的命令有嘛,可以发出来看看
或者在提交的时候指定一下提交任务到哪个队列
原始邮件
发件人: 赵一旦
收件人: user-zh
发送时间: 2020年8月23日(周日) 22:58
主题: Re: flink on yarn配置问题
嗯,直观看是这个问题。想知道这个问题有啥常见原因?这个报错只是最终原因,但不一定是直接原因。因为这个yarn集群不可能没资源,我只是简单实验下,我们的yarn是个超级集群,不可能没资源。
我猜测会不会是其他问题,比如yarn队列不对,导致没资源?再或者不清楚可不可能与yarn的鉴权有关,我们的yarn集群应该是有用户权限和资源配额
嗯,直观看是这个问题。想知道这个问题有啥常见原因?这个报错只是最终原因,但不一定是直接原因。因为这个yarn集群不可能没资源,我只是简单实验下,我们的yarn是个超级集群,不可能没资源。
我猜测会不会是其他问题,比如yarn队列不对,导致没资源?再或者不清楚可不可能与yarn的鉴权有关,我们的yarn集群应该是有用户权限和资源配额限制的,但理论上我是从另外一个集群上抄的配置,不清楚有没有搞错。
原机器是用于提交spark任务的,我主要复制了hadoop部分(yarn)到另一个机器(B),用B这台机器计划做flink任务的提交。
Zou Dan 于2020年8月23日周日
Hi, 一旦, root cause 应该是下面这个日志
The number of requested virtual cores for application master 1 exceeds the
maximum number of virtual cores 0 available in the Yarn Cluster.
我简单看了一下代码,应该是你们 yarn 节点上没有可用的资源,numYarnMaxVcores = 0
> 2020年8月21日 下午11:11,赵一旦 mailto:hinobl...@gmail.com>> 写道:
>
> The number
最近想试一下flink on yarn,yarn是公司之前就有的,但之前只运行过spark,现在想试一下flink。
但是不少报错,现在到如下情况了。
23:09:11.181 [main] ERROR com.xxx.Application - Main Method catched
exception: {}
org.apache.flink.client.deployment.ClusterDeploymentException: Could not
deploy Yarn job cluster
Hi:
感谢答复,确实是个思路。
不过个人感觉能够在启动第一个container的时候,将本地的lib中的jar文件上传到hdfs中,然后后续的failover的container能够统一从hdfs中获取,这样应该就不会有这个问题了。貌似社区在1.11版本针对jar的拷贝做了优化,我还在看这方面的内容。有进展再交流。
Best,
xiao cai
原始邮件
发件人: 范超
收件人: user-zh@flink.apache.org
发送时间: 2020年8月20日(周四) 09:11
主题: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会
: user-zh
主题: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件
如题:link on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件
我的任务时kafka source -> hbase sink
任务申请到新的container后,启动任务时会丢失原本存在的class文件,怀疑是重新申请的container中没有获取到lib中的资源,是否应该将lib中资源放到hdfs?该如何配置。
Best
xiao cai
错误堆栈:
2020-08-19 11:23:08,
发送时间: 2020年8月19日(周三) 13:34
主题: Re: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件
Hi 你的 Flink 是哪个版本,期望的行为是什么样的? 从你给的日志看,是没有 这个 class,这个 是在你放到 lib 下的某个
jar 包里面吗?另外你这个作业第一次运行的时候失败,还是中间中间 failover 之后恢复回来的时候失败呢? Best, Congxian xiao
cai 于2020年8月19日周三 下午12:50写道: > 如题:link on Yarn
启
Hi
你的 Flink 是哪个版本,期望的行为是什么样的?
从你给的日志看,是没有 这个 class,这个 是在你放到 lib 下的某个 jar
包里面吗?另外你这个作业第一次运行的时候失败,还是中间中间 failover 之后恢复回来的时候失败呢?
Best,
Congxian
xiao cai 于2020年8月19日周三 下午12:50写道:
> 如题:link on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件
>
>
> 我的任务时kafka source -> hbase sink
>
>
>
如题:link on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件
我的任务时kafka source -> hbase sink
任务申请到新的container后,启动任务时会丢失原本存在的class文件,怀疑是重新申请的container中没有获取到lib中的资源,是否应该将lib中资源放到hdfs?该如何配置。
Best
xiao cai
错误堆栈:
2020-08-19 11:23:08,099 INFO org.apache.flink.yarn.YarnResourceManager
perjob模式在1.10到1.11是没有变化的,只是1.11新增了application模式,Zookeeper的HA也没有变化
还是得你分享一下提交失败时候的Client端和JM端的log,这样才能方便查问题
Best,
Yang
x2009438 于2020年8月13日周四 下午5:35写道:
> 各位,
>
> 今天从1.10.0升级到1.11.1,结果yarn per job 提交作业,配置zookeeper的HA之后作业提交超时,有人碰到过吗?
> 看日志也没记录什么。
>
> 配置是从1.10.0上粘贴过来的,1.10.0是正常可用的。
>
>
>
>
>
各位,
今天从1.10.0升级到1.11.1,结果yarn per job 提交作业,配置zookeeper的HA之后作业提交超时,有人碰到过吗?
看日志也没记录什么。
配置是从1.10.0上粘贴过来的,1.10.0是正常可用的。
发自我的iPhone
好的,谢谢!
在 2020-08-13 14:08:07,"Congxian Qiu" 写道:
>Hi
>
> 这应该是个已知问题[1] 在 1.11.2 和 1.12 中已经修复
>
>[1] https://issues.apache.org/jira/browse/FLINK-18710
>Best,
>Congxian
>
>
>郭华威 于2020年8月13日周四 上午11:05写道:
>
>> 你好,请教下:
>> flink1.
Hi
这应该是个已知问题[1] 在 1.11.2 和 1.12 中已经修复
[1] https://issues.apache.org/jira/browse/FLINK-18710
Best,
Congxian
郭华威 于2020年8月13日周四 上午11:05写道:
> 你好,请教下:
> flink1.11.1 flink on yarn 任务启动报错:
>
>
> 启动命令:
> /opt/flink-1.11.1/bin/flink run -p 4 -ys 2 -m yarn-cluster -c
>
-akka.actor.default-dispatcher-20] ERROR
o.a.f.r.r.h.t.TaskManagerDetailsHandler - Unhandled exception.
不清楚出现此错误的原因,请教各位大佬。
问题二:flink on yarn
提交Job的时候我配置了JobManager和TaskManager之外,一般还需要配置什么参数?感觉自己配置的少了些什么。
Hi,张锴
这个描述看起来没有用的信息呢,既然有任务失败,失败的日志和异常信息可以贴出来看看。或者贴一个可以复现这个失败的case.
> 在 2020年7月29日,17:02,张锴 写道:
>
> flink获取Hbase数据并计算
> 在本地测试没问题,提交到Yarn上出现Task任务失败,无相关日志输出,task任务一直重启。任务失败的地方在数据计算部分。
> 语言:Scala,无堆栈信息输出
Best
Leonard
flink获取Hbase数据并计算
在本地测试没问题,提交到Yarn上出现Task任务失败,无相关日志输出,task任务一直重启。任务失败的地方在数据计算部分。
语言:Scala,无堆栈信息输出
#per-job-mode
gt; gt;gt; gt; gt; gt; gt;[3]
gt; gt;gt; gt; gt;
gt; gt;gt;
https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#run-a-single-flink-job-on-yarn
gt; gt;gt; gt; gt; gt; gt;
gt; gt;gt; gt; gt; gt; gt;
gt; gt;gt; gt; gt; gt; gt;Best,
gt; gt;gt; gt; gt; g
/ops/deployment/#per-job-mode
[3]
https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#run-a-single-flink-job-on-yarn
Best,
Yangze Guo
On Mon, Jul 13, 2020 at 10:49 AM
<13162790...@163.com wrote:
??
ache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#log-files
[2]
https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/#per-job-mode
[3]
https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#run-a-s
> >
>> > > >
>> > > >
>> > > >
>> > > >
>> > > >
>> > > >
>> > > >
>> > > >
>> > > > 在 2020-07-13 11:18:46,"Yangze Guo" 写道:
>> > > > &
> > >
>> > > >
>> > > >
>> > > >
>> > > >
>> > > >
>> > > >
>> > > >
>> > > >
>> > > > 在 2020-07-13 11:18:46,"Yangze Guo" 写道:
>> > >
t; > > >
> > > > >第一个问题,您可以尝试开启Yarn的日志收集功能[1]
> > > > >
> > > > >第二个问题,您可以尝试一下per-job mode [2][3]
> > > > >
> > > > >[1]
> > >
> https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment
的日志收集功能[1]
> > > >
> > > >第二个问题,您可以尝试一下per-job mode [2][3]
> > > >
> > > >[1]
> > https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#log-files
> > > >[2]
> > https://ci.apache.org/projects/flink/
集功能[1]
> > >
> > >第二个问题,您可以尝试一下per-job mode [2][3]
> > >
> > >[1]
> https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#log-files
> > >[2]
> https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployme
/zh/ops/deployment/#per-job-mode
> >[3]
> >https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#run-a-single-flink-job-on-yarn
> >
> >
> >Best,
> >Yangze Guo
> >
> >On Mon, Jul 13, 2020 at 10:49 AM 程龙 <131627
/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#run-a-single-flink-job-on-yarn
Best,
Yangze Guo
On Mon, Jul 13, 2020 at 10:49 AM 程龙 <13162790...@163.com> wrote:
>
> 请问一下两个问题
> 1 flink on yarn的时候 taskmanager 挂掉的时候 上面的日志会被删除掉 无法查看 ,除了使用es收集日志的这种方案,
> 还有没有可以使taskman
请问一下两个问题
1 flink on yarn的时候 taskmanager 挂掉的时候 上面的日志会被删除掉 无法查看 ,除了使用es收集日志的这种方案,
还有没有可以使taskmanager 挂掉,相关日志仍然可以保留。
2 flink on yarn模式 当由于错误导致taskmanager 挂掉,但是jobmanager 却一直存在, 有没有好的方式或者策略 ,
可以是当task失败 达到重试次数之后 taskmanager挂掉,jobmanager也挂掉
hi, 请教一个问题:
*环境:* yarn 2.9.2 http 开启kerberos
hadoop.http.authentication.type
kerberos
*flink 版本*:官方 1.7.1
*1.10 版本可以正常访问。*
访问 flink 的web 界面的时候报下面这个错误。
[image: D79C0EE4-F084-436B-8944-83677A57A320_4_5005_c.jpeg]
大家好,
我们这边想做flink on yarn日志web前台动态展示的功能。因为没在flink restful
api里面找到日志相关的api,现在的想法是这样:
1.web前端编写flink脚本,点击运行调用web后端的执行接口
2.web后端生成此前端任务的taskId,并调用flink驱动包(Pom依赖方式),传入前端脚本+taskId作为入口传参
3.flink驱动包中:
A>通过YarnClient启动flink on yarn任务,返回y
于2020年6月11日周四 下午3:55写道:
> 未运行在yarn的容器里面,还在服务器java -cp的进程里面
>
>
>
> zjfpla...@hotmail.com
>
> 发件人: Yichao Yang
> 发送时间: 2020-06-11 15:53
> 收件人: user-zh
> 主题: 回复:flink on yarn模式的代码运行位置问题
> Hi
>
>
> yarn是用作资源管理调度,你所说的未运行在yarn是没有运行在yarn的服务器上吗?
>
>
yarn??java -cp??
zjfpla...@hotmail.com
Yichao Yang
?? 2020-06-11 15:53
user-zh
?? ??flink on yarn??
Hi
yarnyarnyarn??
Best,
Yichao Yang
Hi
yarnyarnyarn??
Best,
Yichao Yang
----
??:"zjfpla...@hotmail.com"
Hi,
我在使用flink的过程中,有些疑问请教下各位:
1.flink分为jobmanger和taskmanager,我怎么区分哪些代码是运行在jobmanager,哪些在taskmanager?
2.假设我jarA中使用AbstractYarnClusterDescriptor.deployJobCluster()替代flink
run命令(想直接通过jar包启动方式直接提交flink任务上yarn),部署jarB到yarn上,jarB中mainClass中使用StreamExecutionEnvironment.execute去执行流任务,通过java
Hi,air
可以通过日志采集来收集异常日志,然后统一展示并监控告警。
| |
Sun.Zhu
|
|
17626017...@163.com
|
签名由网易邮箱大师定制
在2020年06月2日 14:05,阿华田 写道:
这种情况需要对flink任务进行监控 获取flink的任务状态
| |
阿华田
|
|
a15733178...@163.com
|
签名由网易邮箱大师定制
在2020年06月2日 14:03,air23 写道:
今天发现taskmanagers报json解析失败 他一起在重启
但是我们这边是监控yarn 任务级别的。像这种task
对 获取flink任务的metric信息 主要是任务状态
| |
阿华田
|
|
a15733178...@163.com
|
签名由网易邮箱大师定制
在2020年06月2日 14:21,air23 写道:
分钟级别定时去获取metrics?
这样吗
在 2020-06-02 14:05:39,"阿华田" 写道:
这种情况需要对flink任务进行监控 获取flink的任务状态
| |
阿华田
|
|
a15733178...@163.com
|
签名由网易邮箱大师定制
在2020年06月2日 14:03,air23 写道:
分钟级别定时去获取metrics?
这样吗
在 2020-06-02 14:05:39,"阿华田" 写道:
>这种情况需要对flink任务进行监控 获取flink的任务状态
>
>
>| |
>阿华田
>|
>|
>a15733178...@163.com
>|
>签名由网易邮箱大师定制
>
>
>在2020年06月2日 14:03,air23 写道:
>今天发现taskmanagers报json解析失败 他一起在重启
>但是我们这边是监控yarn 任务级别的。像这种task 里面报错。yarn任务又不会挂掉。应该怎么去做监控。才能得知
这种情况需要对flink任务进行监控 获取flink的任务状态
| |
阿华田
|
|
a15733178...@163.com
|
签名由网易邮箱大师定制
在2020年06月2日 14:03,air23 写道:
今天发现taskmanagers报json解析失败 他一起在重启
但是我们这边是监控yarn 任务级别的。像这种task 里面报错。yarn任务又不会挂掉。应该怎么去做监控。才能得知 程序后台有问题
谢谢
今天发现taskmanagers报json解析失败 他一起在重启
但是我们这边是监控yarn 任务级别的。像这种task 里面报错。yarn任务又不会挂掉。应该怎么去做监控。才能得知 程序后台有问题
谢谢
从开启kerberos 的kafka 消费环境需要加入三个kafka 参数到ddl的properties 中
发自我的iPhone
-- 原始邮件 --
发件人: 蒋佳成(Jiacheng Jiang) <920334...@qq.com
发送时间: 2020年5月9日 16:06
收件人: user-zh
krb5.conf??FLINK_ENV_JAVA_OPTS=-Djava.security.krb5.conf=x/krb5.conf
----
??: "zjfpla...@hotmail.com"
大家好,
请问各位flink on yarn如何消费开启kerberos的kafka,以及如何sink到开启kerberos的hbase
现在尝试过在flink-conf.yaml中添加了如下配置:
security.kerberos.login.use-ticket-cache: false
security.kerberos.login.keytab: /home/zjf/zjf.keytab
security.kerberos.login.principal: zjf@TDH
> --原始邮件--
> 发件人:"Yangze Guo" 发送时间:2020年4月15日(星期三) 下午3:00
> 收件人:"user-zh"
> 主题:Re: flink 1.7.2 YARN Session模式提交任务问题求助
>
>
>
> Flink需要设置hadoop相关conf位置的环境变量 YARN_CONF_DIR or HADOOP_CONF_DIR [1]
>
> [1]
> https://ci.
hi Yangze Guo
??checkpoint??namenode
ha??nameservicecheckpoint
----
??:"Yangze
wrote:
> Hi community,
>
> I have a question about flink on yarn ha , if active resourcemanager
> changed, what is the flink task staus. Is flink task running normally?
> Should I must restart my flink task to run?
>
> Thanks to your reply.
>
> Best,
> LakeShen
>
Flink需要设置hadoop相关conf位置的环境变量 YARN_CONF_DIR or HADOOP_CONF_DIR [1]
[1]
https://ci.apache.org/projects/flink/flink-docs-master/ops/deployment/yarn_setup.html
Best,
Yangze Guo
On Mon, Apr 13, 2020 at 10:52 PM Chief wrote:
>
> 大家好
> 目前环境是flink 1.7.2,使用YARN Session模式提交任务,Hadoop 版本2.7.3,hdfs
>
??
??flink 1.7.2??YARN Session??Hadoop 2.7.3??hdfs
namenode??haHADOOP_HOME,YARN_CONF_DIR??HADOOP_CONF_DIR??HADOOP_CLASSPATHflink_conf.yamlfs.hdfs.hadoopconf
2020-04-10 19:12:02,908 INFO
??
??flink 1.7.2??YARN Session??Hadoop 2.7.3??hdfs
namenode??haHADOOP_HOME,YARN_CONF_DIR??HADOOP_CONF_DIR??HADOOP_CLASSPATHflink_conf.yamlfs.hdfs.hadoopconf
2020-04-10 19:12:02,908 INFO
对于Flink on YARN,最简单的情况是直接在终端 kinit,就能提交任务。flink本身不用配置。
Can't get Kerberos realm一般是是krb5.conf对应realm的配置的问题。
flink/hado...@example.com <mailto:flink/hado...@example.com>
hadoop0不知道是不是主机,这看起来像是个服务的principal 。 这里应该是user的principal 就行了。
> 在 2020年3月24日,下午9:03,巫旭阳 写道:
>
> 之前在使用ha
Flink 提交作业到有kerboros认证的集群报以下异常
java.lang.Exception: unable to establish the security context
at
org.apache.flink.runtime.security.SecurityUtils.install(SecurityUtils.java:73)
at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:1124)
Caused by: java.lang.IllegalArgumentException:
共有 247 项搜索結果,以下是第 101 - 200 matches
Mail list logo