Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 yujianbo
各位大佬好: 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:Re: flink on yarn 任务FAILED后 没有错误日志 输出到yarn log

2020-11-20 文章 air23
但是 在yarn上跑的spark 任务 都是可以看到错误日志的, flink这边配置的是log4j的日志文件,本地运行 控制台是可以看到错误原因 和日志 在 2020-11-20 17:53:03,"caozhen" 写道: > >1、jobmanager的日志有没有错误呢? >2、或者通过yarn history查下日志 yarn logs -applicationId xxx >3、如果是flink client 提交作业可以看下客户端日志 > > > >air23 wrote >> 你好 &

Re:Re: flink on yarn 任务FAILED后 没有错误日志 输出到yarn log

2020-11-20 文章 air23
yarn logs -applicationId xxx 和 yarn 历史log 都查看不到FAILED 错误日志。 在 2020-11-20 17:53:03,"caozhen" 写道: > >1、jobmanager的日志有没有错误呢? >2、或者通过yarn history查下日志 yarn logs -applicationId xxx >3、如果是flink client 提交作业可以看下客户端日志 > > > >air23 wrote >> 你好 >> flink on yarn

Re: flink on yarn 任务FAILED后 没有错误日志 输出到yarn log

2020-11-20 文章 caozhen
1、jobmanager的日志有没有错误呢? 2、或者通过yarn history查下日志 yarn logs -applicationId xxx 3、如果是flink client 提交作业可以看下客户端日志 air23 wrote > 你好 > flink on yarn 任务FAILED后 没有错误日志 输出到yarn log > 这样定位不到 具体是什么问题导致任务 失败了,请问怎么配置把log输出到yarn的log里面 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 JasonLee
hi 把 -d 参加加上用分离方式启动 应该就可以了 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 amen...@163.com
execution.attached的值是true,execution.target值是yarn-per-job best, amenhub 发件人: amen...@163.com 发送时间: 2020-11-13 11:30 收件人: user-zh 主题: Re: Re: Flink与Yarn的状态一致性问题 hi 1.确定提交的是Per-job模式,提交命令是./bin/flink run -m yarn-cluster xxx,并且从Flink web ui中的Job Manager -> Configuration观察到execution.target值为yarn-

Re: Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 amen...@163.com
execution.attached的值是true,execution.target值是yarn-per-job best, amenhub 发件人: amen...@163.com 发送时间: 2020-11-13 11:30 收件人: user-zh 主题: Re: Re: Flink与Yarn的状态一致性问题 hi 1.确定提交的是Per-job模式,提交命令是./bin/flink run -m yarn-cluster xxx,并且从Flink web ui中的Job Manager -> Configuration观察到execution.target值为yarn-

Re: Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 JasonLee
hi 从你的描述看确实起的是per-job模式,per-job模式目前应该是没有这个问题的.可以再看下你的UI上execution.attached 的值是什么吗? 再有启动任务的时候是否加了 -d 参数 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 tison
detached 是另一个坑,因为你 attached 的时候需要等 client 去 request status 才会触发状态变化,但是普通的 execute 应该也是会自动的去拉结果的。 可以看下下列关键日志的打印情况 - log.info("Job {} reached globally terminal state {}.", ...) - LOG.debug("Shutting down cluster because someone retrieved the job result."); - LOG.info("Shutting {} down with

Re: Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 amen...@163.com
hi 1.确定提交的是Per-job模式,提交命令是./bin/flink run -m yarn-cluster xxx,并且从Flink web ui中的Job Manager -> Configuration观察到execution.target值为yarn-per-job 2.整体任务状态为Failed,但是TM挂了,JM没有挂(没有挂的原因猜测是因为Yarn application还在Running的原因吧?所以还能从Job Manager -> logs查看失败日志内容) best, amenhub 发件人: JasonLee 发送时间: 2020

Re: Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 amen...@163.com
hi 1.确定提交的是Per-job模式,提交命令是./bin/flink run -m yarn-cluster xxx,并且从Flink web ui中的Job Manager -> Configuration观察到execution.target值为yarn-per-job 2.整体任务状态为Failed,但是TM挂了,JM没有挂(没有挂的原因猜测是因为Yarn application还在Running的原因吧?所以还能从Job Manager -> logs查看失败日志内容) best, amenhub 发件人: JasonLee 发送时间: 2020

Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 JasonLee
hi 1,首先确定你提交的是per-job模式吗? 2,你说的任务状态是说jm还在任务在failover,还是任务确实是挂了,jm已经退出了? - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:Re: Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 kingdomad
>按照这个说法,应当是偶发性行为,然而我一直等待Flink上报,大概几个小时过去了Yarn状态仍然处于Running.. > >>>>你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢? >这个话没有看懂,我的提交方式是./bin/flink run -m yarn-cluster xxx,Flink版本是1.11.1 > >昨天在社区邮件里发现了Flink-1.10以前可以通过-d参数解决Per-job模式下Flink web >ui状态为Failed的时候,实时反馈Failed状态给Ya

Re: Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 amen...@163.com
>>>当然,在 FLINK 察觉自己 FAILED 到上报给 YARN 是有一定的时延的,也有可能因为网络等问题上报失败。 按照这个说法,应当是偶发性行为,然而我一直等待Flink上报,大概几个小时过去了Yarn状态仍然处于Running.. >>>你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢? 这个话没有看懂,我的提交方式是./bin/flink run -m yarn-cluster xxx,Flink版本是1.11.1 昨天在社区邮件里发现了Flink-1.10以前可以通过-d参数解决Per-jo

Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 tison
20年11月12日周四 下午8:07写道: > > > 可以设置检查点失败任务也失败 > > > > > > > > 发自vivo智能手机 > > > hi everyone, > > > > > > 最近在使用Flink-1.11.1 On Yarn Per > > Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn > >

Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 zhisheng
同遇见过这个问题,所以作业监控告警的时候一般都是拿作业所有的 task 级别的状态,而不是简单的 yarn 状态 hdxg1101300123 于2020年11月12日周四 下午8:07写道: > 可以设置检查点失败任务也失败 > > > > 发自vivo智能手机 > > hi everyone, > > > > 最近在使用Flink-1.11.1 On Yarn Per > Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed

回复: Flink与Yarn的状态一致性问题

2020-11-12 文章 hdxg1101300123
可以设置检查点失败任务也失败 发自vivo智能手机 > hi everyone, > > 最近在使用Flink-1.11.1 On Yarn Per > Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn > application仍处于运行状态 > > 疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢 > > best, > amenhub

Flink与Yarn的状态一致性问题

2020-11-11 文章 amen...@163.com
hi everyone, 最近在使用Flink-1.11.1 On Yarn Per Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn application仍处于运行状态 疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢 best, amenhub

Flink与Yarn的状态一致性问题

2020-11-09 文章 amen...@163.com
hi everyone, 最近在使用Flink-1.11.1 On Yarn Per Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn application仍处于运行状态 疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢 best, amenhub

Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk
Hi,您好,请问如何拼接url可以看到已经结束了的任务的tm日志文件呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk
您好,请问一下,如何通过拼接url获取已经结束的任务的tm日志呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:Re: flink on yarn容器异常退出

2020-10-19 文章 Michael Ran
看看是不是任务出错,或者内存超了 在 2020-10-13 14:12:08,"Dream-底限" 写道: >hi >先前我是一个container申请四个core,经常遇到分配完applicationid然后任务处于standby后就挂掉了,现在申请四个container,每个container一个core后正常启动任务了 > >Congxian Qiu 于2020年10月13日周二 下午1:12写道: > >> Hi >> 容易异常退出是指 container 退出吗?可以看下 JM/TM log 是否有相应信息,如果没有,可以尝试从 yarn 侧看下日志为什么 >>

Re: flink on yarn容器异常退出

2020-10-13 文章 Dream-底限
hi 先前我是一个container申请四个core,经常遇到分配完applicationid然后任务处于standby后就挂掉了,现在申请四个container,每个container一个core后正常启动任务了 Congxian Qiu 于2020年10月13日周二 下午1:12写道: > Hi > 容易异常退出是指 container 退出吗?可以看下 JM/TM log 是否有相应信息,如果没有,可以尝试从 yarn 侧看下日志为什么 > container 退出了 > Best, > Congxian > > > caozhen 于2020年10月12日周一

Re: flink on yarn容器异常退出

2020-10-12 文章 Congxian Qiu
Hi 容易异常退出是指 container 退出吗?可以看下 JM/TM log 是否有相应信息,如果没有,可以尝试从 yarn 侧看下日志为什么 container 退出了 Best, Congxian caozhen 于2020年10月12日周一 下午6:08写道: > > 可以发下 "分配完applicationid后,容器经常异常退出" 产生的错误日志吗? > > 或者排查下flink客户端中的错误日志,以及yarn-historyserver里的日志。 > > > > Dream-底限 wrote > > hi > >

Re: flink on yarn容器异常退出

2020-10-12 文章 caozhen
可以发下 "分配完applicationid后,容器经常异常退出" 产生的错误日志吗? 或者排查下flink客户端中的错误日志,以及yarn-historyserver里的日志。 Dream-底限 wrote > hi > 我正在使用flink1.11.1 on > yarn以分离模式运行任务,但在任务提交的时候,任务在分配完applicationid后,容器经常异常退出,先前以为是yarn环境问题,但是在两个集群测都有遇到这种情况,请问这是一个已知的bug吗 -- Sent from:

Re: flink on yarn 内存

2020-10-08 文章 Xintong Song
"user-zh" > < > tonysong...@gmail.com; > 发送时间:2020年10月9日(星期五) 上午10:53 > 收件人:"user-zh" > 主题:Re: flink on yarn 内存 > > > > 你的理解没有错。cutoff 包含的既有 direct 内存也有 native 内存,native 内存是不受 maxDirectMemorySize > 控制的。所以

?????? flink on yarn ????

2020-10-08 文章 ??????(Jiacheng Jiang)
hi Xintong: directgc??maxDirectMemorysystem.gc()??maxDirectMemorykill?? ---- ??:

Re: flink on yarn 内存

2020-10-08 文章 Xintong Song
比实际需要的 direct 内存大,却不一定会用满 maxDirectMemorySize 指定的内存大小,因为即使没有达到上限,不用的 direct 内存还是会随着 GC 被释放掉。 Thank you~ Xintong Song On Tue, Oct 6, 2020 at 9:58 PM 蒋佳成(Jiacheng Jiang) <920334...@qq.com> wrote: > 大家好: > 我有个flink on > yarn的内存问题,flink版本是1.7.2,因此没有新的内存模型。在on > yarn模式下,taskm

flink on yarn ????

2020-10-06 文章 ??????(Jiacheng Jiang)
??flink on yarnflink??1.7.2??on yarntaskmanager.heap.sizecontainer??container??kill??taskmanager.heap.size = xmx+maxDirectMemorySizexmx = taskmanager.heap.size - cutoff

Re: flink on yarn NM JVM内存

2020-09-24 文章 Xintong Song
看对应节点的 > NodeManger的JVM堆内存几乎占满了(1.5G),从曲线图上看整个堆内存是逐步增加的(和我测试Flink任务的时间基本吻合),GC持续达到30多秒,把flink任务停止后,JVM堆内存始终下不来,只能重启Yarn集群; > 想请教大家,flink on yarn给了 taskmanger的内存 > 和jobmanager的内存,怎么还会影响到Nodemanger的JVM内存,另外任务已经停掉,JVM堆内存也下不来,这块会和rocksdb有关系吗? > > > | | > superainbower > | > | >

flink on yarn NM JVM内存

2020-09-23 文章 superainbower
Hi, 大家好 我有个flink任务在yarn上跑,statebackend是rocksdb,由于是测试,所以一段时间内我反复起停了任务,后来我发现在Yarn集群的NodeManger出现GC时间超出阈值报警(没有其他错误日志),此时我查看对应节点的 NodeManger的JVM堆内存几乎占满了(1.5G),从曲线图上看整个堆内存是逐步增加的(和我测试Flink任务的时间基本吻合),GC持续达到30多秒,把flink任务停止后,JVM堆内存始终下不来,只能重启Yarn集群; 想请教大家,flink on yarn给了 taskmanger的内存 和jobmanager的内存,怎么还会

flink on yarn容器异常退出

2020-09-22 文章 Dream-底限
hi 我正在使用flink1.11.1 on yarn以分离模式运行任务,但在任务提交的时候,任务在分配完applicationid后,容器经常异常退出,先前以为是yarn环境问题,但是在两个集群测都有遇到这种情况,请问这是一个已知的bug吗

Re: flink on yarn日志问题

2020-08-27 文章 zilong xiao
; > > > > > > > > > --原始邮件-- > > 发件人: > > "user-zh" > > < > > rjia...@163.com; > > 发送时间:2020年7月14日(星期

Re: flink on yarn日志问题

2020-08-27 文章 Jim Chen
-原始邮件-- > 发件人: > "user-zh" > < > rjia...@163.com; > 发送时间:2020年7月14日(星期二) 下午5:31 > 收件人:"user-zh@flink.apache.org" > 主

Re: flink on yarn配置问题

2020-08-26 文章 赵一旦
这个问题暂停段时间,这部分比较复杂。可能还涉及到自定义的scheduler,以及自定义的hadoop鉴权方式等。目前我也不是很清楚还,还需要继续问问公司相关基础设施的同学。 Yang Wang 于2020年8月25日周二 上午11:21写道: > > 你确认upd_security这个queue是存在的吧,另外你Yarn集群的scheduler是capacityScheduler还是FairScheduler > 如果是Fair的话,需要指定完整的queue名字,而不是叶子节点的 > > > Best, > Yang > > 赵一旦 于2020年8月24日周一 上午10:55写道:

Re: flink on yarn 提交作业application模式的2个疑问

2020-08-25 文章 yang zhang
; 1. 目前Flink是允许在一个user jar的main里面,运行多次execute的,包括executeAsyc。 >>> 每执行一次execute,就是提交了一个任务。所以你是可以这样来实现一个Application里面 >>> 运行多个job。但这里需要注意的是,目前只有非HA的Application模式可以支持多job >>> HA模式还不行,具体原因主要是恢复起来会很麻烦,还没有实现。 >>> >>> 2. Flink会检查用户提交的user jar,然后从其中提取出来。具体可以看一

Re: flink on yarn 提交作业application模式的2个疑问

2020-08-25 文章 Yang Wang
不行,具体原因主要是恢复起来会很麻烦,还没有实现。 > > > > 2. Flink会检查用户提交的user jar,然后从其中提取出来。具体可以看一下PackagedProgram#loadMainClass > > 的实现。 > > > > > > Best, > > Yang > > > > yang zhang 于2020年8月25日周二 下午1:50写道: > > > >> 1.flink on yarn 的applica

Re: flink on yarn 提交作业application模式的2个疑问

2020-08-25 文章 yang zhang
里面 > 运行多个job。但这里需要注意的是,目前只有非HA的Application模式可以支持多job > HA模式还不行,具体原因主要是恢复起来会很麻烦,还没有实现。 > > 2. Flink会检查用户提交的user jar,然后从其中提取出来。具体可以看一下PackagedProgram#loadMainClass > 的实现。 > > > Best, > Yang > > yang zhang 于2020年8月25日周二 下午1:50写道: > >> 1.flink on yarn 的appl

Re: flink on yarn 提交作业application模式的2个疑问

2020-08-25 文章 Yang Wang
年8月25日周二 下午1:50写道: > 1.flink on yarn 的application模式怎么提交多个job组成应用程序呢?在官网和论坛的文章中这里没有详细展开。 > > 与per-job 模式相比,Application > 模式允许提交由多个Job组成的应用程序。Job执行的顺序不受部署模式的影响,但受启动Job的调用的影响。使用阻塞的 > execute()方法,将是一个顺序执行的效果,结果就是"下一个"Job的执行被推迟到“该”Job完成为止。相反,一旦提交当前作业,非阻塞executeAsync()方法将立即继续提交“

flink on yarn 提交作业application模式的2个疑问

2020-08-24 文章 yang zhang
1.flink on yarn 的application模式怎么提交多个job组成应用程序呢?在官网和论坛的文章中这里没有详细展开。 与per-job 模式相比,Application 模式允许提交由多个Job组成的应用程序。Job执行的顺序不受部署模式的影响,但受启动Job的调用的影响。使用阻塞的 execute()方法,将是一个顺序执行的效果,结果就是"下一个"Job的执行被推迟到“该”Job完成为止。相反,一旦提交当前作业,非阻塞executeAsync()方法将立即继续提交“下一个”Job。 怎么做到呢? 2.而且提交job时,没有指定运行ma

Re: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件

2020-08-24 文章 Yang Wang
plication指定jar包地址到hdfs上,看是否能够复现。 > > > Best, > xiao cai > > > 原始邮件 > 发件人: Congxian Qiu > 收件人: user-zh > 发送时间: 2020年8月24日(周一) 20:39 > 主题: Re: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件 > > > Hi 理论上第一次能启动,后续的 failover 也应该是可以正常恢复的。你这边是稳定复现吗?如果能够稳定

Re: flink on yarn配置问题

2020-08-24 文章 Yang Wang
你确认upd_security这个queue是存在的吧,另外你Yarn集群的scheduler是capacityScheduler还是FairScheduler 如果是Fair的话,需要指定完整的queue名字,而不是叶子节点的 Best, Yang 赵一旦 于2020年8月24日周一 上午10:55写道: > 比如今天尝试了一波命令:./bin/yarn-session.sh -nm test_flink -q -qu upd_security -s 1 > -tm 3024MB -jm 3024MB > 同时我设置了 export HADOOP_USER_NAME=xxx >

Re: flink on yarn默认GC的问题

2020-08-24 文章 shizk233
搞清楚这是怎么回事,希望有了解的朋友帮忙解答下。感谢! > > > > 备注:我可以通过在flink-conf.yaml中设置env.java.opts: -XX:+UseG1GC来使flink on > yarn也使用G1。 > > >

Re: flink on yarn默认GC的问题

2020-08-24 文章 Xintong Song
ink自从1.10开始默认GC就是G1了,在taskmanager.sh脚本中也能看到。 > 在*默认设置*下,能观察到本地flink使用的G1,但on yarn运行时却发现使用的是PS,想请教下这是为什么?是yarn会对应用有一些默认设置吗? > > 我搜索了一些相关资料,但仍然没有搞清楚这是怎么回事,希望有了解的朋友帮忙解答下。感谢! > > 备注:我可以通过在flink-conf.yaml中设置env.java.opts: -XX:+UseG1GC来使flink on yarn也使用G1。 >

Re: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件

2020-08-24 文章 xiao cai
Hi 确实可以稳定复现,failover后就会出现找不到lib包中的jar文件里的class文件,只能重启。不过我是cli模式启动的on-yarn,没有试过per-job和application,计划这两天尝试下application指定jar包地址到hdfs上,看是否能够复现。 Best, xiao cai 原始邮件 发件人: Congxian Qiu 收件人: user-zh 发送时间: 2020年8月24日(周一) 20:39 主题: Re: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件 Hi 理论上第

Re: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件

2020-08-24 文章 Congxian Qiu
方面的内容。有进展再交流。 > > > Best, > xiao cai > > > 原始邮件 > 发件人: 范超 > 收件人: user-zh@flink.apache.org > 发送时间: 2020年8月20日(周四) 09:11 > 主题: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件 > > > 我之前开启job的failover > restart,结果也是发现yarn直接申请新的container且旧的contai

flink on yarn默认GC的问题

2020-08-24 文章 shizk233
Hi all, 请教一下,flink自从1.10开始默认GC就是G1了,在taskmanager.sh脚本中也能看到。 在*默认设置*下,能观察到本地flink使用的G1,但on yarn运行时却发现使用的是PS,想请教下这是为什么?是yarn会对应用有一些默认设置吗? 我搜索了一些相关资料,但仍然没有搞清楚这是怎么回事,希望有了解的朋友帮忙解答下。感谢! 备注:我可以通过在flink-conf.yaml中设置env.java.opts: -XX:+UseG1GC来使flink on yarn也使用G1。

Re: flink on yarn配置问题

2020-08-23 文章 赵一旦
比如今天尝试了一波命令:./bin/yarn-session.sh -nm test_flink -q -qu upd_security -s 1 -tm 3024MB -jm 3024MB 同时我设置了 export HADOOP_USER_NAME=xxx ,这个在启动的时候会看到日志:org.apache.flink.runtime.security.modules.HadoopModule - Hadoop user set to upd_security (auth:SIMPLE)。 然后报错: 2020-08-24 10:52:31 ERROR

Re: flink on yarn配置问题

2020-08-23 文章 caozhen
报错是 AM申请资源时vcore不够 1、可以确认当前队列是否有足够的vcore 2、确认当前队列允许允许的最大application数 我之前遇到这个问题是队列没有配置好资源导致 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink on yarn配置问题

2020-08-23 文章 caozhen
报错是 AM申请资源时vcore不够 1、可以确认当前队列是否有足够的vcore 2、确认当前队列允许允许的最大application数 我之前遇到这个问题是队列没有配置好资源导致 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink on yarn配置问题

2020-08-23 文章 caozhen
报错是申请AM时vcore不够 1、可以确认下当前队列是否有剩余vcore数 2、确认当前队列允许的最大应用数是否超了 之前遇到过这个问题原因是队列没有分配资源,跟你的可能不一样 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink on yarn配置问题

2020-08-23 文章 魏烽
Hi 一旦,提交任务的命令有嘛,可以发出来看看 或者在提交的时候指定一下提交任务到哪个队列 原始邮件 发件人: 赵一旦 收件人: user-zh 发送时间: 2020年8月23日(周日) 22:58 主题: Re: flink on yarn配置问题 嗯,直观看是这个问题。想知道这个问题有啥常见原因?这个报错只是最终原因,但不一定是直接原因。因为这个yarn集群不可能没资源,我只是简单实验下,我们的yarn是个超级集群,不可能没资源。 我猜测会不会是其他问题,比如yarn队列不对,导致没资源?再或者不清楚可不可能与yarn的鉴权有关,我们的yarn集群应该是有用户权限和资源配额

Re: flink on yarn配置问题

2020-08-23 文章 赵一旦
嗯,直观看是这个问题。想知道这个问题有啥常见原因?这个报错只是最终原因,但不一定是直接原因。因为这个yarn集群不可能没资源,我只是简单实验下,我们的yarn是个超级集群,不可能没资源。 我猜测会不会是其他问题,比如yarn队列不对,导致没资源?再或者不清楚可不可能与yarn的鉴权有关,我们的yarn集群应该是有用户权限和资源配额限制的,但理论上我是从另外一个集群上抄的配置,不清楚有没有搞错。 原机器是用于提交spark任务的,我主要复制了hadoop部分(yarn)到另一个机器(B),用B这台机器计划做flink任务的提交。 Zou Dan 于2020年8月23日周日

Re: flink on yarn配置问题

2020-08-23 文章 Zou Dan
Hi, 一旦, root cause 应该是下面这个日志 The number of requested virtual cores for application master 1 exceeds the maximum number of virtual cores 0 available in the Yarn Cluster. 我简单看了一下代码,应该是你们 yarn 节点上没有可用的资源,numYarnMaxVcores = 0 > 2020年8月21日 下午11:11,赵一旦 mailto:hinobl...@gmail.com>> 写道: > > The number

flink on yarn配置问题

2020-08-21 文章 赵一旦
最近想试一下flink on yarn,yarn是公司之前就有的,但之前只运行过spark,现在想试一下flink。 但是不少报错,现在到如下情况了。 23:09:11.181 [main] ERROR com.xxx.Application - Main Method catched exception: {} org.apache.flink.client.deployment.ClusterDeploymentException: Could not deploy Yarn job cluster

回复:答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件

2020-08-20 文章 xiao cai
Hi: 感谢答复,确实是个思路。 不过个人感觉能够在启动第一个container的时候,将本地的lib中的jar文件上传到hdfs中,然后后续的failover的container能够统一从hdfs中获取,这样应该就不会有这个问题了。貌似社区在1.11版本针对jar的拷贝做了优化,我还在看这方面的内容。有进展再交流。 Best, xiao cai 原始邮件 发件人: 范超 收件人: user-zh@flink.apache.org 发送时间: 2020年8月20日(周四) 09:11 主题: 答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会

答复: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件

2020-08-19 文章 范超
: user-zh 主题: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件 如题:link on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件 我的任务时kafka source -> hbase sink 任务申请到新的container后,启动任务时会丢失原本存在的class文件,怀疑是重新申请的container中没有获取到lib中的资源,是否应该将lib中资源放到hdfs?该如何配置。 Best xiao cai 错误堆栈: 2020-08-19 11:23:08,

Re: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件

2020-08-18 文章 xiao cai
发送时间: 2020年8月19日(周三) 13:34 主题: Re: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件 Hi 你的 Flink 是哪个版本,期望的行为是什么样的? 从你给的日志看,是没有 这个 class,这个 是在你放到 lib 下的某个 jar 包里面吗?另外你这个作业第一次运行的时候失败,还是中间中间 failover 之后恢复回来的时候失败呢? Best, Congxian xiao cai 于2020年8月19日周三 下午12:50写道: > 如题:link on Yarn 启

Re: Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件

2020-08-18 文章 Congxian Qiu
Hi 你的 Flink 是哪个版本,期望的行为是什么样的? 从你给的日志看,是没有 这个 class,这个 是在你放到 lib 下的某个 jar 包里面吗?另外你这个作业第一次运行的时候失败,还是中间中间 failover 之后恢复回来的时候失败呢? Best, Congxian xiao cai 于2020年8月19日周三 下午12:50写道: > 如题:link on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件 > > > 我的任务时kafka source -> hbase sink > > >

Flink on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件

2020-08-18 文章 xiao cai
如题:link on Yarn 启动任务,任务重启后貌似taskmanager中会丢失lib中的jar文件 我的任务时kafka source -> hbase sink 任务申请到新的container后,启动任务时会丢失原本存在的class文件,怀疑是重新申请的container中没有获取到lib中的资源,是否应该将lib中资源放到hdfs?该如何配置。 Best xiao cai 错误堆栈: 2020-08-19 11:23:08,099 INFO org.apache.flink.yarn.YarnResourceManager

Re: 求助:flink 1.11.1 yarn perjob 模式配置zookeeper的HA后application提交超时,1.10时正常的

2020-08-13 文章 Yang Wang
perjob模式在1.10到1.11是没有变化的,只是1.11新增了application模式,Zookeeper的HA也没有变化 还是得你分享一下提交失败时候的Client端和JM端的log,这样才能方便查问题 Best, Yang x2009438 于2020年8月13日周四 下午5:35写道: > 各位, > > 今天从1.10.0升级到1.11.1,结果yarn per job 提交作业,配置zookeeper的HA之后作业提交超时,有人碰到过吗? > 看日志也没记录什么。 > > 配置是从1.10.0上粘贴过来的,1.10.0是正常可用的。 > > > > >

求助:flink 1.11.1 yarn perjob 模式配置zookeeper的HA后application提交超时,1.10时正常的

2020-08-13 文章 x2009438
各位, 今天从1.10.0升级到1.11.1,结果yarn per job 提交作业,配置zookeeper的HA之后作业提交超时,有人碰到过吗? 看日志也没记录什么。 配置是从1.10.0上粘贴过来的,1.10.0是正常可用的。 发自我的iPhone

Re:Re: flink1.11.1 flink on yarn 任务启动报错

2020-08-13 文章 郭华威
好的,谢谢! 在 2020-08-13 14:08:07,"Congxian Qiu" 写道: >Hi > > 这应该是个已知问题[1] 在 1.11.2 和 1.12 中已经修复 > >[1] https://issues.apache.org/jira/browse/FLINK-18710 >Best, >Congxian > > >郭华威 于2020年8月13日周四 上午11:05写道: > >> 你好,请教下: >> flink1.

Re: flink1.11.1 flink on yarn 任务启动报错

2020-08-13 文章 Congxian Qiu
Hi 这应该是个已知问题[1] 在 1.11.2 和 1.12 中已经修复 [1] https://issues.apache.org/jira/browse/FLINK-18710 Best, Congxian 郭华威 于2020年8月13日周四 上午11:05写道: > 你好,请教下: > flink1.11.1 flink on yarn 任务启动报错: > > > 启动命令: > /opt/flink-1.11.1/bin/flink run -p 4 -ys 2 -m yarn-cluster -c >

flink on yarn 读取 hbase数据时 ,Task失败,具体描述如下

2020-08-03 文章 张锴
-akka.actor.default-dispatcher-20] ERROR o.a.f.r.r.h.t.TaskManagerDetailsHandler - Unhandled exception. 不清楚出现此错误的原因,请教各位大佬。 问题二:flink on yarn 提交Job的时候我配置了JobManager和TaskManager之外,一般还需要配置什么参数?感觉自己配置的少了些什么。

Re: flink on yarn 读取 hbase数据时 ,Task失败,具体描述如下

2020-07-29 文章 Leonard Xu
Hi,张锴 这个描述看起来没有用的信息呢,既然有任务失败,失败的日志和异常信息可以贴出来看看。或者贴一个可以复现这个失败的case. > 在 2020年7月29日,17:02,张锴 写道: > > flink获取Hbase数据并计算 > 在本地测试没问题,提交到Yarn上出现Task任务失败,无相关日志输出,task任务一直重启。任务失败的地方在数据计算部分。 > 语言:Scala,无堆栈信息输出 Best Leonard

flink on yarn 读取 hbase数据时 ,Task失败,具体描述如下

2020-07-29 文章 张锴
flink获取Hbase数据并计算 在本地测试没问题,提交到Yarn上出现Task任务失败,无相关日志输出,task任务一直重启。任务失败的地方在数据计算部分。 语言:Scala,无堆栈信息输出

?????? flink on yarn????????

2020-07-15 文章 Cayden chen
#per-job-mode gt; gt;gt; gt; gt; gt; gt;[3] gt; gt;gt; gt; gt; gt; gt;gt; https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#run-a-single-flink-job-on-yarn gt; gt;gt; gt; gt; gt; gt; gt; gt;gt; gt; gt; gt; gt; gt; gt;gt; gt; gt; gt; gt;Best, gt; gt;gt; gt; gt; g

?????? flink on yarn????????

2020-07-14 文章 jianxu
/ops/deployment/#per-job-mode [3] https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#run-a-single-flink-job-on-yarn Best, Yangze Guo On Mon, Jul 13, 2020 at 10:49 AM <13162790...@163.com wrote: ??

?????? Re: Re: flink on yarn????????

2020-07-14 文章 Cayden chen
ache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#log-files [2] https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/#per-job-mode [3] https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#run-a-s

Re:Re: Re: flink on yarn日志问题

2020-07-14 文章 nicygan
> > >> > > > >> > > > >> > > > >> > > > >> > > > >> > > > >> > > > >> > > > >> > > > 在 2020-07-13 11:18:46,"Yangze Guo" 写道: >> > > > &

Re:Re: Re: flink on yarn日志问题

2020-07-14 文章 程龙
> > > >> > > > >> > > > >> > > > >> > > > >> > > > >> > > > >> > > > >> > > > >> > > > 在 2020-07-13 11:18:46,"Yangze Guo" 写道: >> > >

Re: Re: flink on yarn日志问题

2020-07-13 文章 zhisheng
t; > > > > > > > >第一个问题,您可以尝试开启Yarn的日志收集功能[1] > > > > > > > > > >第二个问题,您可以尝试一下per-job mode [2][3] > > > > > > > > > >[1] > > > > https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment

Re: Re: flink on yarn日志问题

2020-07-13 文章 Yangze Guo
的日志收集功能[1] > > > > > > > >第二个问题,您可以尝试一下per-job mode [2][3] > > > > > > > >[1] > > https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#log-files > > > >[2] > > https://ci.apache.org/projects/flink/

Re: Re: flink on yarn日志问题

2020-07-13 文章 王松
集功能[1] > > > > > >第二个问题,您可以尝试一下per-job mode [2][3] > > > > > >[1] > https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#log-files > > >[2] > https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployme

Re: Re: flink on yarn日志问题

2020-07-13 文章 Yangze Guo
/zh/ops/deployment/#per-job-mode > >[3] > >https://ci.apache.org/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#run-a-single-flink-job-on-yarn > > > > > >Best, > >Yangze Guo > > > >On Mon, Jul 13, 2020 at 10:49 AM 程龙 <131627

Re: flink on yarn日志问题

2020-07-12 文章 Yangze Guo
/projects/flink/flink-docs-master/zh/ops/deployment/yarn_setup.html#run-a-single-flink-job-on-yarn Best, Yangze Guo On Mon, Jul 13, 2020 at 10:49 AM 程龙 <13162790...@163.com> wrote: > > 请问一下两个问题 > 1 flink on yarn的时候 taskmanager 挂掉的时候 上面的日志会被删除掉 无法查看 ,除了使用es收集日志的这种方案, > 还有没有可以使taskman

flink on yarn日志问题

2020-07-12 文章 程龙
请问一下两个问题 1 flink on yarn的时候 taskmanager 挂掉的时候 上面的日志会被删除掉 无法查看 ,除了使用es收集日志的这种方案, 还有没有可以使taskmanager 挂掉,相关日志仍然可以保留。 2 flink on yarn模式 当由于错误导致taskmanager 挂掉,但是jobmanager 却一直存在, 有没有好的方式或者策略 , 可以是当task失败 达到重试次数之后 taskmanager挂掉,jobmanager也挂掉

【flink web】Flink 1.7 Yarn开启http 的kerberos 认证,去访问flink web 界面的时候出现403.

2020-06-23 文章 tao wang
hi, 请教一个问题: *环境:* yarn 2.9.2 http 开启kerberos hadoop.http.authentication.type kerberos *flink 版本*:官方 1.7.1 *1.10 版本可以正常访问。* 访问 flink 的web 界面的时候报下面这个错误。 [image: D79C0EE4-F084-436B-8944-83677A57A320_4_5005_c.jpeg]

flink on yarn日志web前台动态展示问题

2020-06-15 文章 zjfpla...@hotmail.com
大家好, 我们这边想做flink on yarn日志web前台动态展示的功能。因为没在flink restful api里面找到日志相关的api,现在的想法是这样: 1.web前端编写flink脚本,点击运行调用web后端的执行接口 2.web后端生成此前端任务的taskId,并调用flink驱动包(Pom依赖方式),传入前端脚本+taskId作为入口传参 3.flink驱动包中: A>通过YarnClient启动flink on yarn任务,返回y

Re: 回复:flink on yarn模式的代码运行位置问题

2020-06-11 文章 Yang Wang
于2020年6月11日周四 下午3:55写道: > 未运行在yarn的容器里面,还在服务器java -cp的进程里面 > > > > zjfpla...@hotmail.com > > 发件人: Yichao Yang > 发送时间: 2020-06-11 15:53 > 收件人: user-zh > 主题: 回复:flink on yarn模式的代码运行位置问题 > Hi > > > yarn是用作资源管理调度,你所说的未运行在yarn是没有运行在yarn的服务器上吗? > >

????: ??????flink on yarn??????????????????????

2020-06-11 文章 zjfpla...@hotmail.com
yarn??java -cp?? zjfpla...@hotmail.com Yichao Yang ?? 2020-06-11 15:53 user-zh ?? ??flink on yarn?? Hi yarnyarnyarn?? Best, Yichao Yang

??????flink on yarn??????????????????????

2020-06-11 文章 Yichao Yang
Hi yarnyarnyarn?? Best, Yichao Yang ---- ??:"zjfpla...@hotmail.com"

flink on yarn模式的代码运行位置问题

2020-06-11 文章 zjfpla...@hotmail.com
Hi, 我在使用flink的过程中,有些疑问请教下各位: 1.flink分为jobmanger和taskmanager,我怎么区分哪些代码是运行在jobmanager,哪些在taskmanager? 2.假设我jarA中使用AbstractYarnClusterDescriptor.deployJobCluster()替代flink run命令(想直接通过jar包启动方式直接提交flink任务上yarn),部署jarB到yarn上,jarB中mainClass中使用StreamExecutionEnvironment.execute去执行流任务,通过java

回复:flink on yarn报错 怎么获取

2020-06-02 文章 Sun.Zhu
Hi,air 可以通过日志采集来收集异常日志,然后统一展示并监控告警。 | | Sun.Zhu | | 17626017...@163.com | 签名由网易邮箱大师定制 在2020年06月2日 14:05,阿华田 写道: 这种情况需要对flink任务进行监控 获取flink的任务状态 | | 阿华田 | | a15733178...@163.com | 签名由网易邮箱大师定制 在2020年06月2日 14:03,air23 写道: 今天发现taskmanagers报json解析失败 他一起在重启 但是我们这边是监控yarn 任务级别的。像这种task

回复:flink on yarn报错 怎么获取

2020-06-02 文章 阿华田
对 获取flink任务的metric信息 主要是任务状态 | | 阿华田 | | a15733178...@163.com | 签名由网易邮箱大师定制 在2020年06月2日 14:21,air23 写道: 分钟级别定时去获取metrics? 这样吗 在 2020-06-02 14:05:39,"阿华田" 写道: 这种情况需要对flink任务进行监控 获取flink的任务状态 | | 阿华田 | | a15733178...@163.com | 签名由网易邮箱大师定制 在2020年06月2日 14:03,air23 写道:

Re:回复:flink on yarn报错 怎么获取

2020-06-02 文章 air23
分钟级别定时去获取metrics? 这样吗 在 2020-06-02 14:05:39,"阿华田" 写道: >这种情况需要对flink任务进行监控 获取flink的任务状态 > > >| | >阿华田 >| >| >a15733178...@163.com >| >签名由网易邮箱大师定制 > > >在2020年06月2日 14:03,air23 写道: >今天发现taskmanagers报json解析失败 他一起在重启 >但是我们这边是监控yarn 任务级别的。像这种task 里面报错。yarn任务又不会挂掉。应该怎么去做监控。才能得知

回复:flink on yarn报错 怎么获取

2020-06-02 文章 阿华田
这种情况需要对flink任务进行监控 获取flink的任务状态 | | 阿华田 | | a15733178...@163.com | 签名由网易邮箱大师定制 在2020年06月2日 14:03,air23 写道: 今天发现taskmanagers报json解析失败 他一起在重启 但是我们这边是监控yarn 任务级别的。像这种task 里面报错。yarn任务又不会挂掉。应该怎么去做监控。才能得知 程序后台有问题 谢谢

flink on yarn报错 怎么获取

2020-06-02 文章 air23
今天发现taskmanagers报json解析失败 他一起在重启 但是我们这边是监控yarn 任务级别的。像这种task 里面报错。yarn任务又不会挂掉。应该怎么去做监控。才能得知 程序后台有问题 谢谢

回复:flink on yarn消费开启kerberos的kafka

2020-05-11 文章 Jacky Lau
从开启kerberos 的kafka 消费环境需要加入三个kafka 参数到ddl的properties 中 发自我的iPhone -- 原始邮件 -- 发件人: 蒋佳成(Jiacheng Jiang) <920334...@qq.com 发送时间: 2020年5月9日 16:06 收件人: user-zh

??????flink on yarn????????kerberos??kafka

2020-05-09 文章 ??????(Jiacheng Jiang)
krb5.conf??FLINK_ENV_JAVA_OPTS=-Djava.security.krb5.conf=x/krb5.conf ---- ??: "zjfpla...@hotmail.com"

flink on yarn消费开启kerberos的kafka

2020-05-09 文章 zjfpla...@hotmail.com
大家好, 请问各位flink on yarn如何消费开启kerberos的kafka,以及如何sink到开启kerberos的hbase 现在尝试过在flink-conf.yaml中添加了如下配置: security.kerberos.login.use-ticket-cache: false security.kerberos.login.keytab: /home/zjf/zjf.keytab security.kerberos.login.principal: zjf@TDH

Re: flink 1.7.2 YARN Session模式提交任务问题求助

2020-04-15 文章 tison
> --原始邮件-- > 发件人:"Yangze Guo" 发送时间:2020年4月15日(星期三) 下午3:00 > 收件人:"user-zh" > 主题:Re: flink 1.7.2 YARN Session模式提交任务问题求助 > > > > Flink需要设置hadoop相关conf位置的环境变量 YARN_CONF_DIR or HADOOP_CONF_DIR [1] > > [1] > https://ci.

?????? flink 1.7.2 YARN Session????????????????????

2020-04-15 文章 Chief
hi Yangze Guo ??checkpoint??namenode ha??nameservicecheckpoint ---- ??:"Yangze

Re: Flink On Yarn , ResourceManager is HA , if active ResourceManager changed,what is flink task status ?

2020-04-15 文章 Xintong Song
wrote: > Hi community, > > I have a question about flink on yarn ha , if active resourcemanager > changed, what is the flink task staus. Is flink task running normally? > Should I must restart my flink task to run? > > Thanks to your reply. > > Best, > LakeShen >

Re: flink 1.7.2 YARN Session模式提交任务问题求助

2020-04-15 文章 Yangze Guo
Flink需要设置hadoop相关conf位置的环境变量 YARN_CONF_DIR or HADOOP_CONF_DIR [1] [1] https://ci.apache.org/projects/flink/flink-docs-master/ops/deployment/yarn_setup.html Best, Yangze Guo On Mon, Apr 13, 2020 at 10:52 PM Chief wrote: > > 大家好 > 目前环境是flink 1.7.2,使用YARN Session模式提交任务,Hadoop 版本2.7.3,hdfs >

flink 1.7.2 YARN Session????????????????????

2020-04-13 文章 Chief
?? ??flink 1.7.2??YARN Session??Hadoop 2.7.3??hdfs namenode??haHADOOP_HOME,YARN_CONF_DIR??HADOOP_CONF_DIR??HADOOP_CLASSPATHflink_conf.yamlfs.hdfs.hadoopconf 2020-04-10 19:12:02,908 INFO

flink 1.7.2 YARN Session????????????????????

2020-04-13 文章 Chief
?? ??flink 1.7.2??YARN Session??Hadoop 2.7.3??hdfs namenode??haHADOOP_HOME,YARN_CONF_DIR??HADOOP_CONF_DIR??HADOOP_CLASSPATHflink_conf.yamlfs.hdfs.hadoopconf 2020-04-10 19:12:02,908 INFO

Re: Flink on YARN 使用Kerboros认证失败

2020-03-24 文章 nie...@163.com
对于Flink on YARN,最简单的情况是直接在终端 kinit,就能提交任务。flink本身不用配置。 Can't get Kerberos realm一般是是krb5.conf对应realm的配置的问题。 flink/hado...@example.com <mailto:flink/hado...@example.com> hadoop0不知道是不是主机,这看起来像是个服务的principal 。 这里应该是user的principal 就行了。 > 在 2020年3月24日,下午9:03,巫旭阳 写道: > > 之前在使用ha

Flink on YARN 使用Kerboros认证失败

2020-03-24 文章 aven . wu
Flink 提交作业到有kerboros认证的集群报以下异常 java.lang.Exception: unable to establish the security context at org.apache.flink.runtime.security.SecurityUtils.install(SecurityUtils.java:73) at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:1124) Caused by: java.lang.IllegalArgumentException:

<    1   2   3   >