Re:Re: Re: Re: Re: flink on yarn 异常停电问题咨询

2023-03-13 文章 guanyq
我昨天模拟下断电的情况 10个ha文件的日期是错开的5秒一个 chk-xxx也不是都损坏了,有的是可以启动的,这个我也试了 现在情况是 yarn集群停电重启首先会循环尝试从10个ha的文件中启动应用,ha文件记录的chk的相关原数据 1.如果ha文件都损坏了,即使chk没有损坏,flink应用也是拉不起来的 现在想的是让hdfs上存在至少1组个可用的的ha文件及其对应的chk 现在是5秒一个chk,保存了10个,也会出现损坏无法启动的问题 5秒*10 = 50秒,也想知道多长时间的存档才能保证存在一组没有损坏ha和chk呢。 在 2023-03-14 10

Re: Re: Re: Re: flink on yarn 异常停电问题咨询

2023-03-13 文章 Guojun Li
Hi 确认一下这些 ha 文件的 last modification time 是一致的还是错开的? 另外,指定 chk- 恢复尝试了没有?可以恢复吗? Best, Guojun On Fri, Mar 10, 2023 at 11:56 AM guanyq wrote: > flink ha路径为 /tmp/flink/ha/ > flink chk路径为 /tmp/flink/checkpoint > > > 我现在不确定是这个ha的文件损坏了,还是所有chk都损坏,但是这个需要模拟验证一下。 > > > > > 会尝试从10个chk恢复,日志有打印 > 2023-03-07

Re: Re: flink on yarn关于yarn尝试重启flink job问题咨询

2023-03-13 文章 Weihua Hu
图片看不到,可以找一个图床上传图片,在邮件列表中贴一下链接。 YARN 拉起 AM 还受 "yarn.application-attempt-failures-validity-interval"[1] 控制,在这个时间内达到指定次数才会退出。 [1] https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#yarn-application-attempt-failures-validity-interval Best, Weihua On Mon, Mar 13, 2023 at 4

Re:Re: Re: Re: flink on yarn 异常停电问题咨询

2023-03-09 文章 guanyq
flink ha路径为 /tmp/flink/ha/ flink chk路径为 /tmp/flink/checkpoint 我现在不确定是这个ha的文件损坏了,还是所有chk都损坏,但是这个需要模拟验证一下。 会尝试从10个chk恢复,日志有打印 2023-03-0718:37:43,703INFOorg.apache.flink.runtime.checkpoint.ZooKeeperCompletedCheckpointStore - Recovering checkpoints from ZooKeeper. 2023-03-0718:37:43,730INFOorg.a

Re: Re: Re: flink on yarn 异常停电问题咨询

2023-03-09 文章 Weihua Hu
Hi 一般来说只是 YARN 集群异常停电不会影响已经完成的历史 Checkpoint(最后一次 Checkpoint 可能会写 hdfs 异常) 有更详细的 JobManager 日志吗?可以先确认下 Flink 在恢复时检索到了多少个 completedCheckpoint 以及最终尝试从哪一次 cp 恢复的。 也可以尝试按照 Yanfei 所说指定历史的 cp 作为 savepoint 恢复 Best, Weihua On Fri, Mar 10, 2023 at 10:38 AM guanyq wrote: > 没有开启增量chk > 文件损坏是看了启动日志,启动日

Re: Re: flink on yarn 异常停电问题咨询

2023-03-09 文章 Yanfei Lei
Hi 可以尝试去flink配置的checkpoint dir下面去找一找历史chk-x文件夹,如果能找到历史的chk-x,可以尝试手工指定 chk重启[1]。 > flink任务是10个checkpoint,每个checkpoint间隔5秒,如果突然停电,为什么所有的checkpoint都损坏了。 请问作业开启增量checkpoint了吗?在开启了增量的情况下,如果是比较早的一个checkpoint的文件损坏了,会影响后续基于它进行增量的checkpoint。 > checkpoint落盘的机制,这个应该和hdfs写入有关系,flink任务checkpoint成功,但是hdfs却没有落盘

Re: Re: flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-31 文章 Yang Wang
HA在ZK里面记录了最后一次成功的checkpoint counter和地址,没有启用HA的话,就是从指定的savepoint恢复的。 Best, Yang 刘建刚 于2021年5月28日周五 下午6:51写道: > 那应该是master failover后把快照信息丢失了,ha应该能解决这个问题。 > > 董建 <62...@163.com> 于2021年5月28日周五 下午6:24写道: > > > 稳定复现 > > checkpoint 正常生成,在web ui和hdfs目录里边都可以确认。 > > 我们jobmanager没有做ha,不知道是否是这个原因导致的? > > 日

Re: Re: flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-28 文章 刘建刚
那应该是master failover后把快照信息丢失了,ha应该能解决这个问题。 董建 <62...@163.com> 于2021年5月28日周五 下午6:24写道: > 稳定复现 > checkpoint 正常生成,在web ui和hdfs目录里边都可以确认。 > 我们jobmanager没有做ha,不知道是否是这个原因导致的? > 日志里边能看到是从指定的-s恢复的,没有指定-s的时候,重启的时候也并没有使用最新的checkpoint文件。 > 目前这个问题困扰了我很久,也没有一个好的思路,下一步先把ha搞起来再试试。 > >> org.apache.flink.configura

Re: Re: flink on yarn启动失败

2020-12-23 文章 magichuang
感谢感谢感谢!!! 原来是这样,以为solt 缩写就是-s了,,,感谢这位朋友的解答,已经可以提交了~ > -- 原始邮件 -- > 发 件 人:"Yang Wang" > 发送时间:2020-12-24 11:01:46 > 收 件 人:user-zh > 抄 送: > 主 题:Re: flink on yarn启动失败 > > 你这个命令写的有点问题,flink run -m yarn-cluster -ynm traffic -s 2 -p 2 -ytm 1024 -py > traffic.py > > 应该是

Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk
Hi,您好,请问如何拼接url可以看到已经结束了的任务的tm日志文件呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk
您好,请问一下,如何通过拼接url获取已经结束的任务的tm日志呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

?????? Re: Re: flink on yarn????????

2020-07-14 文章 Cayden chen
--  -- ??: "user-zh"

Re: Re: Re: flink on yarn日志问题

2020-07-14 文章 Yangze Guo
Flink在1.11开始默认使用log4j2, log4j2已经有了很多appender[1]可以用来将日志输出到外部系统或服务。 [1] https://logging.apache.org/log4j/2.x/manual/appenders.html Best, Yangze Guo On Tue, Jul 14, 2020 at 4:46 PM nicygan wrote: > > 是有这个毛病,看TM日志不方便。 > > 而且本地日志过几小时就会被清理,时间一久就看不到了,只剩JM日志。 > > > > > > > 在 2020-07-14 12:35:06,"zhishe

Re: Re: flink on yarn日志问题

2020-07-13 文章 zhisheng
知道 YARN 的 applicationId,应该也可以去 HDFS 找对应的 taskmanager 的日志(可以拼出路径),然后复制到本地去查看 Yangze Guo 于2020年7月14日周二 上午11:58写道: > Hi, 王松 > > 我理解拼接url就可以了,不用实际去登陆机器然后进到对应目录。 > > Best, > Yangze Guo > > On Tue, Jul 14, 2020 at 8:26 AM 王松 wrote: > > > > 我们也有问题 1,和 Yangze Guo 说的一样,每次都要去对应的tm目录中去找日志,很麻烦,不知道有没有更简单的办法

Re: Re: flink on yarn日志问题

2020-07-13 文章 Yangze Guo
Hi, 王松 我理解拼接url就可以了,不用实际去登陆机器然后进到对应目录。 Best, Yangze Guo On Tue, Jul 14, 2020 at 8:26 AM 王松 wrote: > > 我们也有问题 1,和 Yangze Guo 说的一样,每次都要去对应的tm目录中去找日志,很麻烦,不知道有没有更简单的办法。 > > Yangze Guo 于2020年7月13日周一 下午5:03写道: > > > 1. > > 我验证了一下,如果开启了日志收集,那tm的日志是会保存的,但是你整个application结束前可能看不到,有一个trick的方法,首先在jm日志中找到t

Re: Re: flink on yarn日志问题

2020-07-13 文章 王松
我们也有问题 1,和 Yangze Guo 说的一样,每次都要去对应的tm目录中去找日志,很麻烦,不知道有没有更简单的办法。 Yangze Guo 于2020年7月13日周一 下午5:03写道: > 1. > 我验证了一下,如果开启了日志收集,那tm的日志是会保存的,但是你整个application结束前可能看不到,有一个trick的方法,首先在jm日志中找到tm分配到了哪个NodeManager上,通过拼接url的方式来获取container的日志 > 2. 你是否需要调整一下重启策略[1]? 如果开启了ck,默认情况下就会一直尝试重启job > > [1] > https://ci

Re: Re: flink on yarn日志问题

2020-07-13 文章 Yangze Guo
1. 我验证了一下,如果开启了日志收集,那tm的日志是会保存的,但是你整个application结束前可能看不到,有一个trick的方法,首先在jm日志中找到tm分配到了哪个NodeManager上,通过拼接url的方式来获取container的日志 2. 你是否需要调整一下重启策略[1]? 如果开启了ck,默认情况下就会一直尝试重启job [1] https://ci.apache.org/projects/flink/flink-docs-master/zh/dev/task_failure_recovery.html Best, Yangze Guo On Mon, Jul

Re: Re: flink on yarn任务启动报错 The assigned slot container_e10_1579661300080_0005_01_000002_0 was removed.

2020-01-28 文章 郑 洁锋
没有log,只有err和out,out为空 zjfpla...@hotmail.com 发件人: tison<mailto:wander4...@gmail.com> 发送时间: 2020-01-24 10:03 收件人: user-zh<mailto:user-zh@flink.apache.org> 抄送: zhisheng2018<mailto:zhisheng2...@gmail.com> 主题: Re: Re: flink on yarn任务启动报错

Re: Re: flink on yarn任务启动报错 The assigned slot container_e10_1579661300080_0005_01_000002_0 was removed.

2020-01-23 文章 tison
你上面的是 taskmanager.err,需要的是 taskmanager.log Best, tison. 郑 洁锋 于2020年1月23日周四 下午10:22写道: > 之前挂过 后面启动的时候 是checkpoints的文件丢了? 你是这个意思吗? > > > zjfpla...@hotmail.com > > 发件人: zhisheng > 发送时间: 2020-01-22 16:45 > 收件人: user-zh

Re: Re: flink on yarn任务启动报错 The assigned slot container_e10_1579661300080_0005_01_000002_0 was removed.

2020-01-23 文章 郑 洁锋
之前挂过 后面启动的时候 是checkpoints的文件丢了? 你是这个意思吗? zjfpla...@hotmail.com 发件人: zhisheng 发送时间: 2020-01-22 16:45 收件人: user-zh 主题: Re: flink on yarn任务启动报错 The assigned slot container_e10_1579661300080_0005_01_

Re: Re: flink on yarn任务启动报错 The assigned slot container_e10_1579661300080_0005_01_000002_0 was removed.

2020-01-23 文章 郑 洁锋
日志已经在前面的邮件里面了 zjfpla...@hotmail.com 发件人: tison<mailto:wander4...@gmail.com> 发送时间: 2020-01-22 12:10 收件人: user-zh<mailto:user-zh@flink.apache.org> 主题: Re: Re: flink on yarn任务启动报错 The assigned slot container_e10_1579661300080_0005_01_02_0 was remove

Re: Re: flink on yarn任务启动报错 The assigned slot container_e10_1579661300080_0005_01_000002_0 was removed.

2020-01-21 文章 tison
那你看下 TM 那台机器上的 TM 日志,从 JM 端来看 TM 曾经成功起来过并注册了自己,你看看 TM 是怎么挂的或者别的什么情况 Best, tison. 郑 洁锋 于2020年1月22日周三 上午11:54写道: > TM没有起来,服务器本身内存cpu都是够的,还很空闲 > > > zjfpla...@hotmail.com > > 发件人: tison > 发送时间: 2020-01-22 11:25 > 收件人: user-zh

Re: Re: flink on yarn任务启动报错 The assigned slot container_e10_1579661300080_0005_01_000002_0 was removed.

2020-01-21 文章 郑 洁锋
TM没有起来,服务器本身内存cpu都是够的,还很空闲 zjfpla...@hotmail.com 发件人: tison 发送时间: 2020-01-22 11:25 收件人: user-zh 主题: Re: flink on yarn任务启动报错 The assigned slot container_e10_1579661300080_0005_01_02_0 was removed. 2

Re: Re: flink on yarn jdk版本问题

2020-01-15 文章 郑 洁锋
果然是,yarn上的jdk版本升级后就可以了。。 zjfpla...@hotmail.com 发件人: tison<mailto:wander4...@gmail.com> 发送时间: 2020-01-15 14:22 收件人: user-zh<mailto:user-zh@flink.apache.org> 抄送: Benchao Li<mailto:libenc...@gmail.com> 主题: Re: Re: flink on yarn jdk版本问题 玄学问题,升级 JDK

Re: Re: flink on yarn jdk版本问题

2020-01-14 文章 tison
玄学问题,升级 JDK 小版本可接,或与类型擦除有关 你可以share一下 JM 侧的日志,应该有作业执行异常 Best, tison. 郑 洁锋 于2020年1月15日周三 下午2:17写道: > Hi, > > 非常感谢,可以了,我在flink-conf.yaml中添加了如下配置项即可正常运行 yarn-session.sh了,且Flink > Dashboard也能正常查看了 > > containerized.master.env.JAVA_HOME: /usr/java/jdk1.8.0_25/ > > containeriz

Re: Re: flink on yarn jdk版本问题

2020-01-14 文章 郑 洁锋
Hi, 非常感谢,可以了,我在flink-conf.yaml中添加了如下配置项即可正常运行 yarn-session.sh了,且Flink Dashboard也能正常查看了 containerized.master.env.JAVA_HOME: /usr/java/jdk1.8.0_25/ containerized.taskmanager.env.JAVA_HOME: /usr/java/jdk1.8.0_25/ 但是在运行官方例子https://ci.apache.org/projects/flink/flink-docs-relea

Re: Re: flink on yarn 指定节点开启 yarn session 报错

2019-11-26 文章 tison
确实是 historyserver.web.port 的默认值,但我记得 HistoryServer 默认是不启动的 总之可以确认下问题能否稳定复现,失败的瞬间端口有无被占用,以及换个端口能不能起来 如果还不行再找找其他原因 Best, tison. Yangze Guo 于2019年11月27日周三 上午11:23写道: > 8082我记得是historyserver.web.port的默认值,很可能是冲突了改成8081呢? > > Best, > Yangze Guo > > On Wed, Nov 27, 2019 at 11:13 AM 杨浩程 wrote: > >

Re: Re: flink on yarn 指定节点开启 yarn session 报错

2019-11-26 文章 Yangze Guo
8082我记得是historyserver.web.port的默认值,很可能是冲突了改成8081呢? Best, Yangze Guo On Wed, Nov 27, 2019 at 11:13 AM 杨浩程 wrote: > > > 好的,更改过的配置如下: > > #==