hi,Benchao,
是的,任务失败时,右流出现了反压,已经连续两天出现这个问题了,我看下为啥会出现反压,感谢!
Benchao Li 于2020年12月10日周四 上午11:28写道:
> 你可以检查下在Checkpoint失败的时候是不是任务已经在反压了,
> 看起来是有可能因为反压导致的Checkpoint超时失败。
>
> song wang 于2020年12月10日周四 上午10:59写道:
>
> > 各位好,
> > 两个流进行interval join,时间窗口是
> -23h,+1h,任务
各位好,
两个流进行interval join,时间窗口是 -23h,+1h,任务可以正常运行23小时左右,之后便报错checkpoint失败,jobmanager
log中的报错信息为:
2020-12-10 10:46:51,813 INFO org.apache.flink.runtime.checkpoint.
CheckpointCoordinator - Checkpoint 143 of job
ee4114a1c5413bd02a68b1165090578e expired before completing.
n,可是只有这一个有问题
> >
> 这个不一定的,ZK 的问题不见得是整个服务不可用,可能是与当前应用相关的某个状态出现了问题,造成只有这个作业的后续服务受到影响。
>
> 我这边也只能是根据你的描述猜测可能的原因。是否方便提供下完整的 JM 日志,我这边看下是否能有所发现?
>
> Thank you~
>
> Xintong Song
>
>
>
> On Wed, Aug 26, 2020 at 5:16 PM song wang
> wrote:
>
> > 如果是zk 问题的话,我理解影
如果是zk 问题的话,我理解影响的应该是所有的yarnsession,可是只有这一个有问题
Xintong Song 于2020年8月26日 周三16:50写道:
> 按照我们目前掌握的信息,我这边的初步判断是 ZK 的问题。至于具体 ZK 什么问题,建议你咨询一下 ZK 的专家,看一下为什么节点 create
>
> 不成功。这方面我也不是很熟悉。
>
>
>
> Thank you~
>
>
>
> Xintong Song
>
>
>
>
>
>
>
> On Wed
a problem with this
instance. Terminating now.
Xintong Song 于2020年8月26日 周三16:50写道:
> 按照我们目前掌握的信息,我这边的初步判断是 ZK 的问题。至于具体 ZK 什么问题,建议你咨询一下 ZK 的专家,看一下为什么节点 create
>
> 不成功。这方面我也不是很熟悉。
>
>
>
> Thank you~
>
>
>
> Xintong Song
>
>
>
>
>
>
>
> On Wed, Au
有 "Disconnect job manager xxx
>
> > for job xxx from the resource manager." 这样的信息,描述的是 RM 主动断开了与 JM 的连接。
>
> > 另外,ZK 这个报错是只出现了一次,还是对每个提交后无法调度的作业都出现了?
>
> >
>
> > Thank you~
>
> >
>
> > Xintong Song
>
> >
>
> &g
Keeper),排查下 HA
> 的服务状态是否正常。
>
>
> > 3. 有什么办法可以恢复吗?
>
> 要根据具体原因才能知道如何恢复。
> 你现在是 yarn-session 上还有正在运行的作业吗?有可能试下停掉再重启 yarn-session 吗?
> 或者集群上是否有资源可以不停当前 session 再新起一个下看是否能正常工作?资源应该够的吧,这么长时间的话之前起的 TM 应该都释放了。
>
>
> Thank you~
>
> Xintong Song
>
>
>
> On Tu
est server 的表现则是找不到新的
> leader 无法提交新的作业。
>
> Thank you~
>
> Xintong Song
>
>
>
> On Tue, Aug 25, 2020 at 4:50 PM song wang
> wrote:
>
> > hi, Xintong:
> >
> > 我仔细查看了下日志,发现在报错"Could not resolve ResourceManager addre
ink session,然后往这个 session
> 里提交作业,一开始能正常提交运行,后来再作业开始出现问题?
>
> 具体问题的原因还是要看日志才能确定,这个有可能是 ResourceManager,也有可能是 HA 或者 Akka 的问题,仅凭现象描述很难判断。
>
>
> Thank you~
>
> Xintong Song
>
>
>
> On Tue, Aug 25, 2020 at 10:23 AM song wang
> wrote:
>
> >
> >
> 你好,这
ng Song
>
>
>
> On Tue, Aug 25, 2020 at 10:23 AM song wang
> wrote:
>
> >
> >
> 你好,这个报错是任务启动了很长一段时间后才发生的,之前一直正常运行,出现这个报错后就提交不了任务了,感觉是ResourceManager出现了问题,ResourceManager有可能自己死掉吗?
> > 另外,这个现场还没有关掉,有什么办法排查下jobmaster和ResourceManager是否正常吗?
> >
kka 的 actor system,以及注册的路径是否和 JM 尝试连接的路径一致。
>
>
> Thank you~
>
> Xintong Song
>
>
>
> On Mon, Aug 24, 2020 at 3:41 PM song wang
> wrote:
>
> > 各位老哥, flink
> > 运行在yarn上,偶尔报错无法解析ResourceManager地址,可是从对应的host上查找是有flink进程的,请问是什么原因呢?
> > flink 版本1.9.0
各位老哥, flink
运行在yarn上,偶尔报错无法解析ResourceManager地址,可是从对应的host上查找是有flink进程的,请问是什么原因呢?
flink 版本1.9.0
部分日志如下:
```
2020-08-24 15:11:31,566 INFO org.apache.flink.runtime.jobmaster.JobMaster
- Could not resolve ResourceManager address
akka.tcp://flink@hostname:16098/user/resourcemanager,
对,就是这个原因
Leonard Xu 于2020年8月3日周一 上午10:26写道:
> Hi
>
> > 在 2020年8月3日,10:16,song wang 写道:
> >
> > 查询 integer
>
> 如果MySQL中数据类型是 INT UNSIGNED,Flink 中 对应的类型是 BIGINT,
> 你检查下是不是这个原因,类型映射可以参考[1]
>
> Best
> Leonard
> [1]
> https://ci.apache.org/proje
13 matches
Mail list logo