Re: interval join 时checkpoint失败

2020-12-09 文章 song wang
hi,Benchao, 是的,任务失败时,右流出现了反压,已经连续两天出现这个问题了,我看下为啥会出现反压,感谢! Benchao Li 于2020年12月10日周四 上午11:28写道: > 你可以检查下在Checkpoint失败的时候是不是任务已经在反压了, > 看起来是有可能因为反压导致的Checkpoint超时失败。 > > song wang 于2020年12月10日周四 上午10:59写道: > > > 各位好, > > 两个流进行interval join,时间窗口是 > -23h,+1h,任务

interval join 时checkpoint失败

2020-12-09 文章 song wang
各位好, 两个流进行interval join,时间窗口是 -23h,+1h,任务可以正常运行23小时左右,之后便报错checkpoint失败,jobmanager log中的报错信息为: 2020-12-10 10:46:51,813 INFO org.apache.flink.runtime.checkpoint. CheckpointCoordinator - Checkpoint 143 of job ee4114a1c5413bd02a68b1165090578e expired before completing.

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang
n,可是只有这一个有问题 > > > 这个不一定的,ZK 的问题不见得是整个服务不可用,可能是与当前应用相关的某个状态出现了问题,造成只有这个作业的后续服务受到影响。 > > 我这边也只能是根据你的描述猜测可能的原因。是否方便提供下完整的 JM 日志,我这边看下是否能有所发现? > > Thank you~ > > Xintong Song > > > > On Wed, Aug 26, 2020 at 5:16 PM song wang > wrote: > > > 如果是zk 问题的话,我理解影

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang
如果是zk 问题的话,我理解影响的应该是所有的yarnsession,可是只有这一个有问题 Xintong Song 于2020年8月26日 周三16:50写道: > 按照我们目前掌握的信息,我这边的初步判断是 ZK 的问题。至于具体 ZK 什么问题,建议你咨询一下 ZK 的专家,看一下为什么节点 create > > 不成功。这方面我也不是很熟悉。 > > > > Thank you~ > > > > Xintong Song > > > > > > > > On Wed

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang
a problem with this instance. Terminating now. Xintong Song 于2020年8月26日 周三16:50写道: > 按照我们目前掌握的信息,我这边的初步判断是 ZK 的问题。至于具体 ZK 什么问题,建议你咨询一下 ZK 的专家,看一下为什么节点 create > > 不成功。这方面我也不是很熟悉。 > > > > Thank you~ > > > > Xintong Song > > > > > > > > On Wed, Au

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 song wang
有 "Disconnect job manager xxx > > > for job xxx from the resource manager." 这样的信息,描述的是 RM 主动断开了与 JM 的连接。 > > > 另外,ZK 这个报错是只出现了一次,还是对每个提交后无法调度的作业都出现了? > > > > > > Thank you~ > > > > > > Xintong Song > > > > > &g

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 song wang
Keeper),排查下 HA > 的服务状态是否正常。 > > > > 3. 有什么办法可以恢复吗? > > 要根据具体原因才能知道如何恢复。 > 你现在是 yarn-session 上还有正在运行的作业吗?有可能试下停掉再重启 yarn-session 吗? > 或者集群上是否有资源可以不停当前 session 再新起一个下看是否能正常工作?资源应该够的吧,这么长时间的话之前起的 TM 应该都释放了。 > > > Thank you~ > > Xintong Song > > > > On Tu

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 song wang
est server 的表现则是找不到新的 > leader 无法提交新的作业。 > > Thank you~ > > Xintong Song > > > > On Tue, Aug 25, 2020 at 4:50 PM song wang > wrote: > > > hi, Xintong: > > > > 我仔细查看了下日志,发现在报错"Could not resolve ResourceManager addre

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 song wang
ink session,然后往这个 session > 里提交作业,一开始能正常提交运行,后来再作业开始出现问题? > > 具体问题的原因还是要看日志才能确定,这个有可能是 ResourceManager,也有可能是 HA 或者 Akka 的问题,仅凭现象描述很难判断。 > > > Thank you~ > > Xintong Song > > > > On Tue, Aug 25, 2020 at 10:23 AM song wang > wrote: > > > > > > 你好,这

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 song wang
ng Song > > > > On Tue, Aug 25, 2020 at 10:23 AM song wang > wrote: > > > > > > 你好,这个报错是任务启动了很长一段时间后才发生的,之前一直正常运行,出现这个报错后就提交不了任务了,感觉是ResourceManager出现了问题,ResourceManager有可能自己死掉吗? > > 另外,这个现场还没有关掉,有什么办法排查下jobmaster和ResourceManager是否正常吗? > >

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 song wang
kka 的 actor system,以及注册的路径是否和 JM 尝试连接的路径一致。 > > > Thank you~ > > Xintong Song > > > > On Mon, Aug 24, 2020 at 3:41 PM song wang > wrote: > > > 各位老哥, flink > > 运行在yarn上,偶尔报错无法解析ResourceManager地址,可是从对应的host上查找是有flink进程的,请问是什么原因呢? > > flink 版本1.9.0

报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 song wang
各位老哥, flink 运行在yarn上,偶尔报错无法解析ResourceManager地址,可是从对应的host上查找是有flink进程的,请问是什么原因呢? flink 版本1.9.0 部分日志如下: ``` 2020-08-24 15:11:31,566 INFO org.apache.flink.runtime.jobmaster.JobMaster - Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager,

Re: flink 1.11.0 conenctor-jdbc 报错

2020-08-02 文章 song wang
对,就是这个原因 Leonard Xu 于2020年8月3日周一 上午10:26写道: > Hi > > > 在 2020年8月3日,10:16,song wang 写道: > > > > 查询 integer > > 如果MySQL中数据类型是 INT UNSIGNED,Flink 中 对应的类型是 BIGINT, > 你检查下是不是这个原因,类型映射可以参考[1] > > Best > Leonard > [1] > https://ci.apache.org/proje