K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-17 Thread macdoor
大约几十分钟就会restart,请教大佬们有查的思路,每次抛出的错误都是一样的,运行一段时间也会积累很多ConfigMap,下面是一个具体的错误 错误内容 2021-01-17 04:16:46,116 ERROR org.apache.flink.runtime.resourcemanager.StandaloneResourceManager [] - Fatal error occurred in ResourceManager. org.apache.flink.runtime.leaderretrieval.LeaderRetrievalException: Error whi

Re: K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-18 Thread Yang Wang
你搜索一下看看有没有too old resource version的报错 另外,测试一下Pod和APIServer的网络状态,是不是经常断 Best, Yang macdoor 于2021年1月18日周一 上午9:45写道: > 大约几十分钟就会restart,请教大佬们有查的思路,每次抛出的错误都是一样的,运行一段时间也会积累很多ConfigMap,下面是一个具体的错误 > > 错误内容 > > 2021-01-17 04:16:46,116 ERROR > org.apache.flink.runtime.resourcemanager.StandaloneResourceMa

Re: K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-18 Thread macdoor
我查看了一下之前的日志,没有发现 too old resource version,而且连续几个日志都没有其他错误,直接就这个错误,restart,然后就是一个新日志了。 我用的k8s集群似乎网络确实不太稳定,请教一下如何测试Pod和APIServer之间的网络比较容易说明问题?ping?或者什么工具? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-18 Thread Yang Wang
可以用iperf来进行网络的测试,你需要在镜像里面提前安装好 另外,可以打开debug log看一下是不是Watch经过了很多次重试都连不上,才导致失败的 Best, Yang macdoor 于2021年1月18日周一 下午7:08写道: > 我查看了一下之前的日志,没有发现 too old resource > version,而且连续几个日志都没有其他错误,直接就这个错误,restart,然后就是一个新日志了。 > > 我用的k8s集群似乎网络确实不太稳定,请教一下如何测试Pod和APIServer之间的网络比较容易说明问题?ping?或者什么工具? > > > > -- >

Re: K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-18 Thread macdoor
多谢!打开了DEBUG日志,仍然只有最后一个ERROR,不过之前有不少包含 kubernetes.client.dsl.internal.WatchConnectionManager 的日志,grep 了一部分,能看出些什么吗? job-debug-0118.log:2021-01-19 02:12:25,551 DEBUG io.fabric8.kubernetes.client.dsl.internal.WatchConnectionManager [] - WebSocket successfully opened job-debug-0118.log:2021-01-19 02:

Re: K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-18 Thread Yang Wang
看着是有很多Connecting websocket 和 Scheduling reconnect task的log 我觉得还是你的Pod和APIServer的网络不是很稳定 另外,可以的话,你把DEBUG级别的JobManager完整log发一下 Best, Yang macdoor 于2021年1月19日周二 上午9:31写道: > 多谢!打开了DEBUG日志,仍然只有最后一个ERROR,不过之前有不少包含 > kubernetes.client.dsl.internal.WatchConnectionManager 的日志,grep > 了一部分,能看出些什么吗? > >

Re: K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-18 Thread macdoor
可以的,怎么发给你? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-19 Thread Yang Wang
通过附件或者你上传到第三方的存储,然后在这里共享一下链接 macdoor 于2021年1月19日周二 下午12:44写道: > 可以的,怎么发给你? > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ >

Re: K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-19 Thread macdoor
https://pan.baidu.com/s/1GHdfeF2y8RUW_Htgdn4KbQ 提取码: piaf -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-20 Thread macdoor
拿到了吗?有什么发现吗? -- Sent from: http://apache-flink.147419.n8.nabble.com/