好吧,这次我就不贴图了,我想问个问题,就是在使用flink stanalone的过程中,我的集群很不稳定,经常跑一个晚上出现task manager进程挂掉的问题,看日志是heartbeat timeout。 我修改了配置如下,还是有问题,想请教下有没有什么解决办法。 taskmanager.heap.size: 100gb taskmanager.memory.off-heap: true taskmanager.memory.preallocate: true taskmanager.memory.size: 32gb
taskmanager.network.memory.min: 1gb taskmanager.network.memory.max: 8gb taskmanager.network.memory.buffers-per-channel: 8 taskmanager.jvm-exit-on-oom: true Yangze Guo <karma...@gmail.com> 于2019年4月26日周五 下午2:14写道: > Hi, > > 目前apache邮件列表不支持附件[1] > 可将问题提至jira[2]或提供图片链接 > > [1] https://commons.apache.org/mail-lists.html > [2] https://issues.apache.org/jira/projects/FLINK/summary > > Best, > Yangze Guo > > Best, > Yangze Guo > > > On Fri, Apr 26, 2019 at 11:01 AM Xintong Song <tonysong...@gmail.com> > wrote: > > > > hi naisili, > > > > 我没有在你的邮件里看到任何附件、截图或者文字描述的错误,麻烦你再确认一次。 > > > > Thank you~ > > > > Xintong Song > > > > > > > > On Fri, Apr 26, 2019 at 10:46 AM naisili Yuan <yuanlong1...@gmail.com> > > wrote: > > > > > 还是集群稳定性问题,发现了这个错误,我想问下是不是我配置集群高可用的问题,是否不依赖zookeeper会更稳定一点。 > > > 希望得到回复,谢谢! > > > > > > naisili Yuan <yuanlong1...@gmail.com> 于2019年4月22日周一 下午2:23写道: > > > > > >> 不好意思,我忘记贴图了。 > > >> 我的flink standalone集群挂了,查看日志,看到截图上的错误 > > >> 我自己分析不明白,谷歌也查不到对应的问题。希望能得到你们的帮助,谢谢! > > >> > > >> 问题描述:我正在运行任务的flink集群跑了两天后挂掉了,原因是所有taskmanager进程全部挂了,只有一个jobmanager还在。 > > >> > > >> > 集群环境:5台centos7的机器,32核,256GB内存,2个jobmanager,5个taskmanager,每台机器32个slots。jobmanager使用zookeeper做了高可用。 > > >> 初步分析原因:zookeeper的问题 > > >> 另外:不小心把日志清理了,没法粘贴文字了~ > > >> > > >> Xintong Song <tonysong...@gmail.com> 于2019年4月22日周一 下午1:27写道: > > >> > > >>> Hi naisili, > > >>> > > >>> This is the user-zh mailing list, so if you speak Chinese you can ask > > >>> questions in Chinese. If you prefer using English, you can send > emails to > > >>> u...@flink.apache.org. Hope that helps you. > > >>> > > >>> BTW, I think you forgot to attache the screenshot. > > >>> > > >>> Thank you~ > > >>> > > >>> Xintong Song > > >>> > > >>> > > >>> > > >>> On Mon, Apr 22, 2019 at 10:53 AM naisili Yuan < > yuanlong1...@gmail.com> > > >>> wrote: > > >>> > > >>> > I use standalone cluster on flink, and i use zookeeper for the > > >>> jobmanager > > >>> > HA. > > >>> > The Screenshot is my taskmanager proccess down log, falte a error. > > >>> > And is don't know why it failed, even i google the error. > > >>> > Ask for help, thanks. > > >>> > > > >>> > > > >>> > > > >>> > > >> >