好吧,这次我就不贴图了,我想问个问题,就是在使用flink stanalone的过程中,我的集群很不稳定,经常跑一个晚上出现task
manager进程挂掉的问题,看日志是heartbeat timeout。
我修改了配置如下,还是有问题,想请教下有没有什么解决办法。
taskmanager.heap.size: 100gb
taskmanager.memory.off-heap: true
taskmanager.memory.preallocate: true
taskmanager.memory.size: 32gb

taskmanager.network.memory.min: 1gb
taskmanager.network.memory.max: 8gb
taskmanager.network.memory.buffers-per-channel: 8

taskmanager.jvm-exit-on-oom: true


Yangze Guo <karma...@gmail.com> 于2019年4月26日周五 下午2:14写道:

> Hi,
>
> 目前apache邮件列表不支持附件[1]
> 可将问题提至jira[2]或提供图片链接
>
> [1] https://commons.apache.org/mail-lists.html
> [2] https://issues.apache.org/jira/projects/FLINK/summary
>
> Best,
> Yangze Guo
>
> Best,
> Yangze Guo
>
>
> On Fri, Apr 26, 2019 at 11:01 AM Xintong Song <tonysong...@gmail.com>
> wrote:
> >
> > hi naisili,
> >
> > 我没有在你的邮件里看到任何附件、截图或者文字描述的错误,麻烦你再确认一次。
> >
> > Thank you~
> >
> > Xintong Song
> >
> >
> >
> > On Fri, Apr 26, 2019 at 10:46 AM naisili Yuan <yuanlong1...@gmail.com>
> > wrote:
> >
> > > 还是集群稳定性问题,发现了这个错误,我想问下是不是我配置集群高可用的问题,是否不依赖zookeeper会更稳定一点。
> > > 希望得到回复,谢谢!
> > >
> > > naisili Yuan <yuanlong1...@gmail.com> 于2019年4月22日周一 下午2:23写道:
> > >
> > >> 不好意思,我忘记贴图了。
> > >> 我的flink standalone集群挂了,查看日志,看到截图上的错误
> > >> 我自己分析不明白,谷歌也查不到对应的问题。希望能得到你们的帮助,谢谢!
> > >>
> > >> 问题描述:我正在运行任务的flink集群跑了两天后挂掉了,原因是所有taskmanager进程全部挂了,只有一个jobmanager还在。
> > >>
> > >>
> 集群环境:5台centos7的机器,32核,256GB内存,2个jobmanager,5个taskmanager,每台机器32个slots。jobmanager使用zookeeper做了高可用。
> > >> 初步分析原因:zookeeper的问题
> > >> 另外:不小心把日志清理了,没法粘贴文字了~
> > >>
> > >> Xintong Song <tonysong...@gmail.com> 于2019年4月22日周一 下午1:27写道:
> > >>
> > >>> Hi naisili,
> > >>>
> > >>> This is the user-zh mailing list, so if you speak Chinese you can ask
> > >>> questions in Chinese. If you prefer using English, you can send
> emails to
> > >>> u...@flink.apache.org. Hope that helps you.
> > >>>
> > >>> BTW, I think you forgot to attache the screenshot.
> > >>>
> > >>> Thank you~
> > >>>
> > >>> Xintong Song
> > >>>
> > >>>
> > >>>
> > >>> On Mon, Apr 22, 2019 at 10:53 AM naisili Yuan <
> yuanlong1...@gmail.com>
> > >>> wrote:
> > >>>
> > >>> > I use standalone cluster on flink, and i use zookeeper for the
> > >>> jobmanager
> > >>> > HA.
> > >>> > The Screenshot is my taskmanager proccess down log, falte a error.
> > >>> > And is don't know why it failed, even i google the error.
> > >>> > Ask for help, thanks.
> > >>> >
> > >>> >
> > >>> >
> > >>>
> > >>
>

回复