今天远程调试了下,目前发现开启远程调试情况,启动后是ok的?

yidan zhao <hinobl...@gmail.com> 于2022年8月26日周五 00:01写道:
>
> 这个问题有人知道吗,目前反复实验确定有问题。
>
> 经过多次测试,目前初步怀疑。 并不是单 JM 就会有问题。多JM也有问题。
>
> 出问题的是JM为leader的机器。 比如ABCD4台机器,如果A的JM是leader,那么A机器启动的TM就是127.0.0.1。
>
>
>
> yidan zhao <hinobl...@gmail.com> 于2022年8月24日周三 10:30写道:
> >
> > masters:
> > A:8682
> > workers:
> > A
> > B
> > C
> >
> > 都是内网hostname(相互都可解析),非127.0.0.1。
> >
> > flink版本:1.15.1版本。
> >
> > Weihua Hu <huweihua....@gmail.com> 于2022年8月24日周三 10:26写道:
> > >
> > > PartitionNotFoundException 应该是跟描述的有一台 TM ip 是 127.0.0.1 有关,其他 TM 
> > > 节点链接不到这个节点。
> > >
> > > 用的什么版本呢?
> > >
> > > 配置文件是这样的吗?
> > > master 文件中有一个 内网 IP: A
> > > workers 文件中有多个内网 IP: A,B,C
> > >
> > > Best,
> > > Weihua
> > >
> > >
> > > On Tue, Aug 23, 2022 at 7:37 PM yidan zhao <hinobl...@gmail.com> wrote:
> > >
> > > >
> > > > 如题,目前发现任务报错是:org.apache.flink.runtime.io.network.partition.PartitionNotFoundException:
> > > > Partition
> > > > c74a0a104d81bf2d38f76f104d65a2ab#27@7e1a8495f062f8ceb964a3205e584613
> > > > not found
> > > >
> > > > ——————————
> > > > 任务本身问题不大,也不是网络问题。 目前发现解决方法:
> > > >
> > > > 换成非单 JM 即可。
> > > >
> > > > 同时也发现一个可能原因,或另一个明显现象:
> > > >
> > > > 从web ui的Taskmanager界面可以发现,执行 start-cluster 脚本的机器A(同时也是 JM ,即配置到
> > > > masters 文件的唯一机器),该机器对应的tm的resource id中ip是127.0.0.1。其他机器都是显示的内网ip。
> > > >
> > > > ————
> > > > masters文件换2个以上机器后,没问题了,包括后一个现象,ip也都是正常的。
> > > >

回复