你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段
sudo rm -rf /* <leo9...@qq.com> 于2020年7月22日周三 上午11:32写道: > 主备集群两边是通的,重启之前某一个RegionServer的replication队列一直积压,是卡在了一个WAls > log上,这个数据包就一直卡着,不发。 > 重启之后,主备集群两边的replication延时都没有了,但是WALs 依旧持续增加 > > > > > ------------------ 原始邮件 ------------------ > 发件人: > "user-zh" > < > palomino...@gmail.com>; > 发送时间: 2020年7月22日(星期三) 中午11:25 > 收件人: "user-zh"<user-zh@hbase.apache.org>; > > 主题: Re: hbase 主备集群同时开启replication后WALs目录越积越大 > > > > 你看看为啥有一个region server的replication延迟很大? > 是写入有热点?还是对面集群不收? > > sudo rm -rf /* <leo9...@qq.com> 于2020年7月22日周三 上午10:59写道: > > > hi: > > &nbsp; &nbsp; 我们线上集群的版本是cdh6.3.2-hbase2.1.0, > > 主备双集群,备集群作为容灾集群。两集群开启了replication,且互相replication。最近发现,主集群的WALs目录持续增加, > > > 十几天膨胀到十几个T,排查后发现某一个RegionServer节点的replication延迟很大,复制队列中积累了大量的数据,延迟卡在了十几天前的WALs > > log,我们通过重建peeer,重启集群,这部分积累的WALs才 > > > > > 被移动到oldWALs目录中,然后被清除了。重启完集群,replication的延时没了,但现在依然发现,WALs持续在增加,但此时replication的状态是正常的。 > > > > > > > > > > > > > 与之对应的是备集群的oldWALs目录持续膨胀,不会被清除,实在不知道这样的问题该如何去分析,我们开启replication的过程参考的是官网的步骤。replication的相关参数,用的是默认的。 > > 还麻烦张老师帮忙看一下,该怎么去分析这个问题。 -- *Best Regards,* lijin bin