Re: hbase 主备集群同时开启replication后WALs目录越积越大

宾莉金（binlijin） Tue, 21 Jul 2020 20:39:25 -0700

你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段


sudo rm -rf /* <leo9...@qq.com> 于2020年7月22日周三 上午11:32写道：

> 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
> log上，这个数据包就一直卡着，不发。&nbsp;
> 重启之后，主备集群两边的replication延时都没有了，但是WALs 依旧持续增加&nbsp;
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> palomino...@gmail.com&gt;;
> 发送时间:&nbsp;2020年7月22日(星期三) 中午11:25
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
>
>
>
> 你看看为啥有一个region server的replication延迟很大？
> 是写入有热点？还是对面集群不收？
>
> sudo rm -rf /* <leo9...@qq.com&gt; 于2020年7月22日周三 上午10:59写道：
>
> &gt; hi:
> &gt; &amp;nbsp; &amp;nbsp; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
> &gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
> &gt;
> 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
> &gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
> &gt;
> &gt;
> 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
> &gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。



-- 
*Best Regards,*
 lijin bin

Re: hbase 主备集群同时开启replication后WALs目录越积越大

Reply via email to