Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Duo Zhang Mon, 04 Jan 2021 06:02:20 -0800

哦，看到了，在最上面有

你这个是开了serial replication？有必要吗？感觉有可能是这个地方出了bug之类的，导致某些日志没推出去然后后面就全卡了


张铎(Duo Zhang) <palomino...@gmail.com> 于2021年1月4日周一 下午9:58写道：

> shell里敲
>
> list_peers
>
> sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 下午9:33写道：
>
>> hi
>>  感谢您的回复，日志中没有Replication的ERROR信息，replication peer是啥状态？这句话的意思是?
>> 截图放在附件中，麻烦查收
>>
>> hbase(main):002:0> list_peers
>>  PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES
>> TABLE_CFS BANDWIDTH SERIAL
>>  1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase  ENABLED true
>>  0 true
>> 1 row(s)
>> Took 0.0463 seconds
>>
>>
>> => #<Java::JavaUtil::ArrayList:0x79d49790>
>>
>> hbase(main):003:0> status 'replication'
>> version 2.1.0-cdh6.3.2
>> 5 live servers
>>     centos-bigdata-datanode-10-2-5-197.intsig.internal:
>>        SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
>> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication
>> Lag=17631
>>        SINK  : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>>     centos-bigdata-datanode-10-2-5-198.intsig.internal:
>>        SOURCE: PeerID=1, AgeOfLastShippedOp=40642518,
>> SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST
>> 2021, Replication Lag=40642518
>>        SINK  : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>>     centos-bigdata-datanode-10-2-5-199.intsig.internal:
>>        SOURCE: PeerID=1, AgeOfLastShippedOp=40761400,
>> SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST
>> 2021, Replication Lag=40761400
>>        SINK  : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>>     centos-bigdata-datanode-10-2-5-200.intsig.internal:
>>        SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
>> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979
>>        SINK  : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>>     centos-bigdata-datanode-10-2-5-205.intsig.internal:
>>        SOURCE: PeerID=1, AgeOfLastShippedOp=40698192,
>> SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST
>> 2021, Replication Lag=40698192
>>        SINK  : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> Took 0.0439 seconds
>>
>>
>> => #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df>
>>
>>
>>
>> ------------------ 原始邮件 ------------------
>> *发件人:* "user-zh" <palomino...@gmail.com>;
>> *发送时间:* 2021年1月4日(星期一) 晚上9:22
>> *收件人:* "user-zh"<user-zh@hbase.apache.org>;
>> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>>
>> 你这个只有第一条是和replication直接相关的，这个就是说queue太长了，有replication报错的日志吗？
>>
>> 另外你具体的replication peer是啥状态？
>>
>> sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 上午11:27写道：
>>
>> > hi
>> >  刚刚截取了一些日志中频繁打印的与Replication相关的日志信息，您帮忙看看对分析问题是否有帮助。图片在附件，对应文字在下文
>> >
>> > 上午11点21:01.959分 WARN ReplicationSource
>> >
>> > WAL group
>> centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
>> queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
>> >
>> > 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
>> >
>> > complete file
>> /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
>> not finished, retry = 0
>> >
>> > 上午11点21:02.736分 INFO AbstractFSWAL
>> >
>> > Too many WALs; count=16512, max=256; forcing flush of 2 regions(s):
>> ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
>> >
>> > 上午11点21:02.736分 WARN LogRoller
>> >
>> > Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
>> region=null, requester=null
>> >
>> > 上午11点21:02.736分 WARN LogRoller
>> >
>> > Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
>> region=null, requester=null
>> >
>> >
>> > ------------------ 原始邮件 ------------------
>> > *发件人:* "sudo rm -rf /*" <2326130...@qq.com>;
>> > *发送时间:* 2021年1月4日(星期一) 中午11:21
>> > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
>> > *抄送:* "user-zh"<user-zh@hbase.apache.org>;
>> > *主题:* 回复： 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> >
>> > hi
>> >     感谢您的回复，图片我已经再次放到附件中了，日志里没有什么有用的信息，数据根本推不过去，WAL log
>> >
>> 卡在复制队列中不动，某一RegionServer复制队列中已经有8万多个文件在排队发送，oldWALs是所有regionserver的日志都在堆积，因为我们线上所有表都开启了REPLICATION_SCOPE=1，如果您那边方便的话，是否可以耽误您点时间，开一个简单的远程会议，详细了解下我们这边的情况，帮我们分析下这个问题，这个问题已经困扰我们一年多了，一直无法解决，非常感谢
>> >
>> >
>> > ------------------ 原始邮件 ------------------
>> > *发件人:* "user-zh" <palomino...@gmail.com>;
>> > *发送时间:* 2021年1月4日(星期一) 中午11:05
>> > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
>> > *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> >
>> > 图片还是看不到。。。
>> >
>> > 日志里有什么有用的信息吗？是根本推不过去还是推的很慢？oldWALs是所有regionserver的日志都在堆积，还是只有某些在堆积？
>> >
>> > sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 上午10:45写道：
>> >
>> > > hi,
>> > >     非常抱歉，需要再次打扰，HBase replication 目前处于阻塞状态，某一WAL
>> > > log已经卡在一端有三个多月，我截图了ReplicationSource
>> > > 相关线程的一些WATTING和BLOCKED的状态，需要社区帮忙分析定位一下原因。
>> > > 图片请查看附件，感谢感谢
>> > >
>> > >
>> > >
>> > > ------------------ 原始邮件 ------------------
>> > > *发件人:* "user-zh" <18031...@qq.com>;
>> > > *发送时间:* 2021年1月2日(星期六) 晚上7:43
>> > > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
>> > > *主题:* 回复： 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > > 记得之前你问过这个问题，我也回复过。
>> > > 你们的主主模式，是同时会往2个集群写，还是同一时刻只会往单个集群写？
>> > >
>> > >
>> > >
>> > >
>> > > ------------------&nbsp;原始邮件&nbsp;------------------
>> > > 发件人:
>> > > "user-zh"
>> > > <2326130...@qq.com&gt;;
>> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
>> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>> > >
>> > > 主题:&nbsp;回复： 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > >
>> > >
>> > > hi
>> > > 非常感谢您的回复，正文中的图片貌似还是无法显示，只能把截图放在附件中，麻烦查收，感谢
>> > >
>> > >
>> > >
>> > >
>> > > ------------------ 原始邮件 ------------------
>> > > 发件人:
>> > > "user-zh"
>> > > <weic...@cloudera.com.INVALID&gt;;
>> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
>> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>> > >
>> > > 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > >
>> > >
>> > > 圖片似乎還是無法顯示 煩請重發一次
>> > >
>> > > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130...@qq.com&gt;
>> > > wrote:
>> > >
>> > > &gt; hi
>> > > &gt;
>> > > &gt; 刚刚那封邮件图片显示可能有问题，重发一次。
>> > > &gt;
>> > > &gt; 我们线上HBase为主备两个集群，主备集群开启replication，模式为主主模式，即可以互相同步数据。HBase版本
>> > > &gt; hbase2.1.0-cdh-6.3.2
>> > > &gt;
>> > > &gt; 目前多次遇到以下异常现象。
>> > > &gt;
>> > > &gt; 第一：replication 积压，replication队列持续堆积不会减少，目前存在九月份的WAL
>> > > Log还在replication队列中。如下图
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > > &gt; 图中积压的replication数据时间戳显示九月份
>> > > &gt;
>> > > &gt; 第二个异常，WALs oldWals目录异常庞大
>> > > &gt;
>> > > &gt; 主集群
>> > > &gt;
>> > > &gt;
>> > > &gt; 备集群
>> > > &gt;
>> > > &gt;
>> > > &gt; Replication相关线程的信息如下图
>> > > &gt;
>> > > &gt; 希望得到社区的帮助，帮忙提供问题分析的思路，感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > >
>> >
>>
>

Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Reply via email to