哦,看到了,在最上面有 你这个是开了serial replication?有必要吗?感觉有可能是这个地方出了bug之类的,导致某些日志没推出去然后后面就全卡了
张铎(Duo Zhang) <palomino...@gmail.com> 于2021年1月4日周一 下午9:58写道: > shell里敲 > > list_peers > > sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 下午9:33写道: > >> hi >> 感谢您的回复,日志中没有Replication的ERROR信息,replication peer是啥状态?这句话的意思是? >> 截图放在附件中,麻烦查收 >> >> hbase(main):002:0> list_peers >> PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES >> TABLE_CFS BANDWIDTH SERIAL >> 1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase ENABLED true >> 0 true >> 1 row(s) >> Took 0.0463 seconds >> >> >> => #<Java::JavaUtil::ArrayList:0x79d49790> >> >> hbase(main):003:0> status 'replication' >> version 2.1.0-cdh6.3.2 >> 5 live servers >> centos-bigdata-datanode-10-2-5-197.intsig.internal: >> SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640, >> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication >> Lag=17631 >> SINK : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan >> 04 21:30:01 CST 2021 >> centos-bigdata-datanode-10-2-5-198.intsig.internal: >> SOURCE: PeerID=1, AgeOfLastShippedOp=40642518, >> SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST >> 2021, Replication Lag=40642518 >> SINK : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan >> 04 21:30:01 CST 2021 >> centos-bigdata-datanode-10-2-5-199.intsig.internal: >> SOURCE: PeerID=1, AgeOfLastShippedOp=40761400, >> SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST >> 2021, Replication Lag=40761400 >> SINK : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan >> 04 21:30:01 CST 2021 >> centos-bigdata-datanode-10-2-5-200.intsig.internal: >> SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857, >> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979 >> SINK : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan >> 04 21:30:01 CST 2021 >> centos-bigdata-datanode-10-2-5-205.intsig.internal: >> SOURCE: PeerID=1, AgeOfLastShippedOp=40698192, >> SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST >> 2021, Replication Lag=40698192 >> SINK : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan >> 04 21:30:01 CST 2021 >> Took 0.0439 seconds >> >> >> => #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df> >> >> >> >> ------------------ 原始邮件 ------------------ >> *发件人:* "user-zh" <palomino...@gmail.com>; >> *发送时间:* 2021年1月4日(星期一) 晚上9:22 >> *收件人:* "user-zh"<user-zh@hbase.apache.org>; >> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 >> >> 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗? >> >> 另外你具体的replication peer是啥状态? >> >> sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 上午11:27写道: >> >> > hi >> > 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文 >> > >> > 上午11点21:01.959分 WARN ReplicationSource >> > >> > WAL group >> centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 >> queue size: 86709 exceeds value of replication.source.log.queue.warn: 2 >> > >> > 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper >> > >> > complete file >> /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 >> not finished, retry = 0 >> > >> > 上午11点21:02.736分 INFO AbstractFSWAL >> > >> > Too many WALs; count=16512, max=256; forcing flush of 2 regions(s): >> ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98 >> > >> > 上午11点21:02.736分 WARN LogRoller >> > >> > Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, >> region=null, requester=null >> > >> > 上午11点21:02.736分 WARN LogRoller >> > >> > Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98, >> region=null, requester=null >> > >> > >> > ------------------ 原始邮件 ------------------ >> > *发件人:* "sudo rm -rf /*" <2326130...@qq.com>; >> > *发送时间:* 2021年1月4日(星期一) 中午11:21 >> > *收件人:* "user-zh"<user-zh@hbase.apache.org>; >> > *抄送:* "user-zh"<user-zh@hbase.apache.org>; >> > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 >> > >> > hi >> > 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log >> > >> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢 >> > >> > >> > ------------------ 原始邮件 ------------------ >> > *发件人:* "user-zh" <palomino...@gmail.com>; >> > *发送时间:* 2021年1月4日(星期一) 中午11:05 >> > *收件人:* "user-zh"<user-zh@hbase.apache.org>; >> > *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 >> > >> > 图片还是看不到。。。 >> > >> > 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积? >> > >> > sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 上午10:45写道: >> > >> > > hi, >> > > 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL >> > > log已经卡在一端有三个多月,我截图了ReplicationSource >> > > 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。 >> > > 图片请查看附件,感谢感谢 >> > > >> > > >> > > >> > > ------------------ 原始邮件 ------------------ >> > > *发件人:* "user-zh" <18031...@qq.com>; >> > > *发送时间:* 2021年1月2日(星期六) 晚上7:43 >> > > *收件人:* "user-zh"<user-zh@hbase.apache.org>; >> > > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 >> > > >> > > 记得之前你问过这个问题,我也回复过。 >> > > 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写? >> > > >> > > >> > > >> > > >> > > ------------------ 原始邮件 ------------------ >> > > 发件人: >> > > "user-zh" >> > > <2326130...@qq.com>; >> > > 发送时间: 2020年12月31日(星期四) 下午2:27 >> > > 收件人: "user-zh"<user-zh@hbase.apache.org>; >> > > >> > > 主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 >> > > >> > > >> > > >> > > hi >> > > 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢 >> > > >> > > >> > > >> > > >> > > ------------------ 原始邮件 ------------------ >> > > 发件人: >> > > "user-zh" >> > > <weic...@cloudera.com.INVALID>; >> > > 发送时间: 2020年12月31日(星期四) 下午2:21 >> > > 收件人: "user-zh"<user-zh@hbase.apache.org>; >> > > >> > > 主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 >> > > >> > > >> > > >> > > 圖片似乎還是無法顯示 煩請重發一次 >> > > >> > > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130...@qq.com> >> > > wrote: >> > > >> > > > hi >> > > > >> > > > 刚刚那封邮件图片显示可能有问题,重发一次。 >> > > > >> > > > 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本 >> > > > hbase2.1.0-cdh-6.3.2 >> > > > >> > > > 目前多次遇到以下异常现象。 >> > > > >> > > > 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL >> > > Log还在replication队列中。如下图 >> > > > >> > > > >> > > > >> > > > >> > > > >> > > > 图中积压的replication数据时间戳显示九月份 >> > > > >> > > > 第二个异常,WALs oldWals目录异常庞大 >> > > > >> > > > 主集群 >> > > > >> > > > >> > > > 备集群 >> > > > >> > > > >> > > > Replication相关线程的信息如下图 >> > > > >> > > > 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对 >> > > > >> > > > >> > > > >> > > >> > >> >