Re: TimeoutIOException: Failed to get sync result after 300000 ms for txid=16920651960, WAL system stuck?

2023-05-31 Thread leojie
非常感谢张老师之前的解答,在ISSUE列表中我找到了如下patch: https://issues.apache.org/jira/browse/HBASE-26679 通过测试用例可以稳定复现我们使用版本的阻塞异常 https://issues.apache.org/jira/browse/HBASE-25905 这个是您提交的修复,wal sync阻塞时候会立即中断RegionServer进程,不知道我理解的是否有误,我先应用这两个修复,再观察下集群情况 leojie 于2023年5月15日周一 15:51写道: > 感谢张老师的回复,出现该问题期间,有张比较大的表在进行快照sca

Re: TimeoutIOException: Failed to get sync result after 300000 ms for txid=16920651960, WAL system stuck?

2023-05-31 Thread Duo Zhang
第一个 issue 的情况是有一个 DN 返回的速度比别的 DN 都快然后他又挂了,就可能会卡住 第二个 issue 是说 shutdown WAL 的时候可能会卡住,这个主要是导致 RegionServer 退出不了 应该在 2.4.10 之后的版本都修复了,你可以试试 leojie 于2023年6月1日周四 09:34写道: > 非常感谢张老师之前的解答,在ISSUE列表中我找到了如下patch: > https://issues.apache.org/jira/browse/HBASE-26679 通过测试用例可以稳定复现我们使用版本的阻塞异常 > https://issues

Re: TimeoutIOException: Failed to get sync result after 300000 ms for txid=16920651960, WAL system stuck?

2023-05-31 Thread leojie
嗯嗯,我们用的是hbase2.2.6,卡住的起因与第一个ISSUE描述的很像,测试用例我也复现了,第二个ISSUE应用目的是,sync wal卡住时,希望能中断RegionServer,否则的话,RS进程会卡几个小时以上,才OOM退出,这个时间内,此节点写入完全停止 张铎(Duo Zhang) 于2023年6月1日周四 10:39写道: > 第一个 issue 的情况是有一个 DN 返回的速度比别的 DN 都快然后他又挂了,就可能会卡住 > 第二个 issue 是说 shutdown WAL 的时候可能会卡住,这个主要是导致 RegionServer 退出不了 > > 应该在 2.4.