Re: Crashing Region Servers

Ted Dunning Thu, 09 Dec 2010 15:58:19 -0800

This could indicate swapping during GC.

On Thu, Dec 9, 2010 at 12:13 PM, Lance Riedel <lancerie...@gmail.com> wrote:


> Seems reasonable, but having trouble making sense of the GC logs I had
> turned on.  Basically since there was a full GC a minute before this happens
> on that server that lasts less than a second.
>
>
> Example:
> So, here is what the last of the GC logs say for that Regionserver
>  (04.hadoop on 10.100.154.10) (note the last full GC only 1 minutes before @
>  5:03:29.850+0000):
>
> 2010-12-09T05:02:19.472+0000: 12170.437: [GC [PSYoungGen:
> 278229K->5024K(287360K)] 694269K->421693K(721856K), 0.0274840 secs] [Times:
> user=0.04 sys=0.00, real=0.03 secs]
> 2010-12-09T05:02:55.479+0000: 12206.444: [GC [PSYoungGen:
> 281450K->7968K(273344K)] 698120K->429658K(707840K), 0.0503000 secs] [Times:
> user=0.10 sys=0.00, real=0.05 secs]
> 2010-12-09T05:03:29.800+0000: 12240.766: [GC [PSYoungGen:
> 273295K->7712K(262464K)] 694986K->437306K(696960K), 0.0490770 secs] [Times:
> user=0.12 sys=0.01, real=0.05 secs]
> 2010-12-09T05:03:29.850+0000: 12240.815: [Full GC [PSYoungGen:
> 7712K->0K(262464K)] [PSOldGen: 429594K->353152K(429824K)]
> 437306K->353152K(692288K) [PSPermGen: 18016K->18016K(21248K)], 0.8960760
> secs] [Times: user=0.89 sys=0.00, real=0.90 secs]
> 2010-12-09T05:04:03.345+0000: 12274.310: [GC [PSYoungGen:
> 254720K->6944K(251584K)] 607872K->360528K(681408K), 0.0331060 secs] [Times:
> user=0.03 sys=0.00, real=0.04 secs]
> 2010-12-09T05:04:33.875+0000: 12304.840: [GC [PSYoungGen:
> 251552K->7200K(242240K)] 605136K->367800K(672064K), 0.0336420 secs] [Times:
> user=0.09 sys=0.01, real=0.03 secs]
> Heap
>  PSYoungGen      total 242240K, used 223390K [0x00007fcc640b0000,
> 0x00007fcc77a90000, 0x00007fcc78e00000)
>  eden space 235008K, 91% used
> [0x00007fcc640b0000,0x00007fcc713cfa30,0x00007fcc72630000)
>  from space 7232K, 99% used
> [0x00007fcc769b0000,0x00007fcc770b8090,0x00007fcc770c0000)
>  to   space 10048K, 0% used
> [0x00007fcc770c0000,0x00007fcc770c0000,0x00007fcc77a90000)
>  PSOldGen        total 429824K, used 360600K [0x00007fcc3a600000,
> 0x00007fcc549c0000, 0x00007fcc640b0000)
>  object space 429824K, 83% used
> [0x00007fcc3a600000,0x00007fcc50626060,0x00007fcc549c0000)
>  PSPermGen       total 21248K, used 18131K [0x00007fcc35200000,
> 0x00007fcc366c0000, 0x00007fcc3a600000)
>  object space 21248K, 85% used
> [0x00007fcc35200000,0x00007fcc363b4d60,0x00007fcc366c0000)
>
> Now Dead / End of log
>
>
> That said, I will continue down the path you pointed me on .
>
> Thanks,
> Lance
>
> On Dec 9, 2010, at 11:40 AM, Jean-Daniel Cryans wrote:
>
> > Lance,
> >
> > Both those lines indicate the problem:
> >
> > IPC Server handler 13 on 60020 took 182416ms
> > Client session timed out, have not heard from server in 182936ms
> >
> > It's very clear that your region servers are suffering from
> > pause-of-the-world garbage collection issues. Basically this one GC'ed
> > for 3 minutes, which is over the 1 minute timeout to consider a region
> > server dead. The rest is just the side effect of that.
> >
> > This subject comes often on the mailing list, for example:
> > http://search-hadoop.com/m/t97q027tr7f2
> >
> > Make sure you don't swap, give plenty of RAM to HBase, use LZO
> > compression, don't underprovision your machines, etc
> >
> > J-D
> >
> > On Thu, Dec 9, 2010 at 11:27 AM, Lance Riedel <lancerie...@gmail.com>
> wrote:
> >>
> >> We have a 6 node cluster, 5 with region serves.  2 of the region servers
> have been stable for days, but 3 of them keep crashing.  Here are the logs
> around around when the crash occurs. (btw, we are shoving approximately the
> twitter firehose into hbase via flume) I'm an hbase newbie, but I have been
> reading. Not sure what else is needed to help debug. When the problem
> occurs, it is concurrent with issues that appear all the way down in the
> data node.  Also, interesting to note, all 3 servers seem to fail
> differently somewhat:
> >>
> >> Servers (6):
> >> 00.hadoop is the master
> >> 01.hadoop, 03.hadoop (there is no 02.hadoop - flaky machine that got
> taken out) - are stable Region Servers
> >> 04-06.hadoop crash at different times, very different logs, Region
> Servers
> >>
> >>
> >> Master Attributes:
> >> HBase Version 0.89.20100924+28, r
> >> Hadoop Version 0.20.2+737, r98c55c28258aa6f42250569bd7fa431ac657bdbd
> >>
> >> HBase Root Directory hdfs://00.hadoop.****:54310/hbase
> >>
> >> Load average
> >> 103.0
> >> Average number of regions per regionserver. Naive computation.
> >> Regions On FS
> >> 577
> >>
> >>
> >> (This is after recently restarting 04-06)
> >>
> >>
> >> Address   Start Code    Load
> >> 01.hadoop:60030  1291268910638   requests=223, regions=118,
> usedHeap=519, maxHeap=987
> >> 03.hadoop:60030  1291269219610   requests=23, regions=111, usedHeap=862,
> maxHeap=987
> >> 04.hadoop:60030  1291910665912   requests=169, regions=82, usedHeap=194,
> maxHeap=888
> >> 05.hadoop:60030  1291909584060   requests=232, regions=110,
> usedHeap=477, maxHeap=888
> >> 06.hadoop60030   1291909723787   requests=99, regions=94, usedHeap=394,
> maxHeap=888
> >> Total:
> >> servers: 5
> >> requests=746, regions=515
> >>
> >>
> >>
> >> Following are various logs around the time of the failures for 04-06
> >>
> >>
> ************************************************************************************
> >> 04.hadoop
> >>
> ************************************************************************************
> >> REGION SERVER ->
> >> 2010-12-09 05:01:58,640 INFO
> org.apache.hadoop.hbase.regionserver.HRegion: compaction completed on region
> article,a83858a08f2270d319f75a7b43c756c2453988e7,1291811929868.58f6d9fc80
> >> c78f3ca490b0280b4f1226. in 0sec
> >> 2010-12-09 05:04:30,898 DEBUG
> org.apache.hadoop.hbase.io.hfile.LruBlockCache: LRU Stats: total=1.46 MB,
> free=176.33 MB, max=177.79 MB, blocks=0, accesses=200583, hits=0, hitRatio=
> >> 0.00%%, evictions=0, evicted=0, evictedPerRun=NaN
> >> 2010-12-09 05:04:59,612 INFO
> org.apache.hadoop.hbase.regionserver.wal.SequenceFileLogWriter: Using syncFs
> -- HDFS-200
> >> 2010-12-09 05:04:59,618 INFO
> org.apache.hadoop.hbase.regionserver.wal.HLog: Roll
> /hbase/.logs/04.hadoop.****,60020,1291858770125/10.100.154.103%3A60020.1291870585253,
> entries=5318
> >> 6, filesize=63776311. New hlog
> /hbase/.logs/04.hadoop.****,60020,1291858770125/10.100.154.103
> %3A60020.1291871099582
> >> 2010-12-09 05:08:02,033 DEBUG
> org.apache.hadoop.hbase.regionserver.wal.HLog: Found 1 hlogs to remove  out
> of total 6; oldest outstanding sequenceid is 32891801 from region article
> >>
> ,4b2039b791e894dd479b90661ca97087f61645d3,1291813201039.7dff47c63bb5648bb1ee6670c60553a5.
> >> 2010-12-09 05:08:02,034 WARN
> org.apache.hadoop.hbase.regionserver.wal.HLog: IPC Server handler 13 on
> 60020 took 182416ms appending an edit to hlog; editcount=0
> >> 2010-12-09 05:08:02,066 INFO
> org.apache.hadoop.hbase.regionserver.wal.HLog: moving old hlog file
> /hbase/.logs/04.hadoop.****,60020,1291858770125/10.100.154.103
> %3A60020.12918679476
> >> 65 whose highest sequenceid is 32880227 to /hbase/.oldlogs/
> 10.100.154.103%3A60020.1291867947665
> >> 2010-12-09 05:08:02,066 INFO org.apache.zookeeper.ClientCnxn: Client
> session timed out, have not heard from server in 182936ms for sessionid
> 0x12ca58c08ff0048, closing socket conn
> >> ection and attempting reconnect
> >> 2010-12-09 05:08:02,089 FATAL
> org.apache.hadoop.hbase.regionserver.HRegionServer: Aborting region server
> serverName=04.hadoop.****,60020,1291858770125, load=(requests=24, regions=
> >> 64, usedHeap=548, maxHeap=888): Unhandled exception
> >> org.apache.hadoop.hbase.YouAreDeadException:
> org.apache.hadoop.hbase.YouAreDeadException: Server REPORT rejected;
> currently processing 04.hadoop.****,60020,1291858770125 as dead s
> >> erver
> >>        at
> org.apache.hadoop.hbase.master.ServerManager.checkIsDead(ServerManager.java:217)
> >>        at
> org.apache.hadoop.hbase.master.ServerManager.regionServerReport(ServerManager.java:271)
> >>        at
> org.apache.hadoop.hbase.master.HMaster.regionServerReport(HMaster.java:744)
> >>        at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source)
> >>        at
> sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
> >>        at java.lang.reflect.Method.invoke(Method.java:597)
> >>        at
> org.apache.hadoop.hbase.ipc.HBaseRPC$Server.call(HBaseRPC.java:561)
> >>        at
> org.apache.hadoop.hbase.ipc.HBaseServer$Handler.run(HBaseServer.java:1039)
> >>
> >>        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native
> Method)
> >>        at
> sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:39)
> >>        at
> sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:27)
>        at java.lang.reflect.Constructor.newInstance(Constructor.java:513)
> >>        at
> org.apache.hadoop.hbase.RemoteExceptionHandler.decodeRemoteException(RemoteExceptionHandler.java:94)
> >>        at
> org.apache.hadoop.hbase.RemoteExceptionHandler.checkThrowable(RemoteExceptionHandler.java:48)
> >>        at
> org.apache.hadoop.hbase.RemoteExceptionHandler.checkIOException(RemoteExceptionHandler.java:66)
> >>        at
> org.apache.hadoop.hbase.regionserver.HRegionServer.doRun(HRegionServer.java:635)
> >>        at
> org.apache.hadoop.hbase.regionserver.HRegionServer.access$000(HRegionServer.java:126)
> >>        at
> org.apache.hadoop.hbase.regionserver.HRegionServer$1.run(HRegionServer.java:518)
> >>        at
> org.apache.hadoop.hbase.regionserver.HRegionServer$1.run(HRegionServer.java:516)
> >>        at java.security.AccessController.doPrivileged(Native Method)
> >>        at javax.security.auth.Subject.doAs(Subject.java:337)
> >>        at
> org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1046)
> >>        at
> org.apache.hadoop.hbase.regionserver.HRegionServer.run(HRegionServer.java:516)
> >>        at java.lang.Thread.run(Thread.java:662)
> >> 2010-12-09 05:08:02,090 INFO
> org.apache.hadoop.hbase.regionserver.HRegionServer: Dump of metrics:
> request=0.0, regions=64, stores=64, storefiles=136, storefileIndexSize=27,
> memsto
> >> reSize=353, compactionQueueSize=0, usedHeap=549, maxHeap=888,
> blockCacheSize=1530552, blockCacheFree=184893160, blockCacheCount=0,
> blockCacheHitRatio=0
> >> 2010-12-09 05:08:02,090 INFO org.apache.hadoop.ipc.HBaseServer: Stopping
> server on 60020
> >> 2010-12-09 05:08:02,090 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 0 on 60020: exiting2010-12-09 05:08:02,090 INFO
> org.apache.hadoop.ipc.HBaseServer: Stopping IPC Server listener on 60020
> >>
> >>
> >> MASTER HBASE ->
> >>
> >> 2010-12-09 05:05:06,072 INFO org.apache.hadoop.hbase.master.BaseScanner:
> All 1 .META. region(s) scanned
> >> 2010-12-09 05:05:40,004 INFO
> org.apache.hadoop.hbase.master.ServerManager:
> 04.hadoop.jive,60020,1291858770125 znode expired
> >> 2010-12-09 05:05:40,005 DEBUG
> org.apache.hadoop.hbase.master.ServerManager:
> Added=04.hadoop.jive,60020,1291858770125 to dead servers, added shutdown
> processing operation
> >> 2010-12-09 05:05:40,005 DEBUG
> org.apache.hadoop.hbase.master.RegionServerOperationQueue: Processing todo:
> ProcessServerShutdown of 04.hadoop.jive,60020,12918587701252010-12-09
> 05:05:40,005 INFO org.apache.hadoop.hbase.master.RegionServerOperation:
> Process shutdown of server 04.hadoop.jive,60020,1291858770125: logSplit:
> false, rootRescanned: f
> >> alse, numberOfMetaRegions: 1, onlineMetaRegions.size(): 1
> >> 2010-12-09 05:05:40,008 INFO
> org.apache.hadoop.hbase.regionserver.wal.HLog: Splitting 7 hlog(s) in
> hdfs://00.hadoop.jive:54310/hbase/.logs/04.hadoop.jive,60020,12918587701252010-12-09
> 05:05:40,008 DEBUG org.apache.hadoop.hbase.regionserver.wal.HLog: Splitting
> hlog 1 of 7:
> hdfs://00.hadoop.jive:54310/hbase/.logs/04.hadoop.jive,60020,1291858770125/10.1
> >> 00.154.103%3A60020.1291867947665, length=637577092010-12-09 05:05:40,008
> INFO org.apache.hadoop.hbase.util.FSUtils: Recovering
> filehdfs://00.hadoop.jive:54310/hbase/.logs/04.hadoop.jive,60020,1291858770125/
> 10.100.154.103%3A60020
> >> .1291867947665
> >>
> >>
> >> NAMENODE ->
> >>
> >> 2010-12-09 05:08:02,471 INFO org.apache.hadoop.hdfs.StateChange: BLOCK*
> NameSystem.addStoredBlock: blockMap updated: 10.100.159.13:50010 is added
> to blk_1531008743226086399_251615 size 63757709
> >> 2010-12-09 05:08:02,473 INFO org.apache.hadoop.ipc.Server: IPC Server
> handler 9 on 54310, call
> complete(/hbase/.logs/04.hadoop.jive,60020,1291858770125/10.100.154.103%3A60020.1291867947665,
> DFSClient_hb_m_10.194.194.79:60000_1291788452343) from 10.194.194.79:44117:
> error: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No
> lease on 
> /hbase/.logs/04.hadoop.jive,60020,1291858770125/10.100.154.103%3A60020.1291867947665
> File does not exist. [Lease.  Holder:
> DFSClient_hb_m_10.194.194.79:60000_1291788452343, pendingcreates: 1]
> >> org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease
> on 
> /hbase/.logs/04.hadoop.jive,60020,1291858770125/10.100.154.103%3A60020.1291867947665
> File does not exist. [Lease.  Holder:
> DFSClient_hb_m_10.194.194.79:60000_1291788452343, pendingcreates: 1]
> >>        at
> org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:1488)
> >>        at
> org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:1479)
> >>        at
> org.apache.hadoop.hdfs.server.namenode.FSNamesystem.completeFileInternal(FSNamesystem.java:1534)
> >>        at
> org.apache.hadoop.hdfs.server.namenode.FSNamesystem.completeFile(FSNamesystem.java:1522)
> >>        at
> org.apache.hadoop.hdfs.server.namenode.NameNode.complete(NameNode.java:610)
> >>        at sun.reflect.GeneratedMethodAccessor15.invoke(Unknown Source)
> >>        at
> sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
> >>        at java.lang.reflect.Method.invoke(Method.java:597)
> >>        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:528)
> >>        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1319)
> >>        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1315)
> >>        at java.security.AccessController.doPrivileged(Native Method)
> >>        at javax.security.auth.Subject.doAs(Subject.java:396)
> >>        at
> org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1063)
> >>        at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1313)
> >> 2010-12-09 05:08:04,206 INFO org.apache.hadoop.hdfs.StateChange: BLOCK*
> NameSystem.addStoredBlock: blockMap updated: 10.99.97.106:50010 is added
> to blk_-734280257049179934_251614 size 7330
> >>
> >> DATANODE ->
> >>
> >> 2010-12-09 05:08:02,212 WARN
> org.apache.hadoop.hdfs.server.datanode.DataNode: IOException in
> BlockReceiver.lastNodeRun: java.io.IOException: Broken pipe
> >>        at sun.nio.ch.FileDispatcher.write0(Native Method)
> >>        at sun.nio.ch.SocketDispatcher.write(SocketDispatcher.java:29)
>      at sun.nio.ch.IOUtil.writeFromNativeBuffer(IOUtil.java:100)        at
> sun.nio.ch.IOUtil.write(IOUtil.java:71)
> >>        at sun.nio.ch.SocketChannelImpl.write(SocketChannelImpl.java:334)
> >>        at
> org.apache.hadoop.net.SocketOutputStream$Writer.performIO(SocketOutputStream.java:55)
>        at
> org.apache.hadoop.net.SocketIOWithTimeout.doIO(SocketIOWithTimeout.java:142)
>        at
> org.apache.hadoop.net.SocketOutputStream.write(SocketOutputStream.java:146)
> >>        at
> org.apache.hadoop.net.SocketOutputStream.write(SocketOutputStream.java:107)
>        at java.io.DataOutputStream.writeLong(DataOutputStream.java:207)
> >>        at
> org.apache.hadoop.hdfs.protocol.DataTransferProtocol$PipelineAck.write(DataTransferProtocol.java:133)
>        at
> org.apache.hadoop.hdfs.server.datanode.BlockReceiver$PacketResponder.lastDataNodeRun(BlockReceiver.java:840)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.BlockReceiver$PacketResponder.run(BlockReceiver.java:870)
> >>        at java.lang.Thread.run(Thread.java:662)
> >> 2010-12-09 05:08:02,213 WARN
> org.apache.hadoop.hdfs.server.datanode.DataNode: checkDiskError: exception:
> >> 2010-12-09 05:08:02,213 WARN
> org.apache.hadoop.hdfs.server.datanode.DataNode: checkDiskError: exception:
> java.io.IOException: Broken pipe
> >>        at sun.nio.ch.FileDispatcher.write0(Native Method)
> >>        at sun.nio.ch.SocketDispatcher.write(SocketDispatcher.java:29)
> >>        at sun.nio.ch.IOUtil.writeFromNativeBuffer(IOUtil.java:100)
> >>        at sun.nio.ch.IOUtil.write(IOUtil.java:71)
> >>        at sun.nio.ch.SocketChannelImpl.write(SocketChannelImpl.java:334)
> >>        at
> org.apache.hadoop.net.SocketOutputStream$Writer.performIO(SocketOutputStream.java:55)
> >>        at
> org.apache.hadoop.net.SocketIOWithTimeout.doIO(SocketIOWithTimeout.java:142)
> >>        at
> org.apache.hadoop.net.SocketOutputStream.write(SocketOutputStream.java:146)
> >>        at
> org.apache.hadoop.net.SocketOutputStream.write(SocketOutputStream.java:107)
> >>        at java.io.DataOutputStream.writeLong(DataOutputStream.java:207)
> >>        at
> org.apache.hadoop.hdfs.protocol.DataTransferProtocol$PipelineAck.write(DataTransferProtocol.java:133)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.BlockReceiver$PacketResponder.lastDataNodeRun(BlockReceiver.java:840)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.BlockReceiver$PacketResponder.run(BlockReceiver.java:870)
> >>        at java.lang.Thread.run(Thread.java:662)
> >> 2010-12-09 05:08:02,221 INFO
> org.apache.hadoop.hdfs.server.datanode.DataNode: PacketResponder
> blk_-8817504198034990390_251613 0 Exception java.io.IOException: Broken pipe
> >>        at sun.nio.ch.FileDispatcher.write0(Native Method)
> >>        at sun.nio.ch.SocketDispatcher.write(SocketDispatcher.java:29)
> >>        at sun.nio.ch.IOUtil.writeFromNativeBuffer(IOUtil.java:100)
> >>        at sun.nio.ch.IOUtil.write(IOUtil.java:71)
> >>        at sun.nio.ch.SocketChannelImpl.write(SocketChannelImpl.java:334)
> >>        at
> org.apache.hadoop.net.SocketOutputStream$Writer.performIO(SocketOutputStream.java:55)
> >>        at
> org.apache.hadoop.net.SocketIOWithTimeout.doIO(SocketIOWithTimeout.java:142)
> >>        at
> org.apache.hadoop.net.SocketOutputStream.write(SocketOutputStream.java:146)
> >>        at
> org.apache.hadoop.net.SocketOutputStream.write(SocketOutputStream.java:107)
> >>        at java.io.DataOutputStream.writeLong(DataOutputStream.java:207)
> >>        at
> org.apache.hadoop.hdfs.protocol.DataTransferProtocol$PipelineAck.write(DataTransferProtocol.java:133)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.BlockReceiver$PacketResponder.lastDataNodeRun(BlockReceiver.java:840)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.BlockReceiver$PacketResponder.run(BlockReceiver.java:870)
> >>        at java.lang.Thread.run(Thread.java:662)
> >>
> >> 2010-12-09 05:08:02,221 INFO
> org.apache.hadoop.hdfs.server.datanode.DataNode: PacketResponder 0 for block
> blk_-8817504198034990390_251613 terminating
> >> 2010-12-09 05:08:02,224 INFO
> org.apache.hadoop.hdfs.server.datanode.DataNode: writeBlock
> blk_-8817504198034990390_251613 received exception java.io.IOException:
> Connection reset by peer
> >> 2010-12-09 05:08:02,224 INFO
> org.apache.hadoop.hdfs.server.datanode.DataNode: Scheduling block
> blk_4505306716668305567_250752 file
> /dist1/data/hadoop-data/current/subdir19/blk_4505306716668305567 for
> deletion
> >> 2010-12-09 05:08:02,226 ERROR
> org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(
> 10.100.154.103:50010,
> storageID=DS-866555524-10.100.154.103-50010-1291262739506, infoPort=50075,
> ipcPort=50020):DataXceiver
> >> java.io.IOException: Connection reset by peer
> >>        at sun.nio.ch.FileDispatcher.read0(Native Method)
> >>        at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:21)
> >>        at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:237)
> >>        at sun.nio.ch.IOUtil.read(IOUtil.java:210)
> >>        at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:236)
> >>        at
> org.apache.hadoop.net.SocketInputStream$Reader.performIO(SocketInputStream.java:55)
> >>        at
> org.apache.hadoop.net.SocketIOWithTimeout.doIO(SocketIOWithTimeout.java:142)
> >>        at
> org.apache.hadoop.net.SocketInputStream.read(SocketInputStream.java:155)
> >>        at
> org.apache.hadoop.net.SocketInputStream.read(SocketInputStream.java:128)
> >>        at
> java.io.BufferedInputStream.read1(BufferedInputStream.java:256)
> >>        at java.io.BufferedInputStream.read(BufferedInputStream.java:317)
> >>        at java.io.DataInputStream.read(DataInputStream.java:132)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.BlockReceiver.readToBuf(BlockReceiver.java:267)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.BlockReceiver.readNextPacket(BlockReceiver.java:357)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.BlockReceiver.receivePacket(BlockReceiver.java:378)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.BlockReceiver.receiveBlock(BlockReceiver.java:534)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.DataXceiver.writeBlock(DataXceiver.java:417)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:122)
> >> 2010-12-09 05:08:02,226 INFO
> org.apache.hadoop.hdfs.server.datanode.DataNode: Deleted block
> blk_1422641301942366074_250732 at file
> /dist1/data/hadoop-data/current/subdir19/blk_1422641301942366074
> >> 2010-12-09 05:08:02,227 INFO
> org.apache.hadoop.hdfs.server.datanode.DataNode: Deleted block
> blk_4505306716668305567_250752 at file
> /dist1/data/hadoop-data/current/subdir19/blk_4505306716668305567
> >>
> >>
> >>
> >>
> ************************************************************************************
> >> 05.hadoop
> >>
> ************************************************************************************
> >> REGION SERVER ->
> >> 2010-12-09 04:29:25,047 DEBUG
> org.apache.hadoop.hbase.regionserver.Store: Compaction size of data: 250.5m;
> Skipped 1 file(s), size: 206896367
> >> 2010-12-09 04:29:25,047 INFO org.apache.hadoop.hbase.regionserver.Store:
> Started compaction of 2 file(s) in data of
> article,060c4b75067378c045eead9edec2d4fb7d8f3e5e,1291812563166.95e92e97823e11e57850720a63433a62.
>  into
> hdfs://00.hadoop.****:54310/hbase/article/95e92e97823e11e57850720a63433a62/.tmp,
> sequenceid=33050221
> >> 2010-12-09 04:29:26,328 INFO org.apache.hadoop.hbase.regionserver.Store:
> Completed compaction of 2 file(s) in data of
> article,060c4b75067378c045eead9edec2d4fb7d8f3e5e,1291812563166.95e92e97823e11e57850720a63433a62.;
> new storefile is
> hdfs://00.hadoop.****:54310/hbase/article/95e92e97823e11e57850720a63433a62/data/2787768957794924068;
> store size is 250.5m
> >> 2010-12-09 04:29:26,328 INFO
> org.apache.hadoop.hbase.regionserver.HRegion: compaction completed on region
> article,060c4b75067378c045eead9edec2d4fb7d8f3e5e,1291812563166.95e92e97823e11e57850720a63433a62.
> in 1sec
> >> 2010-12-09 04:29:26,328 INFO
> org.apache.hadoop.hbase.regionserver.HRegion: Starting compaction on region
> article,ed0cdc7ae6db73432e2ca47c973d545bee11ddd8,1291813400028.85a8d31d099f409dd36f3bcc4be1eba6.
> >> 2010-12-09 04:29:26,330 INFO
> org.apache.hadoop.hbase.regionserver.HRegion: compaction completed on region
> article,ed0cdc7ae6db73432e2ca47c973d545bee11ddd8,1291813400028.85a8d31d099f409dd36f3bcc4be1eba6.
> in 0sec
> >> 2010-12-09 04:32:33,081 INFO
> org.apache.hadoop.hbase.regionserver.HRegionServer: MSG_REGIONSERVER_STOP
> >> 2010-12-09 04:32:33,081 INFO org.apache.hadoop.ipc.HBaseServer: Stopping
> server on 60020
> >> 2010-12-09 04:32:33,089 WARN org.apache.hadoop.hdfs.DFSClient:
> DFSOutputStream ResponseProcessor exception  for block
> blk_2012253533858803341_250248java.io.EOFException
> >>        at java.io.DataInputStream.readFully(DataInputStream.java:180)
> >>        at java.io.DataInputStream.readLong(DataInputStream.java:399)
> >>        at
> org.apache.hadoop.hdfs.protocol.DataTransferProtocol$PipelineAck.readFields(DataTransferProtocol.java:120)
> >>        at
> org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$ResponseProcessor.run(DFSClient.java:2621)
> >>
> >> 2010-12-09 04:32:33,089 INFO org.apache.zookeeper.ClientCnxn: Unable to
> read additional data from server sessionid 0x12ca58c08ff0049, likely server
> has closed socket, closing sock
> >> et connection and attempting reconnect
> >> 2010-12-09 04:32:33,089 WARN
> org.apache.hadoop.hbase.regionserver.wal.HLog: IPC Server handler 5 on 60020
> took 75446ms appending an edit to hlog; editcount=50505
> >> 2010-12-09 04:32:33,090 INFO org.apache.hadoop.ipc.HBaseServer: IPC
> Server handler 18 on 60020: exiting
> >> 2010-12-09 04:32:33,139 INFO org.apache.hadoop.hdfs.DFSClient: Error
> Recovery for block blk_2012253533858803341_250248 waiting for responder to
> exit.
> >> 2010-12-09 04:32:33,139 INFO org.apache.hadoop.ipc.HBaseServer: IPC
> Server handler 8 on 60020: exiting
> >> 2010-12-09 04:32:33,139 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 1 on 60020: exiting
> >> 2010-12-09 04:32:33,139 INFO org.apache.hadoop.ipc.HBaseServer: IPC
> Server handler 10 on 60020: exiting
> >> 2010-12-09 04:32:33,140 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 0 on 60020: exiting2010-12-09 04:32:33,140 INFO
> org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 5 on 60020:
> exiting
> >> 2010-12-09 04:32:33,139 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 8 on 60020: exiting2010-12-09 04:32:33,140 INFO
> org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 4 on 60020:
> exiting
> >> 2010-12-09 04:32:33,140 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 3 on 60020: exiting2010-12-09 04:32:33,142 INFO
> org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 7 on 60020:
> exiting
> >> 2010-12-09 04:32:33,142 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 9 on 60020: exiting2010-12-09 04:32:33,143 INFO
> org.apache.hadoop.hbase.regionserver.HRegionServer: Stopping infoServer
> >> 2010-12-09 04:32:33,143 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 2 on 60020: exiting
> >> 2010-12-09 04:32:33,143 INFO org.apache.hadoop.ipc.HBaseServer: Stopping
> IPC Server Responder
> >> 2010-12-09 04:32:33,143 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 6 on 60020: exiting
> >> 2010-12-09 04:32:33,144 INFO org.mortbay.log: Stopped
> selectchannelconnec...@0.0.0.0:60030
> >>
> >>
> >>
> >>
> >> NAMENODE ->
> >> 2010-12-09 04:32:08,408 WARN org.apache.hadoop.hdfs.StateChange: DIR*
> NameSystem.startFile: failed to create file
> /hbase/.logs/05.hadoop.jive,60020,1291862294517/10.100.159.13%3A60020.1291868481555
> for DFSClient_hb_m_10.194.194.79:60000_1291788452343 on client
> 10.194.194.79, because this file is already being created by NN_Recovery on
> 10.100.159.13
> >> 2010-12-09 04:32:08,408 INFO org.apache.hadoop.ipc.Server: IPC Server
> handler 6 on 54310, call
> append(/hbase/.logs/05.hadoop.jive,60020,1291862294517/10.100.159.13%3A60020.1291868481555,
> DFSClient_hb_m_10.194.194.79:60000_1291788452343) from 10.194.194.79:59118:
> error: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed
> to create file /hba
> >> se/.logs/05.hadoop.jive,60020,1291862294517/10.100.159.13%3A60020.1291868481555
> for DFSClient_hb_m_10.194.194.79:60000_1291788452343 on client
> 10.194.194.79, because this file is already being created by NN_Recovery on
> 10.100.159.13
> >> org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to
> create file 
> /hbase/.logs/05.hadoop.jive,60020,1291862294517/10.100.159.13%3A60020.1291868481555
> for DFSClient_hb_m_10.194.194.79:60000_1291788452343 on client
> 10.194.194.79, because this file is already being created by NN_Recovery on
> 10.100.159.13
> >>        at
> org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:1194)
>        at
> org.apache.hadoop.hdfs.server.namenode.FSNamesystem.appendFile(FSNamesystem.java:1282)
> >>        at
> org.apache.hadoop.hdfs.server.namenode.NameNode.append(NameNode.java:541)
>      at sun.reflect.GeneratedMethodAccessor37.invoke(Unknown Source)
> >>        at
> sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
>        at java.lang.reflect.Method.invoke(Method.java:597)
> >>        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:528)        at
> org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1319)
> >>        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1315)
>      at java.security.AccessController.doPrivileged(Native Method)
> >>        at javax.security.auth.Subject.doAs(Subject.java:396)        at
> org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1063)
> >>        at
> org.apache.hadoop.ipc.Server$Handler.run(Server.java:1313)2010-12-09
> 04:32:09,411 WARN org.apache.hadoop.hdfs.StateChange: DIR*
> NameSystem.startFile: failed to create file
> /hbase/.logs/05.hadoop.jive,60020,1291862294517/10.100.159.13%3A6
> >> 0020.1291868481555 for DFSClient_hb_m_10.194.194.79:60000_1291788452343
> on client 10.194.194.79, because this file is already being created by
> NN_Recovery on 10.100.159.132010-12-09 04:32:09,411 INFO
> org.apache.hadoop.ipc.Server: IPC Server handler 9 on 54310, call
> append(/hbase/.logs/05.hadoop.jive,60020,1291862294517/10.100.159.13
> %3A60020.1291868
> >> 481555, DFSClient_hb_m_10.194.194.79:60000_1291788452343) from
> 10.194.194.79:59118: error:
> org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to
> create file 
> /hbase/.logs/05.hadoop.jive,60020,1291862294517/10.100.159.13%3A60020.1291868481555
> for DFSClient_hb_m_10.194.194.79:60000_1291788452343 on client
> 10.194.194.79, because this file is
> >> already being created by NN_Recovery on
> 10.100.159.13org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException:
> failed to create file /hbase/.logs/05.hadoop.jive,60020,1291862294517/
> 10.100.159.13%3A60020.1291868481555 for DFSClie
> >> nt_hb_m_10.194.194.79:60000_1291788452343 on client 10.194.194.79,
> because this file is already being created by NN_Recovery on 10.100.159.13
>      at
> org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:1194)
> >>        at
> org.apache.hadoop.hdfs.server.namenode.FSNamesystem.appendFile(FSNamesystem.java:1282)
>        at
> org.apache.hadoop.hdfs.server.namenode.NameNode.append(NameNode.java:541)
> >>        at sun.reflect.GeneratedMethodAccessor37.invoke(Unknown Source)
>      at
> sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
> >>        at java.lang.reflect.Method.invoke(Method.java:597)        at
> org.apache.hadoop.ipc.RPC$Server.call(RPC.java:528)
> >>        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1319)
>      at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1315)
> >>
> >>
> >>
> >> DATANODE
> >>
> >> 2010-12-09 04:32:09,534 INFO
> org.apache.hadoop.hdfs.server.datanode.DataNode: PacketResponder
> blk_2012253533858803341_250248 1 : Thread is interrupted.
> >> 2010-12-09 04:32:09,534 ERROR
> org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(
> 10.100.159.13:50010,
> storageID=DS-145997007-10.100.159.13-50010-1291262743182, infoPort=50075,
> ipcPort=50020):DataXceiver
> >> java.io.IOException: Interrupted receiveBlock
> >>        at
> org.apache.hadoop.hdfs.server.datanode.BlockReceiver.receiveBlock(BlockReceiver.java:579)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.DataXceiver.writeBlock(DataXceiver.java:417)
> >>        at
> org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:122)
> >> 2010-12-09 04:32:09,534 INFO
> org.apache.hadoop.hdfs.server.datanode.DataNode: PacketResponder 1 for block
> blk_2012253533858803341_250248 terminating
> >>
> >>
> >>
> ************************************************************************************
> >> 06.hadoop
> >>
> ************************************************************************************
> >> REGION SERVER ->
> >>
> >> 2010-12-09 06:17:47,215 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:47,430 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:47,549 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:47,557 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:47,563 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:48,619 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:48,619 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:48,619 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:48,619 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:48,619 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:49,703 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:49,703 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:49,703 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:49,705 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >> 2010-12-09 06:17:49,729 DEBUG
> org.apache.hadoop.hbase.regionserver.HRegionServer:
> NotServingRegionException;
> article,8d36892f14dfa6d17d08900743960d0b0973fc96,1291812431639.cce2b650859704eb184df8fb5c5eee6f.
> >>
> >> A bunch of these ^
> >>
> >> Then a little later::
> >> ....
> >>
> >> 2010-12-09 06:23:23,561 DEBUG
> org.apache.hadoop.hbase.regionserver.CompactSplitThread: Compaction
> requested for region
> article,993143fca3613014990cc6975cacdd62f4147e03,12918133247
> >> 53.19413f33fc660536d9d4f315a1283440. because:
> regionserver60020.cacheFlusher
> >> 2010-12-09 06:23:27,058 INFO
> org.apache.hadoop.hbase.regionserver.wal.SequenceFileLogWriter: Using syncFs
> -- HDFS-200
> >> 2010-12-09 06:23:27,080 INFO
> org.apache.hadoop.hbase.regionserver.wal.HLog: Roll
> /hbase/.logs/06.hadoop.****,60020,1291864620851/10.99.97.106%3A60020.1291875047947,
> entries=53315,
> >>  filesize=63781925. New hlog
> /hbase/.logs/06.hadoop.****,60020,1291864620851/10.99.97.106
> %3A60020.1291875807006
> >> 2010-12-09 06:23:27,080 DEBUG
> org.apache.hadoop.hbase.regionserver.wal.HLog: Found 1 hlogs to remove  out
> of total 8; oldest outstanding sequenceid is 33526881 from region article
> >>
> ,1221b0013c61fd7446cb822f698d0bcafa487342,1291872610788.bb2aa6ae8c694a096a00e7bb91fc46c3.
> >> 2010-12-09 06:23:27,080 INFO
> org.apache.hadoop.hbase.regionserver.wal.HLog: moving old hlog file
> /hbase/.logs/06.hadoop.****,60020,1291864620851/10.99.97.106
> %3A60020.1291872064424
> >>  whose highest sequenceid is 33506639 to /hbase/.oldlogs/10.99.97.106
> %3A60020.1291872064424
> >> 2010-12-09 06:25:39,162 WARN
> org.apache.hadoop.hbase.regionserver.wal.HLog: IPC Server handler 12 on
> 60020 took 119034ms appending an edit to hlog; editcount=3683
> >> 2010-12-09 06:25:39,162 WARN org.apache.hadoop.hdfs.DFSClient:
> DataStreamer Exception: java.io.IOException: Broken pipe
> >>        at sun.nio.ch.FileDispatcher.write0(Native Method)
> >>        at sun.nio.ch.SocketDispatcher.write(SocketDispatcher.java:29)
> >>        at sun.nio.ch.IOUtil.writeFromNativeBuffer(IOUtil.java:100)
> >>        at sun.nio.ch.IOUtil.write(IOUtil.java:71)
> >>        at sun.nio.ch.SocketChannelImpl.write(SocketChannelImpl.java:334)
> >>        at
> org.apache.hadoop.net.SocketOutputStream$Writer.performIO(SocketOutputStream.java:55)
> >>        at
> org.apache.hadoop.net.SocketIOWithTimeout.doIO(SocketIOWithTimeout.java:142)
> >>        at
> org.apache.hadoop.net.SocketOutputStream.write(SocketOutputStream.java:146)
> >>        at
> org.apache.hadoop.net.SocketOutputStream.write(SocketOutputStream.java:107)
> >>        at
> java.io.BufferedOutputStream.write(BufferedOutputStream.java:105)
> >>        at java.io.DataOutputStream.write(DataOutputStream.java:90)
> >>        at
> org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:2509)
> >> 2010-12-09 06:25:39,163 WARN org.apache.hadoop.hdfs.DFSClient:
> DFSOutputStream ResponseProcessor exception  for block
> blk_1141147913164105086_258331java.io.EOFException
> >>        at java.io.DataInputStream.readFully(DataInputStream.java:180)
> >>        at java.io.DataInputStream.readLong(DataInputStream.java:399)
> >>        at
> org.apache.hadoop.hdfs.protocol.DataTransferProtocol$PipelineAck.readFields(DataTransferProtocol.java:120)
> >>        at
> org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$ResponseProcessor.run(DFSClient.java:2621)
> >>
> >> 2010-12-09 06:25:39,163 INFO org.apache.hadoop.hdfs.DFSClient: Error
> Recovery for block blk_1141147913164105086_258331 waiting for responder to
> exit.
> >> 2010-12-09 06:25:39,164 WARN org.apache.hadoop.hdfs.DFSClient:
> DFSOutputStream ResponseProcessor exception  for block
> blk_-7076574401277381592_258324java.io.EOFException
> >>        at java.io.DataInputStream.readFully(DataInputStream.java:180)
> >>        at java.io.DataInputStream.readLong(DataInputStream.java:399)
> >>        at
> org.apache.hadoop.hdfs.protocol.DataTransferProtocol$PipelineAck.readFields(DataTransferProtocol.java:120)
> >>        at
> org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$ResponseProcessor.run(DFSClient.java:2621)
> >>
> >> 2010-12-09 06:25:39,164 WARN org.apache.hadoop.hdfs.DFSClient: Error
> Recovery for block blk_-7076574401277381592_258324 bad datanode[0]
> 10.99.97.106:50010
> >> 2010-12-09 06:25:39,164 INFO org.apache.zookeeper.ClientCnxn: Unable to
> read additional data from server sessionid 0x12ca58c08ff004b, likely server
> has closed socket, closing socket connection and attempting reconnect
> >> 2010-12-09 06:25:39,164 WARN org.apache.hadoop.hdfs.DFSClient: Error
> Recovery for block blk_-7076574401277381592_258324 in pipeline
> 10.99.97.106:50010, 10.100.154.103:50010: bad datanode 10.99.97.106:50010
> >> 2010-12-09 06:25:39,165 WARN org.apache.hadoop.hdfs.DFSClient: Error
> Recovery for block blk_1141147913164105086_258331 bad datanode[0]
> 10.99.97.106:50010
> >> 2010-12-09 06:25:39,167 INFO org.apache.zookeeper.ClientCnxn: Unable to
> read additional data from server sessionid 0x12ca58c08ff004c, likely server
> has closed socket, closing socket connection and attempting reconnect
> >> 2010-12-09 06:25:39,169 INFO org.apache.hadoop.ipc.Client: Retrying
> connect to server: /10.100.154.103:50020. Already tried 0 time(s).
> >> 2010-12-09 06:25:39,169 WARN org.apache.hadoop.hdfs.DFSClient: Error
> Recovery for block blk_1141147913164105086_258331 in pipeline
> 10.99.97.106:50010, 10.100.159.13:50010: bad datanode 10.99.97.106:50010
> >> 2010-12-09 06:25:39,209 INFO
> org.apache.hadoop.hbase.regionserver.HRegionServer: MSG_REGIONSERVER_STOP
> >> 2010-12-09 06:25:39,210 INFO org.apache.hadoop.ipc.HBaseServer: Stopping
> server on 60020
> >> 2010-12-09 06:25:39,210 INFO org.apache.hadoop.ipc.HBaseServer: IPC
> Server handler 3 on 60020: exiting
> >> 2010-12-09 06:25:39,210 INFO org.apache.hadoop.ipc.HBaseServer: IPC
> Server handler 9 on 60020: exiting
> >> 2010-12-09 06:25:39,210 INFO org.apache.hadoop.ipc.HBaseServer: IPC
> Server handler 24 on 60020: exiting
> >> 2010-12-09 06:25:39,210 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 1 on 60020: exiting
> >> 2010-12-09 06:25:39,210 INFO org.apache.hadoop.ipc.HBaseServer: IPC
> Server handler 15 on 60020: exiting
> >> 2010-12-09 06:25:39,215 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 0 on 60020: exiting
> >> 2010-12-09 06:25:39,214 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 3 on 60020: exiting
> >> 2010-12-09 06:25:39,214 INFO org.apache.hadoop.ipc.HBaseServer: Stopping
> IPC Server listener on 60020
> >> 2010-12-09 06:25:39,215 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 2 on 60020: exiting
> >> 2010-12-09 06:25:39,215 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 7 on 60020: exiting
> >> 2010-12-09 06:25:39,213 INFO org.apache.hadoop.ipc.HBaseServer: IPC
> Server handler 21 on 60020: exiting
> >> 2010-12-09 06:25:39,215 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 4 on 60020: exiting
> >> 2010-12-09 06:25:39,215 INFO org.apache.hadoop.ipc.HBaseServer: Stopping
> IPC Server Responder
> >> 2010-12-09 06:25:39,215 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 5 on 60020: exiting
> >> 2010-12-09 06:25:39,216 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 8 on 60020: exiting
> >> 2010-12-09 06:25:39,216 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 9 on 60020: exiting
> >> 2010-12-09 06:25:39,216 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC
> Server handler 6 on 60020: exiting
> >> 2010-12-09 06:25:39,216 INFO
> org.apache.hadoop.hbase.regionserver.HRegionServer: Stopping infoServer
> >> 2010-12-09 06:25:39,223 WARN org.apache.hadoop.hdfs.DFSClient: Failed
> recovery attempt #0 from primary datanode 10.100.159.13:50010
> >>
> >>
> >>
> >>
>
>

Re: Crashing Region Servers

Reply via email to