Check consistency of gzip files in HDFS

Charles Gonçalves Thu, 10 Feb 2011 12:58:25 -0800

Hy Guys,

I have 2 TB of data to process on my MSC work, but I share resources with
others students and don't have all that space.
So I gzipped my files in splits with sizes similars with the block (to
benefit from multiple maps).


The problem is that i'm getting a lot of those errors:

java.io.IOException: incorrect data check
        at 
org.apache.hadoop.io.compress.zlib.ZlibDecompressor.inflateBytesDirect(Native
Method)
        at 
org.apache.hadoop.io.compress.zlib.ZlibDecompressor.decompress(ZlibDecompressor.java:221)
        at 
org.apache.hadoop.io.compress.DecompressorStream.decompress(DecompressorStream.java:80)
        at 
org.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:74)
        at java.io.InputStream.read(InputStream.java:85)
        at org.apache.hadoop.util.LineReader.readLine(LineReader.java:134)
        at 
org.apache.hadoop.mapreduce.lib.input.LineRecordReader.nextKeyValue(LineRecordReader.java:97)
        at msc.pig.EdgeLoader.getValidFields(Unknown Source)
        at msc.pig.EdgeLoader.getNext(Unknown Source)
        at 
org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigRecordReader.nextKeyValue(PigRecordReader.java:187)
        at 
org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:423)
        at 
org.apache.hadoop.mapreduce.MapContext.nextKeyValue(MapContext.java:67)
        at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:143)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:621)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:305)
        at org.apache.hadoop.mapred.Child.main(Child.java:170)

Does anyone has a suggestion on how can I check which file(s) has this problem?


Thanks

-- 
*Charles Ferreira Gonçalves *
http://homepages.dcc.ufmg.br/~charles/
UFMG - ICEx - Dcc
Cel.: 55 31 87741485
Tel.:  55 31 34741485
Lab.: 55 31 34095840

Check consistency of gzip files in HDFS

Reply via email to