how many output files can support by MultipleOutputs?

Jun Young Kim Sun, 20 Feb 2011 17:20:10 -0800

hi,

in an application, I read many files in many directories.

additionally, by using MultipleOutputs class, I try to write thousandsof output files in many directories.


during reduce processing(reduce task count is 1),
almost my job(average job counts in parallel are 20) are failed.

almost error types are like

java.io.IOException: Bad connect ack with firstBadLink as10.25.241.101:50010 atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:889)atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:820)atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:427)

java.io.EOFException atjava.io.DataInputStream.readShort(DataInputStream.java:298) atorg.apache.hadoop.hdfs.protocol.DataTransferProtocol$Status.read(DataTransferProtocol.java:113)atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:881)atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:820)atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:427)

org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: Errorwhile doing final merge atorg.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:159) atorg.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:362) atorg.apache.hadoop.mapred.Child$4.run(Child.java:217) atjava.security.AccessController.doPrivileged(Native Method) atjavax.security.auth.Subject.doAs(Subject.java:396) atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:742)at org.apache.hadoop.mapred.Child.main(Child.java:211) Caused by:org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not findany valid local directory for output/map_869.out atorg.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:351)atorg.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:132)atorg.apache.hadoop.mapred.MapOutputFile.getInputFileForWrite(MapOutputFile.java:182)at org.apache.hadoop.mapreduce.task.reduce.MergeMa

currenly, I suspect this is caused by limitations of hadoop to supportoutput file descriptor count.

(I am using a linux server to support this job, server configuration is

$> cat /proc/sys/fs/file-max
327680

--
Junyoung Kim (juneng...@gmail.com)

how many output files can support by MultipleOutputs?

Reply via email to