Re: spark timesout maybe due to binaryFiles() with more than 1 million files in HDFS

Konstantinos Kougios Mon, 08 Jun 2015 07:42:06 -0700

No luck I am afraid. After giving the namenode 16GB of RAM, I am stillgetting an out of mem exception, kind of different one:

15/06/08 15:35:52 ERROR yarn.ApplicationMaster: User class threwexception: GC overhead limit exceeded

java.lang.OutOfMemoryError: GC overhead limit exceeded

atorg.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java:1351)atorg.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java:1413)atorg.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java:1524)atorg.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java:1533)atorg.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getListing(ClientNamenodeProtocolTranslatorPB.java:557)

    at sun.reflect.GeneratedMethodAccessor24.invoke(Unknown Source)

atsun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

    at java.lang.reflect.Method.invoke(Method.java:606)

atorg.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:187)atorg.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102)

    at com.sun.proxy.$Proxy10.getListing(Unknown Source)
    at org.apache.hadoop.hdfs.DFSClient.listPaths(DFSClient.java:1969)
    at org.apache.hadoop.hdfs.DFSClient.listPaths(DFSClient.java:1952)

atorg.apache.hadoop.hdfs.DistributedFileSystem.listStatusInternal(DistributedFileSystem.java:724)atorg.apache.hadoop.hdfs.DistributedFileSystem.access$600(DistributedFileSystem.java:105)atorg.apache.hadoop.hdfs.DistributedFileSystem$15.doCall(DistributedFileSystem.java:755)atorg.apache.hadoop.hdfs.DistributedFileSystem$15.doCall(DistributedFileSystem.java:751)atorg.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)atorg.apache.hadoop.hdfs.DistributedFileSystem.listStatus(DistributedFileSystem.java:751)

    at org.apache.hadoop.fs.Globber.listStatus(Globber.java:69)
    at org.apache.hadoop.fs.Globber.glob(Globber.java:217)
    at org.apache.hadoop.fs.FileSystem.globStatus(FileSystem.java:1644)

atorg.apache.hadoop.mapreduce.lib.input.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:292)atorg.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:264)atorg.apache.spark.input.StreamFileInputFormat.setMinPartitions(PortableDataStream.scala:47)atorg.apache.spark.rdd.BinaryFileRDD.getPartitions(BinaryFileRDD.scala:43)

    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
    at scala.Option.getOrElse(Option.scala:120)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)

atorg.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:32)

    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)



and on the 2nd retry of spark, a similar exception:

java.lang.OutOfMemoryError: GC overhead limit exceeded

atcom.google.protobuf.LiteralByteString.toString(LiteralByteString.java:148)

    at com.google.protobuf.ByteString.toStringUtf8(ByteString.java:572)

atorg.apache.hadoop.hdfs.protocol.proto.HdfsProtos$HdfsFileStatusProto.getOwner(HdfsProtos.java:21558)atorg.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java:1413)atorg.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java:1524)atorg.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java:1533)atorg.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getListing(ClientNamenodeProtocolTranslatorPB.java:557)

    at sun.reflect.GeneratedMethodAccessor24.invoke(Unknown Source)

atsun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

    at java.lang.reflect.Method.invoke(Method.java:606)

atorg.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:187)atorg.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102)

    at com.sun.proxy.$Proxy10.getListing(Unknown Source)
    at org.apache.hadoop.hdfs.DFSClient.listPaths(DFSClient.java:1969)
    at org.apache.hadoop.hdfs.DFSClient.listPaths(DFSClient.java:1952)

    at org.apache.hadoop.fs.Globber.listStatus(Globber.java:69)
    at org.apache.hadoop.fs.Globber.glob(Globber.java:217)
    at org.apache.hadoop.fs.FileSystem.globStatus(FileSystem.java:1644)

    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
    at scala.Option.getOrElse(Option.scala:120)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)


Any ideas which part of hadoop is running out of mem?


---------------------------------------------------------------------
To unsubscribe, e-mail: user-unsubscr...@spark.apache.org
For additional commands, e-mail: user-h...@spark.apache.org

Re: spark timesout maybe due to binaryFiles() with more than 1 million files in HDFS

Reply via email to