Re: BigDecimal problem in parquet file

Cheng Lian Wed, 17 Jun 2015 15:32:26 -0700

Does increasing executor memory fix the memory problem?

How many columns does the schema contain? Parquet can be super memoryconsuming when writing wide tables.


Cheng

On 6/15/15 5:48 AM, Bipin Nag wrote:

HI Davies,
I have tried recent 1.4 and 1.5-snapshot to 1) open the parquet andsave it again or 2 apply schema to rdd and save dataframe as parquetbut now I get this error (right in the beginning):
java.lang.OutOfMemoryError: Java heap space
atparquet.bytes.CapacityByteArrayOutputStream.initSlabs(CapacityByteArrayOutputStream.java:65)atparquet.bytes.CapacityByteArrayOutputStream.<init>(CapacityByteArrayOutputStream.java:57)atparquet.hadoop.ColumnChunkPageWriteStore$ColumnChunkPageWriter.<init>(ColumnChunkPageWriteStore.java:68)atparquet.hadoop.ColumnChunkPageWriteStore$ColumnChunkPageWriter.<init>(ColumnChunkPageWriteStore.java:48)atparquet.hadoop.ColumnChunkPageWriteStore.getPageWriter(ColumnChunkPageWriteStore.java:215)atparquet.column.impl.ColumnWriteStoreImpl.newMemColumn(ColumnWriteStoreImpl.java:67)atparquet.column.impl.ColumnWriteStoreImpl.getColumnWriter(ColumnWriteStoreImpl.java:56)atparquet.io.MessageColumnIO$MessageColumnIORecordConsumer.<init>(MessageColumnIO.java:178)atparquet.io.MessageColumnIO.getRecordWriter(MessageColumnIO.java:369)atparquet.hadoop.InternalParquetRecordWriter.initStore(InternalParquetRecordWriter.java:108)atparquet.hadoop.InternalParquetRecordWriter.<init>(InternalParquetRecordWriter.java:94)atparquet.hadoop.ParquetRecordWriter.<init>(ParquetRecordWriter.java:64)atparquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:282)atparquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:252)atorg.apache.spark.sql.parquet.ParquetOutputWriter.<init>(newParquet.scala:111)atorg.apache.spark.sql.parquet.ParquetRelation2$$anon$4.newInstance(newParquet.scala:244)atorg.apache.spark.sql.sources.DefaultWriterContainer.initWriters(commands.scala:386)atorg.apache.spark.sql.sources.BaseWriterContainer.executorSideSetup(commands.scala:298)at org.apache.spark.sql.sources.InsertIntoHadoopFsRelation.org<http://org.apache.spark.sql.sources.InsertIntoHadoopFsRelation.org>$apache$spark$sql$sources$InsertIntoHadoopFsRelation$$writeRows$1(commands.scala:142)atorg.apache.spark.sql.sources.InsertIntoHadoopFsRelation$$anonfun$insert$1.apply(commands.scala:132)atorg.apache.spark.sql.sources.InsertIntoHadoopFsRelation$$anonfun$insert$1.apply(commands.scala:132)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:63)
    at org.apache.spark.scheduler.Task.run(Task.scala:70)
atorg.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)atjava.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)atjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)


Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
    at parquet.io.api.Binary.fromByteArray(Binary.java:159)
atparquet.column.values.dictionary.PlainValuesDictionary$PlainBinaryDictionary.<init>(PlainValuesDictionary.java:94)atparquet.column.values.dictionary.PlainValuesDictionary$PlainBinaryDictionary.<init>(PlainValuesDictionary.java:67)
    at parquet.column.Encoding$4.initDictionary(Encoding.java:131)
atparquet.column.impl.ColumnReaderImpl.<init>(ColumnReaderImpl.java:325)atparquet.column.impl.ColumnReadStoreImpl.newMemColumnReader(ColumnReadStoreImpl.java:63)atparquet.column.impl.ColumnReadStoreImpl.getColumnReader(ColumnReadStoreImpl.java:58)atparquet.io.RecordReaderImplementation.<init>(RecordReaderImplementation.java:267)
    at parquet.io.MessageColumnIO$1.visit(MessageColumnIO.java:131)
    at parquet.io.MessageColumnIO$1.visit(MessageColumnIO.java:96)
atparquet.filter2.compat.FilterCompat$NoOpFilter.accept(FilterCompat.java:136)
    at parquet.io.MessageColumnIO.getRecordReader(MessageColumnIO.java:96)
atparquet.hadoop.InternalParquetRecordReader.checkRead(InternalParquetRecordReader.java:126)atparquet.hadoop.InternalParquetRecordReader.nextKeyValue(InternalParquetRecordReader.java:193)atparquet.hadoop.ParquetRecordReader.nextKeyValue(ParquetRecordReader.java:204)atorg.apache.spark.sql.sources.SqlNewHadoopRDD$$anon$1.hasNext(SqlNewHadoopRDD.scala:163)atorg.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:39)
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:327)
at org.apache.spark.sql.sources.InsertIntoHadoopFsRelation.org<http://org.apache.spark.sql.sources.InsertIntoHadoopFsRelation.org>$apache$spark$sql$sources$InsertIntoHadoopFsRelation$$writeRows$1(commands.scala:152)
I am not sure if this is related to your patch or some other bug. Myerror doesn't show up in newer versions, so this is the problem to fixnow.
Thanks
On 13 June 2015 at 06:31, Davies Liu <dav...@databricks.com<mailto:dav...@databricks.com>> wrote:
    Maybe it's related to a bug, which is fixed by
    https://github.com/apache/spark/pull/6558 recently.

    On Fri, Jun 12, 2015 at 5:38 AM, Bipin Nag <bipin....@gmail.com
    <mailto:bipin....@gmail.com>> wrote:
    > Hi Cheng,
    >
    > Yes, some rows contain unit instead of decimal values. I believe
    some rows
    > from original source I had don't have any value i.e. it is null.
    And that
    > shows up as unit. How does the spark-sql or parquet handle null
    in place of
    > decimal values, assuming that field is nullable. I will have to
    change it
    > properly.
    >
    > Thanks for helping out.
    > Bipin
    >
    > On 12 June 2015 at 14:57, Cheng Lian <lian.cs....@gmail.com
    <mailto:lian.cs....@gmail.com>> wrote:
    >>
    >> On 6/10/15 8:53 PM, Bipin Nag wrote:
    >>
    >> Hi Cheng,
    >>
    >> I am using Spark 1.3.1 binary available for Hadoop 2.6. I am
    loading an
    >> existing parquet file, then repartitioning and saving it. Doing
    this gives
>> the error. The code for this doesn't look like causingproblem. I have a
    >> feeling the source - the existing parquet is the culprit.
    >>
    >> I created that parquet using a jdbcrdd (pulled from microsoft
    sql server).
    >> First I saved jdbcrdd as an objectfile on disk. Then loaded it
    again, made a
    >> dataframe from it using a schema then saved it as a parquet.
    >>
    >> Following is the code :
    >> For saving jdbcrdd:
    >>  name - fullqualifiedtablename
    >>  pk - string for primarykey
    >>  pklast - last id to pull
    >>     val myRDD = new JdbcRDD( sc, () =>
    >>  DriverManager.getConnection(url,username,password) ,
    >>         "SELECT * FROM " + name + " WITH (NOLOCK) WHERE ? <=
    "+pk+" and
    >> "+pk+" <= ?",
    >>         1, lastpk, 1, JdbcRDD.resultSetToObjectArray)
    >>     myRDD.saveAsObjectFile("rawdata/"+name);
    >>
    >> For applying schema and saving the parquet:
    >>     val myschema = schemamap(name)
    >>     val myrdd =
    >> sc.objectFile[Array[Object]]("/home/bipin/rawdata/"+name).map(x =>
    >> org.apache.spark.sql.Row(x:_*))
    >>
    >> Have you tried to print out x here to check its contents? My
    guess is that
    >> x actually contains unit values. For example, the follow Spark
    shell code
    >> can reproduce a similar exception:
    >>
    >> import org.apache.spark.sql.types._
    >> import org.apache.spark.sql.Row
    >>
    >> val schema = StructType(StructField("dec", DecimalType(10, 0))
    :: Nil)
    >> val rdd = sc.parallelize(1 to 10).map(_ => Array(())).map(arr
    => Row(arr:
    >> _*))
    >> val df = sqlContext.createDataFrame(rdd, schema)
    >>
    >> df.saveAsParquetFile("file:///tmp/foo")
    >>
    >>     val actualdata = sqlContext.createDataFrame(myrdd, myschema)
    >>  actualdata.saveAsParquetFile("/home/bipin/stageddata/"+name)
    >>
    >> Schema structtype can be made manually, though I pull table's
    metadata and
    >> make one. It is a simple string translation (see sql docs
    and/or spark
    >> datatypes)
    >>
    >> That is how I created the parquet file. Any help to solve the
    issue is
    >> appreciated.
    >> Thanks
    >> Bipin
    >>
    >>
    >> On 9 June 2015 at 20:44, Cheng Lian <lian.cs....@gmail.com
    <mailto:lian.cs....@gmail.com>> wrote:
    >>>
    >>> Would you please provide a snippet that reproduce this issue? What
    >>> version of Spark were you using?
    >>>
    >>> Cheng
    >>>
    >>> On 6/9/15 8:18 PM, bipin wrote:
    >>>>
    >>>> Hi,
    >>>> When I try to save my data frame as a parquet file I get the
    following
    >>>> error:
    >>>>
    >>>> java.lang.ClassCastException: scala.runtime.BoxedUnit cannot
    be cast to
    >>>> org.apache.spark.sql.types.Decimal
    >>>>         at
    >>>>
    >>>>
    
org.apache.spark.sql.parquet.RowWriteSupport.writePrimitive(ParquetTableSupport.scala:220)
    >>>>         at
    >>>>
    >>>>
    
org.apache.spark.sql.parquet.RowWriteSupport.writeValue(ParquetTableSupport.scala:192)
    >>>>         at
    >>>>
    >>>>
    
org.apache.spark.sql.parquet.RowWriteSupport.write(ParquetTableSupport.scala:171)
    >>>>         at
    >>>>
    >>>>
    
org.apache.spark.sql.parquet.RowWriteSupport.write(ParquetTableSupport.scala:134)
    >>>>         at
    >>>>
    >>>>
    
parquet.hadoop.InternalParquetRecordWriter.write(InternalParquetRecordWriter.java:120)
    >>>>         at
    >>>>
    parquet.hadoop.ParquetRecordWriter.write(ParquetRecordWriter.java:81)
    >>>>         at
    >>>>
    parquet.hadoop.ParquetRecordWriter.write(ParquetRecordWriter.java:37)
    >>>>         at
    >>>>
    >>>> org.apache.spark.sql.parquet.ParquetRelation2.org
    
<http://org.apache.spark.sql.parquet.ParquetRelation2.org>$apache$spark$sql$parquet$ParquetRelation2$writeShard$1(newParquet.scala:671)
    >>>>         at
    >>>>
    >>>>
    
org.apache.spark.sql.parquet.ParquetRelation2$anonfun$insert$2.apply(newParquet.scala:689)
    >>>>         at
    >>>>
    >>>>
    
org.apache.spark.sql.parquet.ParquetRelation2$anonfun$insert$2.apply(newParquet.scala:689)
    >>>>         at
    >>>>
    org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:61)
    >>>>         at org.apache.spark.scheduler.Task.run(Task.scala:64)
    >>>>         at
    >>>>
    org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:203)
    >>>>         at
    >>>>
    >>>>
    
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    >>>>         at
    >>>>
    >>>>
    
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    >>>>         at java.lang.Thread.run(Thread.java:745)
    >>>>
    >>>> How to fix this problem ?
    >>>>
    >>>>
    >>>>
    >>>> --
    >>>> View this message in context:
    >>>>
    
http://apache-spark-user-list.1001560.n3.nabble.com/BigDecimal-problem-in-parquet-file-tp23221.html
    >>>> Sent from the Apache Spark User List mailing list archive at
    Nabble.com.
    >>>>
    >>>>
    ---------------------------------------------------------------------
    >>>> To unsubscribe, e-mail: user-unsubscr...@spark.apache.org
    <mailto:user-unsubscr...@spark.apache.org>
    >>>> For additional commands, e-mail: user-h...@spark.apache.org
    <mailto:user-h...@spark.apache.org>
    >>>>
    >>>>
    >>>
    >>
    >

Re: BigDecimal problem in parquet file

Reply via email to