Re: SparkSQL overwrite parquet file does not generate _common_metadata

Cheng Lian Thu, 26 Mar 2015 04:28:52 -0700

I couldn’t reproduce this with the following spark-shell snippet:


|scala> import sqlContext.implicits._
scala> Seq((1, 2)).toDF("a", "b")
scala> res0.save("xxx", org.apache.spark.sql.SaveMode.Overwrite)
scala> res0.save("xxx", org.apache.spark.sql.SaveMode.Overwrite)
|

The _common_metadata file is typically much smaller than _metadata,because it doesn’t contain row group information, and thus can be fasterto read than _metadata.


Cheng

On 3/26/15 12:48 PM, Pei-Lun Lee wrote:

Hi,
When I save parquet file with SaveMode.Overwrite, it never generate_common_metadata. Whether it overwrites an existing dir or not.
Is this expected behavior?
And what is the benefit of _common_metadata? Will reading performsbetter when it is present?
Thanks,
--
Pei-Lun

Re: SparkSQL overwrite parquet file does not generate _common_metadata

Reply via email to