[GitHub] spark pull request #18000: [SPARK-20364][SQL] Disable Parquet predicate push...

viirya Wed, 17 May 2017 08:14:03 -0700

Github user viirya commented on a diff in the pull request:

    https://github.com/apache/spark/pull/18000#discussion_r117030310
  
    --- Diff: 
sql/core/src/test/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetFilterSuite.scala
 ---
    @@ -47,39 +49,45 @@ import org.apache.spark.util.{AccumulatorContext, 
AccumulatorV2}
      *    data type is nullable.
      */
     class ParquetFilterSuite extends QueryTest with ParquetTest with 
SharedSQLContext {
    +
    +  private def checkWithSelectedFilters
    +      (df: DataFrame, predicate: Predicate)
    +      (checker: (DataFrame, Seq[Filter]) => Unit): Unit = {
    +    val output = predicate.collect { case a: Attribute => a }.distinct
    +
    +    val filtered = df
    +      .select(output.map(e => Column(e)): _*)
    +      .where(Column(predicate))
    +
    +    var maybeRelation: Option[HadoopFsRelation] = None
    +    val maybeAnalyzedPredicate = 
filtered.queryExecution.optimizedPlan.collect {
    +      case PhysicalOperation(_, filters, LogicalRelation(relation: 
HadoopFsRelation, _, _)) =>
    +        maybeRelation = Some(relation)
    +        filters
    +    }.flatten.reduceLeftOption(_ && _)
    +    assert(maybeAnalyzedPredicate.isDefined, "No filter is analyzed from 
the given query")
    +
    +    val (_, selectedFilters, _) =
    +      DataSourceStrategy.selectFilters(maybeRelation.get, 
maybeAnalyzedPredicate.toSeq)
    +    assert(selectedFilters.nonEmpty, "No filter is pushed down")
    +    checker(filtered, selectedFilters)
    +  }
    +
       private def checkFilterPredicate(
           df: DataFrame,
           predicate: Predicate,
           filterClass: Class[_ <: FilterPredicate],
           checker: (DataFrame, Seq[Row]) => Unit,
           expected: Seq[Row]): Unit = {
    -    val output = predicate.collect { case a: Attribute => a }.distinct
    +    checkWithSelectedFilters(df, predicate) { case (filtered, 
selectedFilters) =>
    +      selectedFilters.foreach { pred =>
    +        val maybeFilter = ParquetFilters.createFilter(df.schema, pred)
    +        assert(maybeFilter.isDefined, s"Couldn't generate filter predicate 
for $pred")
    +      }
     
    -    withSQLConf(SQLConf.PARQUET_FILTER_PUSHDOWN_ENABLED.key -> "true") {
    -      withSQLConf(SQLConf.PARQUET_VECTORIZED_READER_ENABLED.key -> 
"false") {
    -        val query = df
    -          .select(output.map(e => Column(e)): _*)
    -          .where(Column(predicate))
    -
    -        var maybeRelation: Option[HadoopFsRelation] = None
    -        val maybeAnalyzedPredicate = 
query.queryExecution.optimizedPlan.collect {
    -          case PhysicalOperation(_, filters, LogicalRelation(relation: 
HadoopFsRelation, _, _)) =>
    -            maybeRelation = Some(relation)
    -            filters
    -        }.flatten.reduceLeftOption(_ && _)
    -        assert(maybeAnalyzedPredicate.isDefined, "No filter is analyzed 
from the given query")
    -
    -        val (_, selectedFilters, _) =
    -          DataSourceStrategy.selectFilters(maybeRelation.get, 
maybeAnalyzedPredicate.toSeq)
    -        assert(selectedFilters.nonEmpty, "No filter is pushed down")
    -
    -        selectedFilters.foreach { pred =>
    -          val maybeFilter = ParquetFilters.createFilter(df.schema, pred)
    -          assert(maybeFilter.isDefined, s"Couldn't generate filter 
predicate for $pred")
    -          // Doesn't bother checking type parameters here (e.g. 
`Eq[Integer]`)
    -          maybeFilter.exists(_.getClass === filterClass)
    --- End diff --
    
    Don't we need the check of `filterClass`? Why remove it?



---
If your project is set up for it, you can reply to this email and have your
reply appear on GitHub as well. If your project does not have this feature
enabled and wishes so, or if the feature is enabled but not working, please
contact infrastructure at infrastruct...@apache.org or file a JIRA ticket
with INFRA.
---

---------------------------------------------------------------------
To unsubscribe, e-mail: reviews-unsubscr...@spark.apache.org
For additional commands, e-mail: reviews-h...@spark.apache.org

[GitHub] spark pull request #18000: [SPARK-20364][SQL] Disable Parquet predicate push...

Reply via email to