[GitHub] spark pull request #20146: [SPARK-11215][ML] Add multiple columns support to...

viirya Fri, 07 Dec 2018 20:14:21 -0800

Github user viirya commented on a diff in the pull request:

    https://github.com/apache/spark/pull/20146#discussion_r239992845
  
    --- Diff: 
mllib/src/main/scala/org/apache/spark/ml/feature/StringIndexer.scala ---
    @@ -310,11 +439,23 @@ object StringIndexerModel extends 
MLReadable[StringIndexerModel] {
         override def load(path: String): StringIndexerModel = {
           val metadata = DefaultParamsReader.loadMetadata(path, sc, className)
           val dataPath = new Path(path, "data").toString
    -      val data = sparkSession.read.parquet(dataPath)
    -        .select("labels")
    -        .head()
    -      val labels = data.getAs[Seq[String]](0).toArray
    -      val model = new StringIndexerModel(metadata.uid, labels)
    +
    +      val (majorVersion, minorVersion) = 
majorMinorVersion(metadata.sparkVersion)
    +      val labelsArray = if (majorVersion < 2 || (majorVersion == 2 && 
minorVersion <= 3)) {
    --- End diff --
    
    This is for loading old StringIndexerModel saved by previous Spark. 
Previous model has `labels`, but new model has `labelsArray`.



---

---------------------------------------------------------------------
To unsubscribe, e-mail: reviews-unsubscr...@spark.apache.org
For additional commands, e-mail: reviews-h...@spark.apache.org

[GitHub] spark pull request #20146: [SPARK-11215][ML] Add multiple columns support to...

Reply via email to