[GitHub] spark pull request #19185: [Spark-21854] Added LogisticRegressionTrainingSum...

yanboliang Mon, 11 Sep 2017 04:55:09 -0700

Github user yanboliang commented on a diff in the pull request:

    https://github.com/apache/spark/pull/19185#discussion_r138047555
  
    --- Diff: python/pyspark/ml/tests.py ---
    @@ -1478,6 +1478,40 @@ def test_logistic_regression_summary(self):
             sameSummary = model.evaluate(df)
             self.assertAlmostEqual(sameSummary.areaUnderROC, s.areaUnderROC)
     
    +    def test_multiclass_logistic_regression_summary(self):
    +        df = self.spark.createDataFrame([(1.0, 2.0, Vectors.dense(1.0)),
    +                                         (0.0, 2.0, Vectors.sparse(1, [], 
[])),
    +                                         (2.0, 2.0, Vectors.dense(2.0)),
    +                                         (2.0, 2.0, Vectors.dense(1.9))],
    +                                        ["label", "weight", "features"])
    +        lr = LogisticRegression(maxIter=5, regParam=0.01, 
weightCol="weight", fitIntercept=False)
    +        model = lr.fit(df)
    +        self.assertTrue(model.hasSummary)
    +        s = model.summary
    +        # test that api is callable and returns expected types
    +        self.assertTrue(isinstance(s.predictions, DataFrame))
    +        self.assertEqual(s.probabilityCol, "probability")
    +        self.assertEqual(s.labelCol, "label")
    +        self.assertEqual(s.featuresCol, "features")
    +        self.assertEqual(s.predictionCol, "prediction")
    +        objHist = s.objectiveHistory
    +        self.assertTrue(isinstance(objHist, list) and 
isinstance(objHist[0], float))
    +        self.assertGreater(s.totalIterations, 0)
    +        self.assertTrue(isinstance(s.labels, list))
    +        self.assertTrue(isinstance(s.truePositiveRateByLabel, list))
    +        self.assertTrue(isinstance(s.falsePositiveRateByLabel, list))
    +        self.assertTrue(isinstance(s.precisionByLabel, list))
    +        self.assertTrue(isinstance(s.recallByLabel, list))
    +        self.assertTrue(isinstance(s.fMeasureByLabel, list))
    +        self.assertAlmostEqual(s.accuracy, 0.75, 2)
    +        self.assertAlmostEqual(s.weightedTruePositiveRate, 0.75, 2)
    +        self.assertAlmostEqual(s.weightedFalsePositiveRate, 0.25, 2)
    +        self.assertAlmostEqual(s.weightedRecall, 0.75, 2)
    +        self.assertAlmostEqual(s.weightedPrecision, 0.583, 2)
    +        self.assertAlmostEqual(s.weightedFMeasure, 0.65, 2)
    +        # test evaluation (with training dataset) produces a summary with 
same values
    +        # one check is enough to verify a summary is returned, Scala 
version runs full test
    --- End diff --
    
    Please add test for evaluation like:
    ```
    sameSummary = model.evaluate(df)
    self.assertAlmostEqual(sameSummary.accuracy, s.accuracy)
    ```



---

---------------------------------------------------------------------
To unsubscribe, e-mail: reviews-unsubscr...@spark.apache.org
For additional commands, e-mail: reviews-h...@spark.apache.org

[GitHub] spark pull request #19185: [Spark-21854] Added LogisticRegressionTrainingSum...

Reply via email to