【问题标题】:Tuning Apache Spark MLlib algorithms调整 Apache Spark MLlib 算法
【发布时间】:2016-01-02 21:45:28
【问题描述】:

我正在使用 Apche Spark Mllib 逻辑回归和线性回归算法。我正在使用文档中给出的代码 sn-p。现在在最新版本的 Spark 1.5 中使用 LogisticRegressionWithSGD 和 LinearRegression 时出现的问题。

我用于LogisticRegressionwithSGD的参数值是

步长=0.01
迭代次数 = 1000
minBatchFraction = 0.001

这个值的混淆矩阵是

27821    0        
2287    0

对于具有 LogisticRegressionWithLBFGS 的相同数据,混淆矩阵为

27541   280  
1249   1038

我对 LogisticRegressionWithSGD 的结果一无所知。您能否告诉我使用 LogisticRegressionWithSGD 没有获得正确结果的原因。

【问题讨论】:

    标签: machine-learning data-mining gradient-descent confusion-matrix apache-spark-mllib


    【解决方案1】:

    对于 LogisticRegressionWithSGD,您需要更改参数以便获得更好的准确度。 参数值似乎不适合您的数据。试试

      stepSize = 1.0
      numIterations = 1000
      miniBatchFraction = 1.0
    

    此外,对于优化 LogisticRegressionWithLBFGS 结果,您尝试预测的第二类似乎有很多误报。由于结果可能在很大程度上取决于您的数据,请问自己数据是否平衡或有偏差?数量和质量是否足以学习模式?属性的选择和标准化是否充分?

    【讨论】:

      猜你喜欢
      • 2016-03-07
      • 2018-02-17
      • 1970-01-01
      • 2015-03-31
      • 2015-02-07
      • 2014-09-05
      • 2017-02-17
      • 2015-10-25
      • 2015-06-19
      相关资源
      最近更新 更多