调整 Apache Spark MLlib 算法答案

【问题标题】：Tuning Apache Spark MLlib algorithms调整 Apache Spark MLlib 算法
【发布时间】：2016-01-02 21:45:28
【问题描述】：

我正在使用 Apche Spark Mllib 逻辑回归和线性回归算法。我正在使用文档中给出的代码 sn-p。现在在最新版本的 Spark 1.5 中使用 LogisticRegressionWithSGD 和 LinearRegression 时出现的问题。

我用于LogisticRegressionwithSGD的参数值是

步长=0.01
迭代次数 = 1000
minBatchFraction = 0.001

这个值的混淆矩阵是

27821    0        
2287    0

对于具有 LogisticRegressionWithLBFGS 的相同数据，混淆矩阵为

27541   280  
1249   1038

我对 LogisticRegressionWithSGD 的结果一无所知。您能否告诉我使用 LogisticRegressionWithSGD 没有获得正确结果的原因。

【问题讨论】：

【解决方案1】：

对于 LogisticRegressionWithSGD，您需要更改参数以便获得更好的准确度。参数值似乎不适合您的数据。试试

  stepSize = 1.0
  numIterations = 1000
  miniBatchFraction = 1.0

此外，对于优化 LogisticRegressionWithLBFGS 结果，您尝试预测的第二类似乎有很多误报。由于结果可能在很大程度上取决于您的数据，请问自己数据是否平衡或有偏差？数量和质量是否足以学习模式？属性的选择和标准化是否充分？

【讨论】：