我可以在pyspark中提取逻辑回归系数的显着值吗答案

【问题标题】：Can I extract significane values for Logistic Regression coefficients in pyspark我可以在pyspark中提取逻辑回归系数的显着值吗
【发布时间】：2016-12-05 18:13:03
【问题描述】：

在我们对训练数据拟合逻辑回归模型后，有没有办法获得我们收到的每个系数的显着性水平？

我试图找到一种方法，但无法弄清楚自己。

如果我运行 chi sq 测试，我想我可能会得到每个特征的显着性水平，但首先我不确定我是否可以一起对所有特征运行测试，其次我有数字数据值，所以如果它会给我正确的结果与否也是一个问题。

现在我正在使用 statsmodel 和 scikit learn 运行建模部分，但我当然想知道如何从 pySparl ML 或 MLLib 本身获得这些结果

如果有人能解释一下，那将很有帮助

【问题讨论】：

标签： apache-spark machine-learning pyspark logistic-regression significance

【解决方案1】：

我只使用mllib，我认为当你训练一个模型时，你可以使用toPMML方法将你的模型导出为非PMML格式（xml文件），然后你可以解析xml文件来获取特征权重，这里是一个例子

https://spark.apache.org/docs/2.0.2/mllib-pmml-model-export.html

希望对你有所帮助

【讨论】：

感谢您的回复。目前，我使用了一种混合方法，使用 pyspark 对输入数据进行 ELT，然后通过切换到 statsmodels 进行建模。这对我有用。当然，我失去了 Spark 的好处，但它对我的目的有所帮助。
这是一个糟糕的答案。他要求的是特征显着性，而不是权重。