【问题标题】:Can I extract significane values for Logistic Regression coefficients in pyspark我可以在pyspark中提取逻辑回归系数的显着值吗
【发布时间】:2016-12-05 18:13:03
【问题描述】:

在我们对训练数据拟合逻辑回归模型后,有没有办法获得我们收到的每个系数的显着性水平?

我试图找到一种方法,但无法弄清楚自己。

如果我运行 chi sq 测试,我想我可能会得到每个特征的显着性水平,但首先我不确定我是否可以一起对所有特征运行测试,其次我有数字数据值,所以如果它会给我正确的结果与否也是一个问题。

现在我正在使用 statsmodel 和 scikit learn 运行建模部分,但我当然想知道如何从 pySparl ML 或 MLLib 本身获得这些结果

如果有人能解释一下,那将很有帮助

【问题讨论】:

    标签: apache-spark machine-learning pyspark logistic-regression significance


    【解决方案1】:

    我只使用mllib,我认为当你训练一个模型时,你可以使用toPMML方法将你的模型导出为非PMML格式(xml文件),然后你可以解析xml文件来获取特征权重,这里是一个例子

    https://spark.apache.org/docs/2.0.2/mllib-pmml-model-export.html

    希望对你有所帮助

    【讨论】:

    • 感谢您的回复。目前,我使用了一种混合方法,使用 pyspark 对输入数据进行 ELT,然后通过切换到 statsmodels 进行建模。这对我有用。当然,我失去了 Spark 的好处,但它对我的目的有所帮助。
    • 这是一个糟糕的答案。他要求的是特征显着性,而不是权重。
    猜你喜欢
    • 2018-05-04
    • 2013-04-10
    • 1970-01-01
    • 2019-04-11
    • 1970-01-01
    • 2015-11-18
    • 2018-04-29
    • 1970-01-01
    • 2018-12-09
    相关资源
    最近更新 更多