解释 sklearn 中的逻辑回归特征系数值答案

【问题标题】：Interpreting logistic regression feature coefficient values in sklearn解释 sklearn 中的逻辑回归特征系数值
【发布时间】：2018-12-03 00:13:12
【问题描述】：

我已经为我的数据拟合了一个逻辑回归模型。想象一下，我有四个特征：1）参与者接受了哪些条件，2）参与者是否对所测试的现象有任何先验知识/背景（实验后问卷中的二元反应），3）花费在实验任务上的时间，以及4) 参与者年龄。我正在尝试预测参与者最终选择选项 A 还是选项 B。我的逻辑回归输出以下特征系数和 clf.coef_：

[[-0.68120795 -0.19073737 -2.50511774  0.14956844]]

如果选项 A 是我的正类，这个输出是否意味着特征 3 是二元分类最重要的特征，并且与选择选项 A 的参与者有负相关（注意：我没有对我的数据进行归一化/重新缩放） ?我想确保我对系数的理解以及我可以从中提取的信息是正确的，因此我不会在分析中做出任何概括或错误假设。

感谢您的帮助！

【问题讨论】：

您的理解似乎是正确的。可以肯定的是，您可以将样本提交给分类器并获得结果，然后将样本中的每个值乘以相应的系数。检查他们是否提供相同的结果。
不，不正确。由于值未归一化，如果特征 1 的典型值比特征 3 高一个数量级，则特征 1 对分类的贡献更大，因此会更重要。即使使用归一化直接解释系数也有点粗略。更好的方法是使用统计测试
嗨@Marat 很高兴知道。我完全理解缩放/标准化注释，并且我对我的数据执行了最小-最大缩放，使其处于 0-1 的比例。但是，您介意更多地扩展您评论的统计测试部分吗？你指的是什么测试？此外，如果不是特征重要性/效果大小，现有的 .coef_ 命令会传达什么？
我不是统计学家，所以需要一些时间才能做出合理的回应；明天我会尽力回答。另外，我搞砸了上面对规范化的解释，将在答案中修复它。

标签： python scikit-learn logistic-regression feature-selection coefficients

【解决方案1】：

你正走在正确的轨道上。如果一切都非常相似，则更大的 pos/neg 系数意味着更大的影响，所有事情都相同。

但是，如果您的数据未标准化，那么 Marat 是正确的，因为系数的大小没有任何意义（没有上下文）。例如，您可以通过将测量单位更改为更大或更小来获得不同的系数。

我看不出您是否在此处包含了非零截距，但请记住，逻辑回归系数实际上是优势比，您需要将它们转换为概率以获得更直接可解释的结果。

查看此页面以获得很好的解释： https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

【讨论】：

嗨，那么如何使用sklearn 将这些优势比转换为概率？

【解决方案2】：

逻辑回归以对数赔率返回信息。所以你必须先用np.exp将对数赔率转换成赔率，然后再取odds/(1 + odds)。

要转换为概率，请使用列表推导并执行以下操作：

[np.exp(x)/(1 + np.exp(x)) for x in clf.coef_[0]]

此页面在 R 中解释了我引用的转换对数赔率： https://sebastiansauer.github.io/convert_logit2prob/

【讨论】：