【发布时间】:2018-12-03 00:13:12
【问题描述】:
我已经为我的数据拟合了一个逻辑回归模型。想象一下,我有四个特征:1)参与者接受了哪些条件,2)参与者是否对所测试的现象有任何先验知识/背景(实验后问卷中的二元反应),3)花费在实验任务上的时间,以及4) 参与者年龄。我正在尝试预测参与者最终选择选项 A 还是选项 B。我的逻辑回归输出以下特征系数和 clf.coef_:
[[-0.68120795 -0.19073737 -2.50511774 0.14956844]]
如果选项 A 是我的正类,这个输出是否意味着特征 3 是二元分类最重要的特征,并且与选择选项 A 的参与者有负相关(注意:我没有对我的数据进行归一化/重新缩放) ?我想确保我对系数的理解以及我可以从中提取的信息是正确的,因此我不会在分析中做出任何概括或错误假设。
感谢您的帮助!
【问题讨论】:
-
您的理解似乎是正确的。可以肯定的是,您可以将样本提交给分类器并获得结果,然后将样本中的每个值乘以相应的系数。检查他们是否提供相同的结果。
-
不,不正确。由于值未归一化,如果特征 1 的典型值比特征 3 高一个数量级,则特征 1 对分类的贡献更大,因此会更重要。即使使用归一化直接解释系数也有点粗略。更好的方法是使用统计测试
-
嗨@Marat 很高兴知道。我完全理解缩放/标准化注释,并且我对我的数据执行了最小-最大缩放,使其处于 0-1 的比例。但是,您介意更多地扩展您评论的统计测试部分吗?你指的是什么测试?此外,如果不是特征重要性/效果大小,现有的 .coef_ 命令会传达什么?
-
我不是统计学家,所以需要一些时间才能做出合理的回应;明天我会尽力回答。另外,我搞砸了上面对规范化的解释,将在答案中修复它。
标签: python scikit-learn logistic-regression feature-selection coefficients