找到重要的分类特征答案

【问题标题】：find important features for classification找到重要的分类特征
【发布时间】：2013-03-25 15:27:48
【问题描述】：

我正在尝试使用逻辑回归模型对一些 EEG 数据进行分类（这似乎对我的数据进行了最佳分类）。我拥有的数据来自多通道 EEG 设置，所以本质上我有一个 63 x 116 x 50 的矩阵（即通道 x 时间点 x 试验次数（有两种试验类型 50），我已将其重新调整为长向量，每个试验一个。

我想做的是在分类之后查看哪些特征在对试验进行分类时最有用。我该怎么做？是否可以测试这些功能的重要性？例如说分类主要由 N 个特征驱动，这些是特征 x 到 z。因此，例如，我可以说通道 10 在时间点 90-95 对分类很重要或很重要。

这是可能的还是我问错了问题？

非常感谢任何 cmets 或论文参考。

【问题讨论】：

【解决方案1】：

Scikit-learn 包含不少特征排序方法，其中：

其中，我绝对建议尝试使用随机逻辑回归。根据我的经验，它始终优于其他方法并且非常稳定。相关论文：http://arxiv.org/pdf/0809.2932v2.pdf

编辑： 我写了一系列关于不同特征选择方法及其优缺点的博文，可能有助于更详细地回答这个问题：

【讨论】：

非随机 L1 惩罚模型也很好（即 L1 惩罚 Logistic 回归和 LinearSVC）。我对随机版本还没有太多经验。
第二个@AndreasMueller 的建议，L1-penalty SVM 对于某些任务来说是一个非常好的特征选择算法（看起来不像 EEG 阅读，所以 YMMV）。 document classification example 执行此操作，请参阅此处的 L1LinearSVC。
根据我的经验，非随机方法可能失败的情况是您具有强多重共线性特征，在这种情况下，某些特征可能在数据的一个子集上位居前列，而正则化为另一个子集。
@snarly 文档分类示例已移至scikit-learn.org/stable/auto_examples/text/…
RandomizedLogisticRegression 已被弃用 :( 已弃用：类 RandomizedLogisticRegression 在 0.19 中已弃用，并将在 0.21 中删除。:(