如何选择依赖类的特征？答案

【问题标题】：How to select class dependent features?如何选择依赖类的特征？
【发布时间】：2019-09-17 08:42:02
【问题描述】：

假设，我有一个包含两个类和超过 50,000 个特征的数据集。我发现的大多数作品都试图选择区分两个类别的特征。我们将这些选定的特征称为最重要的特征。但是我想知道的那些方法无法定义哪些功能与哪个类最相关。例如，

              f1    f2    f3 ....... f50000      class
sample 1:     .5    .4     23......... .45         1
sample 2:     .2    .56     .5......... .45        2
sample 3:     .4    56     .23......... .45        2
sample 4:     .3    .45     76......... .45        1

这里，f1= 特征 1，f2=特征2 等等。

假设，不知何故，f1, f2, f3, f45, f344 与 class 1 相关，f4, f5, f6, f90, f99 与 class 2 相关。其他功能与这些类无关。所以输出是，

class1: f1, f2,f3,f45,f344
class2: f4,f5,f6,f90,f99

算法是什么？如果有人给我任何论文（深度学习或其他）或参考资料，这对我很有帮助。提前致谢。

【问题讨论】：

标签： machine-learning computer-vision classification feature-selection

【解决方案1】：

有很多方法可以检测特征的重要性。一种简单的方法是截断具有低方差的特征。如果您想使用他们的实现，请查看this scikit article。

另一个常见的原因是使用 L1/L2 正则化来惩罚特征数量。这可以防止算法使用所有权重。实现在同一篇 scikit 文章中。我刚刚找到this github post，它非常简短地解释了 L2 正则化与逻辑回归的结合。

【讨论】：