【问题标题】:How to select class dependent features?如何选择依赖类的特征?
【发布时间】:2019-09-17 08:42:02
【问题描述】:

假设,我有一个包含两个类和超过 50,000 个特征的数据集。我发现的大多数作品都试图选择区分两个类别的特征。我们将这些选定的特征称为最重要的特征。但是我想知道的那些方法无法定义哪些功能与哪个类最相关。例如,

              f1    f2    f3 ....... f50000      class
sample 1:     .5    .4     23......... .45         1
sample 2:     .2    .56     .5......... .45        2
sample 3:     .4    56     .23......... .45        2
sample 4:     .3    .45     76......... .45        1

这里,f1= 特征 1,f2=特征2 等等。

假设,不知何故,f1, f2, f3, f45, f344class 1 相关,f4, f5, f6, f90, f99class 2 相关。其他功能与这些类无关。所以输出是,

class1: f1, f2,f3,f45,f344
class2: f4,f5,f6,f90,f99

算法是什么? 如果有人给我任何论文(深度学习或其他)或参考资料,这对我很有帮助。提前致谢。

【问题讨论】:

    标签: machine-learning computer-vision classification feature-selection


    【解决方案1】:

    有很多方法可以检测特征的重要性。一种简单的方法是截断具有低方差的特征。如果您想使用他们的实现,请查看this scikit article

    另一个常见的原因是使用 L1/L2 正则化来惩罚特征数量。这可以防止算法使用所有权重。实现在同一篇 scikit 文章中。我刚刚找到this github post,它非常简短地解释了 L2 正则化与逻辑回归的结合。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-09-21
      • 2019-07-02
      • 1970-01-01
      • 1970-01-01
      • 2015-12-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多