【问题标题】:Suggested unsupervised feature selection / extraction method for 2 class classification?2类分类的建议无监督特征选择/提取方法?
【发布时间】:2016-04-30 11:00:34
【问题描述】:

我有一组 F 功能,例如实验室色彩空间,熵。通过将所有特征连接在一起,我得到了一个维度为 d 的特征向量(介于 12 到 50 之间,具体取决于选择的特征。

我通常会得到 1000 到 5000 个新样本,用 x 表示。然后用向量训练高斯混合模型,但我不知道这些特征来自哪个类。我所知道的是,只有 2 个类。根据 GMM 预测,我得到该特征向量属于第 1 类或第 2 类的概率。

我现在的问题是:如何获得最好的特征子集,例如只有熵和归一化的 rgb,这会给我最好的分类精度?我想这是可以实现的,如果由于特征子集的选择增加了类的可分离性。

也许我可以利用 Fisher 的线性判别分析?因为我已经有了从 GMM 获得的均值和协方差矩阵。但是我不是必须计算每个特征组合的分数吗?

如果这是一种没有回报的方法并且我走错了路和/或有任何其他建议,我会很高兴获得一些帮助?

【问题讨论】:

    标签: classification feature-extraction feature-selection


    【解决方案1】:

    寻找“信息丰富”特征的一种方法是使用能够最大化对数似然度的特征。您可以通过交叉验证来做到这一点。

    https://www.cs.cmu.edu/~kdeng/thesis/feature.pdf

    另一个想法可能是使用另一种自动选择特征的无监督算法,例如聚类森林

    http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf

    在这种情况下,聚类算法会根据信息增益自动拆分数据。

    Fisher LDA 不会选择要素,而是将您的原始数据投影到较低维度的子空间中。如果您正在研究子空间方法 另一种有趣的方法可能是谱聚类,这也会发生 在子空间或无监督神经网络(如自动编码器)中。

    希望有帮助

    【讨论】:

      猜你喜欢
      • 2012-04-19
      • 2014-12-21
      • 2010-12-17
      • 2020-03-09
      • 2017-05-01
      • 2016-05-02
      • 2011-01-05
      • 2011-07-21
      • 2018-10-01
      相关资源
      最近更新 更多