【问题标题】:Feature Construction for Text Classification using Autoencoders使用自动编码器进行文本分类的特征构建
【发布时间】:2014-06-11 09:19:25
【问题描述】:

据我所知,自动编码器可用于降低特征向量的维数。在文本分类中,特征向量通常是通过字典构建的——字典往往非常大。我没有使用自动编码器的经验,所以我的问题是:

  1. 可以使用自动编码器来降低文本分类中的维数吗? (为什么?/为什么不呢?)
  2. 有人已经这样做了吗?如果是这样的话,来源会很好。

【问题讨论】:

    标签: nlp text-classification autoencoder


    【解决方案1】:

    现有作品使用自动编码器在句子级别创建模型。基本上在使用 Autoencode 训练模型之后,您可以获得一个句子的向量。由于任何文档都由句子组成,因此您可以获得文档的一组向量,并进行文档分类。根据我对各种向量表示(例如从自动编码生成的向量表示)的经验,这样做可能会给出比词袋分类更糟糕的答案。

    【讨论】:

    • 您仍然将句子表示为固定大小的字典?
    • 这是通常的方式,因为你需要一个固定大小的向量来进行分类。
    • 从特征工程的角度来看,在这种情况下,什么最适合文本?何时需要句子级别的表示和短文本的表示?
    猜你喜欢
    • 1970-01-01
    • 2015-12-13
    • 1970-01-01
    • 1970-01-01
    • 2017-01-07
    • 2017-05-25
    • 2016-09-02
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多