【发布时间】:2014-06-11 09:19:25
【问题描述】:
据我所知,自动编码器可用于降低特征向量的维数。在文本分类中,特征向量通常是通过字典构建的——字典往往非常大。我没有使用自动编码器的经验,所以我的问题是:
- 可以使用自动编码器来降低文本分类中的维数吗? (为什么?/为什么不呢?)
- 有人已经这样做了吗?如果是这样的话,来源会很好。
【问题讨论】:
标签: nlp text-classification autoencoder
据我所知,自动编码器可用于降低特征向量的维数。在文本分类中,特征向量通常是通过字典构建的——字典往往非常大。我没有使用自动编码器的经验,所以我的问题是:
【问题讨论】:
标签: nlp text-classification autoencoder
现有作品使用自动编码器在句子级别创建模型。基本上在使用 Autoencode 训练模型之后,您可以获得一个句子的向量。由于任何文档都由句子组成,因此您可以获得文档的一组向量,并进行文档分类。根据我对各种向量表示(例如从自动编码生成的向量表示)的经验,这样做可能会给出比词袋分类更糟糕的答案。
【讨论】: