使用自动编码器进行文本分类的特征构建

【问题标题】：Feature Construction for Text Classification using Autoencoders使用自动编码器进行文本分类的特征构建
【发布时间】：2014-06-11 09:19:25
【问题描述】：

据我所知，自动编码器可用于降低特征向量的维数。在文本分类中，特征向量通常是通过字典构建的——字典往往非常大。我没有使用自动编码器的经验，所以我的问题是：

【问题讨论】：

【解决方案1】：

现有作品使用自动编码器在句子级别创建模型。基本上在使用 Autoencode 训练模型之后，您可以获得一个句子的向量。由于任何文档都由句子组成，因此您可以获得文档的一组向量，并进行文档分类。根据我对各种向量表示（例如从自动编码生成的向量表示）的经验，这样做可能会给出比词袋分类更糟糕的答案。

【讨论】：