使用余弦相似度对文档进行分类答案

【问题标题】：Using cosine similarity for classifying documents使用余弦相似度对文档进行分类
【发布时间】：2019-10-25 14:52:34
【问题描述】：

我有一组五个不同类别的文件，其中大多数没有正确标记。目标是在上传相同文件时预测文件的正确类别。我使用余弦相似度和 tf -idf 来预测到目前为止，余弦相似度最大的文档类我得到了很好的结果，但真的不确定这在路上会有多好。另外，当文件类别被正确标记时，为什么在构建文档分类器而不是机器学习模型时不使用余弦相似度？非常感谢您对我的方法的反馈以及您对问题的回答。

【问题讨论】：

标签： nlp classification data-science text-mining cosine-similarity

【解决方案1】：

Cosine similarity 用于计算两个 n 维向量之间的角度。这些向量主要由 Embeddings 产生。它们是产生词嵌入或固定大小向量的预训练模型。

余弦相似度主要用于单词产生的向量嵌入。如果您使用的是 Doc2Vec 之类的东西，那么您会得到一个整个文档的向量。这些向量可以分类为使用余弦相似度。

在您的情况下，您应该尝试使用嵌入层的 LSTM 文本分类器。一维卷积层也很有用。

另外，参考 TF-IDF，它对于依赖于语料库中某些单词的文本分类很有用。词频较高且文档频率较低的词具有较高的 TF-IDF 分数。该模型学习根据这些分数对文本进行分类。

在大多数情况下，RNN 是对文本进行分类的最佳选择。使用预训练嵌入使模型变得高效。

此外，同样重要的是，您可以尝试贝叶斯文本分类。它在垃圾邮件分类中非常有用。

提示：

您可以将上述方法相互实现，创建一个文本分类系统。按照这样的过程，

从 Doc2Vec 生成嵌入。
比较输入与其他文本的相似性，从而确定其类别。
使用 LSTM 网络中的嵌入来产生类别概率。
应用贝叶斯文本分类。

步骤 2 、 3 、 4 给出三个预测。如果多数预测是 CLASS1，那么我们可以使系统的输出为 CLASS1!。

【讨论】：

Doc2vec+余弦相似度应该是我的下一个方法，如果考虑到 doc2vec 将考虑文档的语义性质这一事实，tfidf+余弦相似度不起作用。但肯定会给它一个尝试就朴素贝叶斯而言，标签不正确，使其成为一个无人监督的问题（所以不真正了解朴素贝叶斯将如何执行）。
所以我手动标记了几个文件，取出属于每个类别的 10 个文件的唯一关键字，将它们附加到一个列表中，然后 word2vec 和 cosibe 相似度。我想到的另一种方法是聚类，但坦率地说，如果余弦相似度很好并且肯定会很好地扩展，我不想涉及机器学习。让我们看看，非常感谢您的反馈，非常感谢:)