【发布时间】:2019-10-25 14:52:34
【问题描述】:
我有一组五个不同类别的文件,其中大多数没有正确标记。目标是在上传相同文件时预测文件的正确类别。我使用余弦相似度和 tf -idf 来预测到目前为止,余弦相似度最大的文档类我得到了很好的结果,但真的不确定这在路上会有多好。另外,当文件类别被正确标记时,为什么在构建文档分类器而不是机器学习模型时不使用余弦相似度?非常感谢您对我的方法的反馈以及您对问题的回答。
【问题讨论】:
标签: nlp classification data-science text-mining cosine-similarity