【发布时间】:2019-08-05 21:57:20
【问题描述】:
我正在创建一个 python 模型,它将根据文本对给定文档进行分类。因为每个文档仍然需要人工审核,所以我正在创建一个建议平台,该平台将为用户提供给定文档所属的前 n 类。此外,每个文档可以属于多个类别。我有一组充满富文本及其标签的训练文档。
我想做的是对每个文档执行回归,以获得每个分类的概率分数,并返回得分最高的前 5 个类别。
我研究了贝叶斯分类模型和推荐系统,我认为逻辑回归会更好,因为它会返回分数。我是机器学习的新手,希望能以此类问题为模型提供任何建议或示例。谢谢。
编辑:具体来说,我的问题是我应该如何解析我的文本数据以使用逻辑回归进行 ML 建模?我是否需要使用 Word2Vec/Doc2Vec 或词袋模型以矢量格式表示我的文本?
【问题讨论】:
-
使用逻辑回归进行文本分类的具体步骤是什么?
-
在 NLP 方面,表示我的文本数据以在逻辑回归中建模的最佳方式是什么? (例如 word2vec、词袋)
-
取决于问题、数据等
-
除了 w2v & BOW,你还可以考虑 TFIDF & Fasttext。 Sckit 以与 bow 几乎相同的方式支持 tfidf,而 gensim 支持 fasttext 几乎与其对 w2v 的支持相同。但这真的只是实验。此外,您可以使用相对简单的神经网络作为逻辑回归的另一种替代方案(通常它们具有更高的性能)。
标签: python nlp logistic-regression text-classification