预测给定文档的每个分类 bin 的概率得分答案

【问题标题】：Predicting probability score of each classification bin for a given document预测给定文档的每个分类 bin 的概率得分
【发布时间】：2019-08-05 21:57:20
【问题描述】：

我正在创建一个 python 模型，它将根据文本对给定文档进行分类。因为每个文档仍然需要人工审核，所以我正在创建一个建议平台，该平台将为用户提供给定文档所属的前 n 类。此外，每个文档可以属于多个类别。我有一组充满富文本及其标签的训练文档。

我想做的是对每个文档执行回归，以获得每个分类的概率分数，并返回得分最高的前 5 个类别。

我研究了贝叶斯分类模型和推荐系统，我认为逻辑回归会更好，因为它会返回分数。我是机器学习的新手，希望能以此类问题为模型提供任何建议或示例。谢谢。

编辑：具体来说，我的问题是我应该如何解析我的文本数据以使用逻辑回归进行 ML 建模？我是否需要使用 Word2Vec/Doc2Vec 或词袋模型以矢量格式表示我的文本？

【问题讨论】：

使用逻辑回归进行文本分类的具体步骤是什么？
在 NLP 方面，表示我的文本数据以在逻辑回归中建模的最佳方式是什么？（例如 word2vec、词袋）
取决于问题、数据等
除了 w2v & BOW，你还可以考虑 TFIDF & Fasttext。 Sckit 以与 bow 几乎相同的方式支持 tfidf，而 gensim 支持 fasttext 几乎与其对 w2v 的支持相同。但这真的只是实验。此外，您可以使用相对简单的神经网络作为逻辑回归的另一种替代方案（通常它们具有更高的性能）。

标签： python nlp logistic-regression text-classification

【解决方案1】：

简而言之，构建一个multi-class 或multi-label classification 模型。然后calibrate 你的模型输出。 Word2Vec 或 Bag-of-words 模型都可以用来构建这样的模型。

更长的版本。见下图。这是来自this 论文的图 1。您的模型的输出将是 logits，您可以在 logits 上应用 softmax（多类）或 sigmoid（多标签）变换。如果您希望对分类器输出更有信心，那么论文中描述的校准步骤可能就是您想要执行的。这一步是使用额外的验证数据集将分类器输出转换为真实正确性可能性的表示。

【讨论】：