文档的监督标签建议答案

【问题标题】：supervised tag suggestion for documents文档的监督标签建议
【发布时间】：2017-11-29 12:44:57
【问题描述】：

我有数千个带有相关标签信息的文档。但是我也有很多没有标签的文档。

我想在有标签的文档上训练一个模型，然后将训练好的分类器应用到 UNTAGGED 文档上；然后分类器将为每个 UNTAGGED 文档建议最合适的标签。

我做了很多研究，似乎没有一个 SUPERVISED 实现来记录标签分类。

我知道 NLTK、gensim、word2vec 和其他库将有助于解决这个问题。

我将用 Python 对项目进行编码。

任何帮助将不胜感激。

【问题讨论】：

受监督的文档标记并不少见，尽管它通常被称为“多类标签”。对于许多方法，它与单一标记相同，但您选择 N 最佳结果。有关虚构数据的 scikit 示例，请参见此处：scikit-learn.org/stable/auto_examples/plot_multilabel.html

【解决方案1】：

我目前正在做类似的事情，除了@Joonatan Samuel 的建议之外，我还鼓励您进行仔细的预处理和考虑。

【讨论】：

【解决方案2】：

根据您的实际用例，您可能会选择更复杂的方法，但对于最小工作模型来说：

1) 文档预处理：标记化、构建词汇表（NLTK 有用于此的工具）

2) 对每个文档进行bag-of-words 编码

3) 使用 onehot 编码训练机器学习模型的输出。从sklearn随机森林、逻辑回归、SVM开始。

【讨论】：

谢谢，我有一个最低工作模型；使用 SVM 学习模型对文档文本进行弓形表示。关于进一步发展的任何建议？更多的预处理（词干等...）。我正在考虑使用 WMD 对标记文档进行聚类，然后将模型应用于未标记文档，然后找到最相似类型的标记文档，从而为您提供标记。
从这里开始取决于您的实际用例。但基本上我的回答分为三个部分。 1）预处理 2）编码 3）训练模型。根据您的实际用例和数据，优先级会有所不同。例如。如果您有 1 亿个文档，但在测试时无需担心神经网络的计算工作以获得更好的模型。如果您的数据很少，您可能希望更多地研究更好的预处理/编码。