【问题标题】:supervised tag suggestion for documents文档的监督标签建议
【发布时间】:2017-11-29 12:44:57
【问题描述】:

我有数千个带有相关标签信息的文档。但是我也有很多没有标签的文档。

我想在有标签的文档上训练一个模型,然后将训练好的分类器应用到 UNTAGGED 文档上;然后分类器将为每个 UNTAGGED 文档建议最合适的标签。

我做了很多研究,似乎没有一个 SUPERVISED 实现来记录标签分类。

我知道 NLTK、gensim、word2vec 和其他库将有助于解决这个问题。

我将用 Python 对项目进行编码。

任何帮助将不胜感激。

【问题讨论】:

标签: python machine-learning nlp text-classification


【解决方案1】:

我目前正在做类似的事情, 除了@Joonatan Samuel 的建议之外,我还鼓励您进行仔细的预处理和考虑。

  1. 如果您想要两个或多个文档标签,您可以训练多个模型:每个标签一个模型。您需要考虑每个模型(标签)是否有足够的案例
  2. 如果您有很多标签,您可能会遇到上述文档标签情况的问题。
  3. 坚持最常见的标签预测,不要尝试预测所有标签。

【讨论】:

    【解决方案2】:

    根据您的实际用例,您可能会选择更复杂的方法,但对于最小工作模型来说:

    1) 文档预处理:标记化、构建词汇表(NLTK 有用于此的工具)

    2) 对每个文档进行bag-of-words 编码

    3) 使用 onehot 编码训练机器学习模型的输出。从sklearn随机森林、逻辑回归、SVM开始。

    【讨论】:

    • 谢谢,我有一个最低工作模型;使用 SVM 学习模型对文档文本进行弓形表示。关于进一步发展的任何建议?更多的预处理(词干等...)。我正在考虑使用 WMD 对标记文档进行聚类,然后将模型应用于未标记文档,然后找到最相似类型的标记文档,从而为您提供标记。
    • 从这里开始取决于您的实际用例。但基本上我的回答分为三个部分。 1)预处理 2)编码 3)训练模型。根据您的实际用例和数据,优先级会有所不同。例如。如果您有 1 亿个文档,但在测试时无需担心神经网络的计算工作以获得更好的模型。如果您的数据很少,您可能希望更多地研究更好的预处理/编码。
    猜你喜欢
    • 1970-01-01
    • 2017-06-15
    • 2020-09-21
    • 2019-11-08
    • 2016-07-28
    • 2021-11-28
    • 2017-09-04
    • 2018-04-06
    • 2020-06-26
    相关资源
    最近更新 更多