【问题标题】:Classify documents with tags使用标签对文档进行分类
【发布时间】:2011-07-29 23:59:49
【问题描述】:

我有大量的文档(主要是 pdf 和 doc)要分类,所以我可以根据某些标签搜索它们。这些标签可以是我自己的(我将标签放在文档中)或从文本中提取。

我刚刚看到一个与此相关的帖子 (Classify data using Apache Mahout),但也许还有更简单的东西。

【问题讨论】:

  • 关于自动document classification,您还不清楚您想要什么。您想要有监督还是无监督的文档分类?或者您可能想要半监督文档分类?
  • 我想要半监督...我猜 ;D。是的,我想提供有关这些文件的一些信息。

标签: algorithm machine-learning data-mining document-classification


【解决方案1】:

Mahout 可能对您的问题有点矫枉过正 - 但您可以通过使用 OpenNLP 获得相当快速、简单的解决方案。

http://opennlp.sourceforge.net/api/index.html

具体看opennlp.tools.doccat包。本质上,您必须为您想要的每个类别手动标记一小部分(ish)项目。如果它们真的不同,那么您可以使用小样本量。

您可以使用 DocumentCategorizerME.train() 静态函数来训练文档集合,其中每个文档都需要一个类别标签和文本块来进行训练。然后,您可以使用经过训练的模型初始化 DocumentCategorizerME,并开始对所有其余文档进行分类。

一旦你这样做了,你可以(我认为)将模型写入一个文件,这样你就不必再这样做了。

【讨论】:

    【解决方案2】:

    extracting keywords and classifying webpages 上的这篇文章是相关的,可能会有所帮助。在您的示例中,听起来您可以使用标签代替关键字提取部分(尽管您可能希望将两者结合使用)。 Weka 好用,强烈推荐看看。

    【讨论】:

      猜你喜欢
      • 2017-04-11
      • 2018-10-02
      • 2015-02-05
      • 2020-09-02
      • 2017-04-07
      • 2015-07-05
      • 2016-11-30
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多