使用标签对文档进行分类答案

【问题标题】：Classify documents with tags使用标签对文档进行分类
【发布时间】：2011-07-29 23:59:49
【问题描述】：

我有大量的文档（主要是 pdf 和 doc）要分类，所以我可以根据某些标签搜索它们。这些标签可以是我自己的（我将标签放在文档中）或从文本中提取。

我刚刚看到一个与此相关的帖子 (Classify data using Apache Mahout)，但也许还有更简单的东西。

【问题讨论】：

【解决方案1】：

Mahout 可能对您的问题有点矫枉过正 - 但您可以通过使用 OpenNLP 获得相当快速、简单的解决方案。

具体看opennlp.tools.doccat包。本质上，您必须为您想要的每个类别手动标记一小部分（ish）项目。如果它们真的不同，那么您可以使用小样本量。

您可以使用 DocumentCategorizerME.train() 静态函数来训练文档集合，其中每个文档都需要一个类别标签和文本块来进行训练。然后，您可以使用经过训练的模型初始化 DocumentCategorizerME，并开始对所有其余文档进行分类。

一旦你这样做了，你可以（我认为）将模型写入一个文件，这样你就不必再这样做了。

【讨论】：

【解决方案2】：

extracting keywords and classifying webpages 上的这篇文章是相关的，可能会有所帮助。在您的示例中，听起来您可以使用标签代替关键字提取部分（尽管您可能希望将两者结合使用）。 Weka 好用，强烈推荐看看。

【讨论】：