【发布时间】:2011-07-29 23:59:49
【问题描述】:
我有大量的文档(主要是 pdf 和 doc)要分类,所以我可以根据某些标签搜索它们。这些标签可以是我自己的(我将标签放在文档中)或从文本中提取。
我刚刚看到一个与此相关的帖子 (Classify data using Apache Mahout),但也许还有更简单的东西。
【问题讨论】:
-
关于自动document classification,您还不清楚您想要什么。您想要有监督还是无监督的文档分类?或者您可能想要半监督文档分类?
-
我想要半监督...我猜 ;D。是的,我想提供有关这些文件的一些信息。
标签: algorithm machine-learning data-mining document-classification