自动文档分类的最佳库[关闭]答案

【问题标题】：Best library for automatic document classification [closed]自动文档分类的最佳库[关闭]
【发布时间】：2013-05-12 10:30:56
【问题描述】：

问题：我们有一堆文档（杂志文章）需要放入“类别”中。一些类别反映了文章的主题（文章是关于什么的），而另一些类别反映了文章的“性质”（如果杂志印刷在纸上，它可能会出现在哪里）。

我们目前正在通过将文章发送到海外并让人们查看并标记它们来手动解决问题。

我们希望使流程更加自动化。我查看了各种库，但它们似乎并不是为了解决这个问题而设计的。

Carrot² 对搜索结果进行聚类，但不清楚它是否可以与现有（固定）类别一起使用，或者是否可以直接从每个输入推断类别。

NLTK 是一种通用解决方案，它可以做很多事情，但在速度或准确性方面并不享有盛誉。可能是我最好的选择吗？

理想情况下，我希望找到一个解决方案，它给出一个类别列表和一组分类文档的训练集，能够为新文档建议一个类别，并对其建议的准确性充满信心。

如果这不存在现成的，我可以尝试基于 NLTK 的 NaiveBayesClassifier 编写一些东西，但其他选项是什么？

【问题讨论】：

很多很多的库可以做文本分类：NLTK、Lucene、scikit-learn、Orange、Weka等。Carrot²是一个聚类库；上次我看的时候，它不能做监督学习。

【解决方案1】：

对于这个有监督的分类任务，我将使用Stanford Classifier。它嵌入了从特征提取（比词袋复杂得多）到一流的机器学习（最大熵模型）的所有内容。如果您有足够的训练数据（即手动标记的文章），它会很好地工作。

唯一的是，它只会为每篇文章分配一个类。但是由于您的两个“维度”（文章的主题和文章的种类）似乎是相当正交的，因此没有什么能阻止您将这两个维度视为两个独立的分类问题。

【讨论】：