Mahout 分类器与 OpenNLP 文档分类器答案

【问题标题】：Mahout Classifier v. OpenNLP DocumentclassifierMahout 分类器与 OpenNLP 文档分类器
【发布时间】：2013-11-07 11:38:48
【问题描述】：

我正处于十字路口，我一直在使用 Mahout 对一些文档进行分类，并且偶然发现了 OpenNLP 文档分类器。

他们似乎做了非常相似的事情，我不知道是否值得转换我目前在 mahout 中编写的内容，并提供一个 OpenNLP 实现。

在文档分类方面，mahout 与 OpenNLP 相比是否有一些明显的优势？

我的情况是我有几十万篇新闻文章，我只想提取其中的一个子集。 Mahout 做得相当好，我使用朴素贝叶斯进行术语计数，然后使用 TF-IDF 来确定文档属于哪个类别。该模型会在发现新文章时更新，因此该模型会随着时间的推移不断改进。

似乎 OpenNLP 文档分类器做了一些非常相似的事情（尽管我还没有测试过它的准确度）。 - 有没有人有同时使用这两种方法的经验，谁能分别说一下为什么一个会被用在另一个之上？

【问题讨论】：

【解决方案1】：

我没有这两个方面的经验，但是在试图弄清楚其中一个是否会对个人项目产生影响时，我偶然发现了这个博客，并引用：

与 mahout 相比，使用 OpenNLP 进行数据分类是另一种具有更高准确性和性能的方法。

您可以查看博文here。

【讨论】：