【问题标题】:Mahout Classifier v. OpenNLP DocumentclassifierMahout 分类器与 OpenNLP 文档分类器
【发布时间】:2013-11-07 11:38:48
【问题描述】:

我正处于十字路口,我一直在使用 Mahout 对一些文档进行分类,并且偶然发现了 OpenNLP 文档分类器。

他们似乎做了非常相似的事情,我不知道是否值得转换我目前在 mahout 中编写的内容,并提供一个 OpenNLP 实现。

在文档分类方面,mahout 与 OpenNLP 相比是否有一些明显的优势?

我的情况是我有几十万篇新闻文章,我只想提取其中的一个子集。 Mahout 做得相当好,我使用朴素贝叶斯进行术语计数,然后使用 TF-IDF 来确定文档属于哪个类别。该模型会在发现新文章时更新,因此该模型会随着时间的推移不断改进。

似乎 OpenNLP 文档分类器做了一些非常相似的事情(尽管我还没有测试过它的准确度)。 - 有没有人有同时使用这两种方法的经验,谁能分别说一下为什么一个会被用在另一个之上?

【问题讨论】:

    标签: mahout opennlp


    【解决方案1】:

    我没有这两个方面的经验,但是在试图弄清楚其中一个是否会对个人项目产生影响时,我偶然发现了这个博客,并引用:

    与 mahout 相比,使用 OpenNLP 进行数据分类是另一种具有更高准确性和性能的方法。

    您可以查看博文here

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-05-18
      • 2018-05-05
      • 1970-01-01
      • 2012-10-05
      • 2015-07-22
      • 1970-01-01
      • 2013-08-01
      相关资源
      最近更新 更多