【发布时间】:2013-11-07 11:38:48
【问题描述】:
我正处于十字路口,我一直在使用 Mahout 对一些文档进行分类,并且偶然发现了 OpenNLP 文档分类器。
他们似乎做了非常相似的事情,我不知道是否值得转换我目前在 mahout 中编写的内容,并提供一个 OpenNLP 实现。
在文档分类方面,mahout 与 OpenNLP 相比是否有一些明显的优势?
我的情况是我有几十万篇新闻文章,我只想提取其中的一个子集。 Mahout 做得相当好,我使用朴素贝叶斯进行术语计数,然后使用 TF-IDF 来确定文档属于哪个类别。该模型会在发现新文章时更新,因此该模型会随着时间的推移不断改进。
似乎 OpenNLP 文档分类器做了一些非常相似的事情(尽管我还没有测试过它的准确度)。 - 有没有人有同时使用这两种方法的经验,谁能分别说一下为什么一个会被用在另一个之上?
【问题讨论】: