【问题标题】:How to use Mahout classifiers in action?如何在实际中使用 Mahout 分类器?
【发布时间】:2015-09-25 13:38:48
【问题描述】:

我想使用 Apache Mahout 和使用朴素贝叶斯分类器对一堆文档进行分类。我做了所有的预处理并将我的训练数据集转换为特征向量,然后训练分类器。现在我想将一堆新实例(待分类实例)传递给我的模型,以便对它们进行分类。

但是,我的印象是必须对我的待分类实例和训练数据集进行预处理?如果是这样,我如何在构建模型时没有待分类实例的真实场景中使用分类器?

Apache Spark 怎么样?如何在那里工作?我可以制作一个分类模型,然后用它来分类看不见的实例吗?

【问题讨论】:

    标签: apache-spark classification mahout apache-spark-mllib


    【解决方案1】:

    从 Mahout 0.10.0 开始,Mahout 提供了由 Spark 支持的朴素贝叶斯实现,可以从 CLI、Mahout shell 运行或嵌入到应用程序中:

    http://mahout.apache.org/users/algorithms/spark-naive-bayes.html

    关于训练/测试集之外的新文档的分类,这里有一个教程:

    http://mahout.apache.org/users/environment/classify-a-doc-from-the-shell.html

    其中解释了如何使用字典和训练/测试集中的 df-count 对看不见的文本进行标记(使用琐碎的 java 原生 String 方法)、矢量化和分类。

    请注意,本教程旨在从 Mahout-Samsara 环境的 spark-shell 中使用,但是可以调整基本思想并将其嵌入到应用程序中。

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2015-04-03
    • 1970-01-01
    • 2012-10-05
    • 2013-11-07
    • 1970-01-01
    • 2015-09-20
    • 2014-06-06
    • 1970-01-01
    相关资源
    最近更新 更多