如何在实际中使用 Mahout 分类器？

【问题标题】：How to use Mahout classifiers in action?如何在实际中使用 Mahout 分类器？
【发布时间】：2015-09-25 13:38:48
【问题描述】：

我想使用 Apache Mahout 和使用朴素贝叶斯分类器对一堆文档进行分类。我做了所有的预处理并将我的训练数据集转换为特征向量，然后训练分类器。现在我想将一堆新实例（待分类实例）传递给我的模型，以便对它们进行分类。

但是，我的印象是必须对我的待分类实例和训练数据集进行预处理？如果是这样，我如何在构建模型时没有待分类实例的真实场景中使用分类器？

Apache Spark 怎么样？如何在那里工作？我可以制作一个分类模型，然后用它来分类看不见的实例吗？

【问题讨论】：

【解决方案1】：

从 Mahout 0.10.0 开始，Mahout 提供了由 Spark 支持的朴素贝叶斯实现，可以从 CLI、Mahout shell 运行或嵌入到应用程序中：

关于训练/测试集之外的新文档的分类，这里有一个教程：

其中解释了如何使用字典和训练/测试集中的 df-count 对看不见的文本进行标记（使用琐碎的 java 原生 String 方法）、矢量化和分类。

请注意，本教程旨在从 Mahout-Samsara 环境的 spark-shell 中使用，但是可以调整基本思想并将其嵌入到应用程序中。

【讨论】：