【问题标题】:Can apache mahout ALS work without hadoop?apache mahout ALS 可以在没有 hadoop 的情况下工作吗?
【发布时间】:2019-03-27 04:51:29
【问题描述】:

我尝试使用 ParallelALSFactorizationJob,但它在此处崩溃:

Exception in thread "main" java.lang.NullPointerException at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) at org.apache.hadoop.util.Shell.runCommand(Shell.java:445) at org.apache.hadoop.util.Shell.run(Shell.java:418) at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:650) at org.apache.hadoop.util.Shell.execCommand(Shell.java:739)

命令行帮助提到使用文件系统,但它似乎需要hadoop。如何在 Windows 上运行它,mahout.cmd 文件已损坏:

"===============DEPRECATION WARNING===============" "This script is no longer supported for new drivers as of Mahout 0.10.0" "Mahout's bash script is supported and if someone wants to contribute a fix for this" "it would be appreciated."

这可能吗(ALS + Windows - hadoop)?

【问题讨论】:

  • 您可以将 Mahout jars(mahout-core、mahout-math 等)导入您的 Java 应用程序并在本地运行。有一个很好的教程叫做“Mahout in action”,它描述了各种 Mahout 类的用法

标签: windows hadoop mahout


【解决方案1】:

Mahout 是一个社区驱动的项目,它的社区非常强大。

“Apache Mahout 是第一个也是最杰出的大数据机器之一 学习平台。它在顶部实现机器学习算法 Hadoop 和 Spark 等分布式处理平台。”

-Tiwary, C. (2015)。 Learning Apache Mahout.

Apache Spark 是一种开源、内存中的通用计算系统,可在 Windows 和类 Unix 系统上运行。 Spark 不是像 Hadoop 那样基于磁盘的计算,而是使用集群内存将所有数据上传到内存中,并且可以重复查询这些数据。

“随着 Spark 在数据科学家中越来越受欢迎,Mahout 社区也在迅速致力于使 Mahout 算法发挥作用 在 Spark 的执行引擎上加速其计算 10 到 100 快几倍。 Mahout 提供了几个重要的构建块 使用 Spark 创建推荐。”

-古普塔,A (2015)。 Learning Apache Mahout Classification.

(最后一本书还提供了一步一步的指南使用 Mahout 的 Spark shell(他们不使用 Windows,但不清楚他们是否使用 Hadoop)。了解更多信息关于该主题,请参阅https://mahout.apache.org/users/sparkbindings/play-with-shell.html 的实施部分。)

除此之外,您还可以使用 Spark 构建推荐引擎,例如 Spark MLlib 中提供的 DataFrames、RDD、Pipelines 和 Transforms 和

在 Spark 中,(...) 交替最小二乘法 (ALS) 用于 生成基于模型的协同过滤。

-Gorakala, S. (2016)。 Building Recommendation Engines.

此时,在回答您的问题之前还有一个问题需要回答:can we run Spark without Hadoop?

所以,是的,可以在 Windows 上使用 Spark(不带 Hadoop)使用 ALS 方法。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2015-11-08
    • 2014-05-16
    • 2014-03-17
    • 2019-01-14
    • 2014-08-22
    • 1970-01-01
    • 1970-01-01
    • 2018-07-15
    相关资源
    最近更新 更多