【发布时间】:2016-04-18 14:59:44
【问题描述】:
Apache Mahout (https://mahout.apache.org/users/recommender/intro-itembased-hadoop.html) 在 Google Dataproc 上可用吗?
【问题讨论】:
标签: google-cloud-platform mahout mahout-recommender google-cloud-dataproc
Apache Mahout (https://mahout.apache.org/users/recommender/intro-itembased-hadoop.html) 在 Google Dataproc 上可用吗?
【问题讨论】:
标签: google-cloud-platform mahout mahout-recommender google-cloud-dataproc
默认情况下,Google Cloud Dataproc 不捆绑 Apache Mahout,但它可以通过多种不同方式与 Dataproc 一起使用。
您可以将其捆绑到您的 jar 中(使用 Maven shade 或组装插件或您选择的构建工具中的等效插件),并将其作为常规 Hadoop MapReduce 或 Spark 作业运行。
Mahout 0.11.0 在 Dataproc 中以 Apache Bigtop 包的形式提供。如果你运行:
sudo apt-get update
sudo apt-get install mahout -y
在主节点上,无论是在 SSH 之后还是在初始化操作中,您都应该拥有带有正确类路径的“mahout”命令。
Mahout 0.11.0 仅支持 Spark 1.3,但 Dataproc (1.0) 附带 Spark 1.6.1。您可以下载或捆绑 Mahout 0.12.0。上周发布了,但即便如此也只声称支持 Spark 1.5。当有更好的 Spark 兼容性解决方案时,我们将在 https://github.com/GoogleCloudPlatform/dataproc-initialization-actions 创建一个 Mahout 初始化操作。
【讨论】:
我认为 Mahout 不受支持。
【讨论】: