Google Cloud、集群或无集群上的 Apache Spark答案

【问题标题】：Apache Spark on Google Cloud, Cluster or no ClusterGoogle Cloud、集群或无集群上的 Apache Spark
【发布时间】：2018-08-13 13:41:22
【问题描述】：

我想使用 Apache Spark 来处理 Google Cloud 中的大量数据。

我按照文档启动了一个包含 5 个节点的 Cloud Dataproc 集群。一切都完美无缺。

但我的数据在 Google Cloud Storage 上，我了解到我可以使用 Spark 直接查询它，这是 Google 推荐的。

在这种情况下，是否有必要启动整个集群？ Spark 在 Google Cloud Storage 上的效率是否与在 HDFS 上一样高效？

如果没有，那么只使用 Jupyter 和 Spark 旋转一个大型 VM 并使用它在 GCS 上存储的数据上运行作业会更容易。

【问题讨论】：

标签： apache-spark google-cloud-platform google-cloud-storage google-cloud-dataproc

【解决方案1】：

在 Dataproc 集群上，您可以使用 Spark 处理来自 HDFS 和 GCS（谷歌云存储）的数据，两者效率相同。您的集群大小需要根据您计划在 Spark 作业中执行的计算来确定。在比较一个大型 VM 与多个（较小的）VM 时，您需要考虑一系列权衡 - 主要是您可以垂直扩展多少（使用一个 VM）。

【讨论】：

【解决方案2】：

如果您只需要分析来自 Google Cloud Storage 的数据，我建议您在需要时在 dataproc 上创建一个集群。但这仍然取决于这项工作需要多长时间，以及你做这项工作的频率。

例如，您有一个计划的每小时 ETL 作业。您可以每小时创建一个新的集群，并在工作完成后删除。这是非常划算的。

【讨论】：