【问题标题】:Apache Spark on Google Cloud, Cluster or no ClusterGoogle Cloud、集群或无集群上的 Apache Spark
【发布时间】:2018-08-13 13:41:22
【问题描述】:

我想使用 Apache Spark 来处理 Google Cloud 中的大量数据。

我按照文档启动了一个包含 5 个节点的 Cloud Dataproc 集群。一切都完美无缺。

但我的数据在 Google Cloud Storage 上,我了解到我可以使用 Spark 直接查询它,这是 Google 推荐的。

在这种情况下,是否有必要启动整个集群? Spark 在 Google Cloud Storage 上的效率是否与在 HDFS 上一样高效?

如果没有,那么只使用 Jupyter 和 Spark 旋转一个大型 VM 并使用它在 GCS 上存储的数据上运行作业会更容易。

【问题讨论】:

    标签: apache-spark google-cloud-platform google-cloud-storage google-cloud-dataproc


    【解决方案1】:

    在 Dataproc 集群上,您可以使用 Spark 处理来自 HDFS 和 GCS(谷歌云存储)的数据,两者效率相同。您的集群大小需要根据您计划在 Spark 作业中执行的计算来确定。在比较一个大型 VM 与多个(较小的)VM 时,您需要考虑一系列权衡 - 主要是您可以垂直扩展多少(使用一个 VM)。

    【讨论】:

      【解决方案2】:

      如果您只需要分析来自 Google Cloud Storage 的数据,我建议您在需要时在 dataproc 上创建一个集群。但这仍然取决于这项工作需要多长时间,以及你做这项工作的频率。

      例如,您有一个计划的每小时 ETL 作业。您可以每小时创建一个新的集群,并在工作完成后删除。这是非常划算的。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2014-08-26
        • 1970-01-01
        • 1970-01-01
        • 2019-12-04
        • 2019-06-14
        • 1970-01-01
        • 1970-01-01
        • 2019-06-22
        相关资源
        最近更新 更多