【发布时间】:2018-08-13 13:41:22
【问题描述】:
我想使用 Apache Spark 来处理 Google Cloud 中的大量数据。
我按照文档启动了一个包含 5 个节点的 Cloud Dataproc 集群。一切都完美无缺。
但我的数据在 Google Cloud Storage 上,我了解到我可以使用 Spark 直接查询它,这是 Google 推荐的。
在这种情况下,是否有必要启动整个集群? Spark 在 Google Cloud Storage 上的效率是否与在 HDFS 上一样高效?
如果没有,那么只使用 Jupyter 和 Spark 旋转一个大型 VM 并使用它在 GCS 上存储的数据上运行作业会更容易。
【问题讨论】:
标签: apache-spark google-cloud-platform google-cloud-storage google-cloud-dataproc