【发布时间】:2023-03-27 08:36:01
【问题描述】:
我在 Google Cloud Platform Dataproc 中创建了一个集群,代码如下:sn-p:
gcloud dataproc clusters create $SOLO \
--project $PROJ \
--bucket $STORAGE \
--region $REGION \
--image-version 1.4-ubuntu18 --single-node \
--master-machine-type n1-standard-8 \
--master-boot-disk-type pd-ssd --master-boot-disk-size 100 \
--initialization-actions gs://goog-dataproc-initialization-actions-$REGION/python/pip-install.sh \
从Google documentation here,n1-standard-8 有 8 个 vCPU。
我有一个 PySpark 脚本,其中包含以下代码:
import pyspark
sc = pyspark.SparkContext.getOrCreate()
print(sc.defaultParallelism)
当我将该 PySpark 脚本提交到集群时,作业日志显示 Spark 内容的默认并行度为 2。
为什么sc.defaultParallelism 返回 2,而不是 8?
【问题讨论】:
标签: python apache-spark google-cloud-platform pyspark google-cloud-dataproc