【发布时间】:2016-11-30 17:24:27
【问题描述】:
我在 S3 存储桶中有一个数据帧,分为 8 个 csv 文件,每个文件 709.7MB。
我创建了一个具有 8 个节点的 EMR 集群(r3.4xlarge:16 个 vCPU、122 个 RAM 和 320 个磁盘)。
我的 Spark 配置是:
num-executors='23'
executor-memory='34G'
executor-cores='5'
我编写了这个 python 脚本来加载我的数据框:
df = sqlContext.read.load("s3://my-bucket/my-dataframe/*",
format='com.databricks.spark.csv',
header='true',
delimiter='\t',
inferSchema='true')
问题: 当我在 Spark History Server 中观看各个阶段时,结果如下。
3 csv 文件未正确加载。 有人有解决这个问题的方法或知道原因吗?
【问题讨论】:
标签: python apache-spark amazon-s3 pyspark amazon-emr