【发布时间】:2015-05-04 17:57:06
【问题描述】:
使用 pyspark 时,您可以在 sc.textFile 方法中设置减少的数量,以便您可以按照 here 的说明更快地从 S3 读取文件。这很好用,但从 Spark 1.3 开始,我们也可以开始使用 DataFrames。
Spark DataFrames 也可以这样吗?我正在尝试将它们从 S3 加载到 spark 集群(通过 ec2-spark 创建)。基本上我试图让这段代码快速运行非常大的“data.json”文件:
from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext(CLUSTER_URL, 'ipython-notebook')
sqlContext = SQLContext(sc)
df = sqlContext.jsonFile('s3n://bucket/data.json').cache()
【问题讨论】: