【发布时间】:2018-08-03 22:09:18
【问题描述】:
我收到以下错误:
Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: java.io.IOException: No FileSystem for scheme: s3n ...
当我尝试从 S3 检索数据时。我的spark-defaults.conf 有以下行:
spark.jars /Users/lrezende/Desktop/hadoop-aws-2.9.0.jar
这个文件在我的桌面上。
我的代码是:
from pyspark.sql import SparkSession
if spark:
spark.stop()
spark = SparkSession\
.builder\
.master("<master-address>")\
.appName("Test")\
.getOrCreate()
spark.sparkContext.setLogLevel('ERROR')
lines = spark.sparkContext.textFile("s3n://bucket/something/2017/*")
lines.collect()
当我运行 de lines.collect() 时,我得到了错误。
有人可以帮我解决吗?
【问题讨论】:
标签: apache-spark amazon-s3 pyspark