【发布时间】:2018-06-08 13:24:13
【问题描述】:
我们正在尝试使用 Spark 在 S3 中读取 .csv 文件,但收到此错误:
py4j.protocol.Py4JJavaError: An error occurred while calling o32.load.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, 10.50.94.133, executor 0): java.io.IOException: Could not read footer for file: FileStatus{path=s3a://edl-dfs-sas-cecl-dev/output/dev/dev10/h2o/extend_subset.csv; isDirectory=false; length=897466691973; replication=0; blocksize=0; modification_time=0; access_time=0; owner=; group=; permission=rw-rw-rw-; isSymlink=false}
可以做些什么来避免这个错误?
【问题讨论】:
-
听起来您尝试将其解读为 Parquet。
-
命令是:val dnd_df = sc.read.csv("s3a://edl-dfs-sas-cecl-dev/output/dev/dev10/h2o/extend_subset.csv")
-
这是 Scala 代码,不是 Python
-
这里是python命令:myRDD=sc.textFile(“s3a://edl-dfs-sas-cecl-dev/output/dev/dev10/h2o/extend_subset.csv”)跨度>
-
而且这段代码从不调用
load,所以你可以很确定它不会导致你显示的异常。
标签: apache-spark amazon-s3 pyspark