【发布时间】:2018-01-26 07:54:34
【问题描述】:
我有以delflate.gz 格式压缩的源文件。将数据加载到 Spark 数据帧中时,它因ArrayOutofBound 异常而失败。
val cf = spark.read.option("header", "false").option("delimiter", "\u0001").option("codec", "deflate").csv("path/xxx.deflate.gz")
cf.show()
错误:
org.apache.spark.SparkException:作业因阶段失败而中止:阶段 15.0 中的任务 0 失败 4 次,最近一次失败:阶段 15.0 中丢失任务 0.3(TID 871、10.180.255.33、执行程序 0):java .lang.ArrayIndexOutOfBoundsException: 63
【问题讨论】:
-
如果文件不是用
gzip编解码器压缩的,那为什么要.gz扩展?你只是在找麻烦。 -
顺便说一句,代码示例有一个“代码示例”格式。用它。真的。
标签: apache-spark spark-dataframe