【发布时间】:2018-04-06 15:49:20
【问题描述】:
我有一个以 lzo 格式压缩的 csv 文件,我想将其导入 pyspark 数据帧。如果文件没有压缩,我会这样做:
import pyspark as ps
spark = ps.sql.SparkSession.builder.master("local[2]").getOrCreate()
data = spark.read.csv(fp, schema=SCHEMA, sep="\t")
文件路径fp 和架构SCHEMA 在别处正确定义。但是,当使用 lzo 压缩文件时,这会返回一个填充有 null 值的数据帧。
我已经在我的机器上安装了 lzop,可以从终端解压缩文件,然后使用 pyspark 导入它。但是,由于硬盘空间和时间的限制,这不是一个可行的解决方案(我有大量的 lzo 文件)。
【问题讨论】:
标签: apache-spark pyspark lzo