【发布时间】:2018-11-14 07:19:56
【问题描述】:
我可以使用
将 json 文件读入 Pyspark 中的数据框spark = SparkSession.builder.appName('GetDetails').getOrCreate()
df = spark.read.json("path to json file")
但是,当我尝试将 bz2(压缩 csv)读入数据帧时,它给了我一个错误。我正在使用:
spark = SparkSession.builder.appName('GetDetails').getOrCreate()
df = spark.read.load("path to bz2 file")
你能帮我纠正一下吗?
【问题讨论】:
-
你遇到了什么错误?尝试在您的问题中包含该错误。
-
我相信该错误包含以下线索:“原因:java.lang.RuntimeException:file:path/to/json.bz2 不是 Parquet 文件。尾部的预期幻数 [80, 65 , 82, 49] 但发现 [0, 108, 106, -40]" 默认情况下
spark.read.load需要“parquet”格式。
标签: python apache-spark pyspark apache-spark-sql