【发布时间】:2019-12-24 16:51:37
【问题描述】:
我正在使用 pyspark 从 JSON 文件创建 dataframe。
JSON文件的结构如下:
[
{
"Volcano Name": "Abu",
"Country": "Japan",
"Region": "Honshu-Japan",
"Location": {
"type": "Point",
"coordinates": [
131.6,
34.5
]
},
"Elevation": 571,
"Type": "Shield volcano",
"Status": "Holocene",
"Last Known Eruption": "Unknown",
"id": "4cb67ab0-ba1a-0e8a-8dfc-d48472fd5766"
},
{
"Volcano Name": "Acamarachi",
"Country": "Chile",
"Region": "Chile-N",
"Location": {
"type": "Point",
"coordinates": [
-67.62,
-23.3
}]
我将使用以下代码行读取文件:
myjson = spark.read.json("/FileStore/tables/sample.json")
但是,我不断收到以下错误消息:
激发工作
myjson:pyspark.sql.dataframe.DataFrame
_corrupt_record:字符串
谁能告诉我我可能做错了什么?
是json文件结构有问题吗?
【问题讨论】: