【发布时间】:2019-11-24 10:50:12
【问题描述】:
我有以下 JSON 对象:
{
"user_id": "123",
"data": {
"city": "New York"
},
"timestamp": "1563188698.31",
"session_id": "6a793439-6535-4162-b333-647a6761636b"
}
{
"user_id": "123",
"data": {
"name": "some_name",
"age": "23",
"occupation": "teacher"
},
"timestamp": "1563188698.31",
"session_id": "6a793439-6535-4162-b333-647a6761636b"
}
我正在使用val df = sqlContext.read.json("json") 将文件读取到数据帧
它将所有数据属性组合成数据结构,如下所示:
root
|-- data: struct (nullable = true)
| |-- age: string (nullable = true)
| |-- city: string (nullable = true)
| |-- name: string (nullable = true)
| |-- occupation: string (nullable = true)
|-- session_id: string (nullable = true)
|-- timestamp: string (nullable = true)
|-- user_id: string (nullable = true)
是否可以将数据字段转换为 MAP[String, String] 数据类型?所以它只和原始json有相同的属性?
【问题讨论】:
-
嗨!将 Spark Dataframe
Row转换为 ScalaMap并不是一项简单的任务。我可以帮助您,但您必须指定有关您的用例的更多详细信息。你想用Map对象做什么?您想对嵌套数据执行什么样的操作? -
嗨@ÁlvaroValencia,我希望从json 生成镶木地板文件。我在 AWS 上使用 Athena,需要匹配表格式以使数据可查询。谢谢
标签: json scala apache-spark