【发布时间】:2015-12-22 16:13:52
【问题描述】:
我在加载依赖于输入 JSON 文件格式的 JSON 时遇到问题。
根据 JSON 数据集上的 Spark 文档,输入文件中的每一行都必须是有效的 JSON 对象。回复:
"请注意,作为 json 文件提供的文件不是典型的 JSON 文件。每一行必须包含一个单独的、自包含的有效 JSON 对象。因此,一个常规的多行 JSON 文件通常会失败。”
所以,如果我有一个输入 JSON 文件,例如:
{
"Year": "2013",
"First Name": "DAVID",
"County": "KINGS",
"Sex": "M",
"Count": "272"
},
{
"Year": "2013",
"First Name": "JAYDEN",
"County": "KINGS",
"Sex": "M",
"Count": "268"
}
是否有任何现有的工具或脚本可以转换为:
{"Year": "2013","First Name": "DAVID","County": "KINGS","Sex": "M","Count":"272"},
{"Year": "2013","First Name": "JAYDEN","County": "KINGS","Sex": "M","Count": "268"}
其中 JSON 符合“每一行必须包含一个单独的、自包含的有效 JSON 对象”
如果我按照上面的这种样式格式化,事情会按预期工作。但是,我在几行上手动制作了这些模组。我无法对整个数据集执行此操作,因此请寻找现有的脚本或工具。
或
如果这是一个更好的选择,我可以加载到可用的 JDBC 数据库。想法?
提前致谢
【问题讨论】:
标签: json apache-spark apache-spark-sql