【发布时间】:2018-11-30 13:41:10
【问题描述】:
我是 Hadoop 的新手,
我将 Spark 与 Java 一起使用。
我有动态 JSON,例如:
{
"sourceCode":"1234",
"uuid":"df123-....",
"title":"my title"
}{
"myMetaDataEvent": {
"date":"10/10/2010",
},
"myDataEvent": {
"field1": {
"field1Format":"fieldFormat",
"type":"Text",
"value":"field text"
}
}
}
有时我只能看到 field1,有时我可以看到 field1...field50
也许用户可以从此 JSON 添加字段/删除字段。
我想将这个动态 JSON 从 Spark Java 代码插入到 hadoop(到 hive 表),
我该怎么做?
我希望用户可以在进行 HIVE 查询后,即:select * from MyTable where type="Text
我每天有大约 100B 条 JSON 记录需要插入到 Hadoop,
那么推荐的方法是什么?
*我查看了以下内容:SO Question,但这是已知的 JSON 方案,但不是我的情况。
谢谢
【问题讨论】:
标签: json apache-spark hadoop hive bigdata