【发布时间】:2016-01-07 12:18:58
【问题描述】:
我有一个 HDFS 目录,其中包含以下 JSON 文件格式:
https://www.hl7.org/fhir/bundle-transaction.json.html
我希望做的是找到一种方法来扁平化每个单独的文件以成为一个 df 记录或 rdd 元组。我已经尝试了所有我能想到的使用 read.json()、wholeTextFiles() 等的方法。
如果有人有任何最佳实践建议或指示,我们将不胜感激。
【问题讨论】:
-
我查看了那个json,如果你想要一个元组,你希望什么是关键?示例帮助
-
为什么 wholeTextFiles 不适合你?
-
@Pangea 这个实例与我的实例略有不同。在我的 FHIR 包中,始终只有一个可识别的患者资源。所以理想情况下使用每个文件唯一的 uuid。我希望这不是太模糊。
-
@JustinPihony 好吧,我可以使用 sc.wholeTextFiles() 成功阅读该示例,但在考虑到结构之后如何有效地展平它们,我对此持空白。
标签: json apache-spark