【发布时间】:2017-02-07 05:58:14
【问题描述】:
我正在寻找代码 sn-p 以找到使用 scala 读取 hadoop 子目录下的多个嵌套 JSON 文件的最佳实践。
如果我们可以将上述JSON文件写入hadoop其他目录中的单个文件,那就更好了。
感谢任何帮助。
谢谢 PG
【问题讨论】:
-
:您是使用 Spark 和 Scala API 还是如何在 Hadoop 中使用 Scala?
-
感谢您的回复。我正在使用带有 scala API 的 spark。
-
你可以使用
sqlContext.read.json("json file path")来读取json文件,它返回一个DataFrame。但是你说嵌套目录,json文件是不是有不同的架构? -
谢谢尚卡尔。文件将具有相似的架构,我猜它可以读取文件。现在下一步是我可以将所有文件写入一个单独的 json 文件可能需要 1-2 步以提高性能。
-
看看这里。我认为最佳答案可能会有所帮助:stackoverflow.com/questions/28203217/…