【问题标题】:How to read multiple Json files under sub directories using Scala如何使用Scala读取子目录下的多个Json文件
【发布时间】:2017-02-07 05:58:14
【问题描述】:

我正在寻找代码 sn-p 以找到使用 scala 读取 hadoop 子目录下的多个嵌套 JSON 文件的最佳实践。

如果我们可以将上述JSON文件写入hadoop其他目录中的单个文件,那就更好了。

感谢任何帮助。

谢谢 PG

【问题讨论】:

  • :您是使用 Spark 和 Scala API 还是如何在 Hadoop 中使用 Scala?
  • 感谢您的回复。我正在使用带有 scala API 的 spark。
  • 你可以使用sqlContext.read.json("json file path")来读取json文件,它返回一个DataFrame。但是你说嵌套目录,json文件是不是有不同的架构?
  • 谢谢尚卡尔。文件将具有相似的架构,我猜它可以读取文件。现在下一步是我可以将所有文件写入一个单独的 json 文件可能需要 1-2 步以提高性能。
  • 看看这里。我认为最佳答案可能会有所帮助:stackoverflow.com/questions/28203217/…

标签: json scala hadoop


【解决方案1】:

你可以使用sqlContext.read.json("input file path")读取json文件,它返回一个DataFrame。

获得DataFrame后,只需使用 df.write.json("output file path") 将DF写入json文件。

代码示例:如果您使用 Spark 2.0

val spark = SparkSession
      .builder()
      .appName("Spark SQL JSON example")
      .getOrCreate()

      val df = spark.read.json("input/file/path")

      df.write.json("output/file/path")

【讨论】:

    猜你喜欢
    • 2020-12-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-12-19
    • 2016-10-20
    • 1970-01-01
    • 2023-01-30
    • 2015-04-25
    相关资源
    最近更新 更多