【问题标题】:Spark 2.0 - Databricks xml reader Input path does not existSpark 2.0 - Databricks xml阅读器输入路径不存在
【发布时间】:2016-09-18 00:21:23
【问题描述】:

我正在尝试使用 Databricks XML 文件阅读器 api。

示例代码:

val spark = SparkSession
    .builder()
    .master("local[*]")
    .appName("Java Spark SQL basic example")
    .config("spark.sql.warehouse.dir", "file:///C:/TestData")
    .getOrCreate();
  //val sqlContext = new SQLContext(sc)
  val df = spark.read
    .format("com.databricks.spark.xml")
    .option("rowTag", "book")
    .load("books.xml")

    df.show()

如果我直接给出文件路径,它会寻找一些仓库目录。所以我设置了spark.sql.warehouse.dir 选项,但现在它抛出输入路径不存在。

其实是在项目根目录下找,为什么要找项目根目录?

【问题讨论】:

    标签: apache-spark apache-spark-sql databricks


    【解决方案1】:

    终于成功了。我们需要指定仓库目录以及在加载方法中传递绝对文件路径。不知道仓库目录有什么用。

    主要部分是我们不需要像其他 Stackoverflow 答案中提到的那样给出 C:

    工作代码:

    val spark = SparkSession
        .builder()
        .master("local[*]")
        .appName("Java Spark SQL basic example")
        .config("spark.sql.warehouse.dir", "file:///TestData/")
        .getOrCreate();
      //val sqlContext = new SQLContext(sc)
      val df = spark.read
        .format("com.databricks.spark.xml")
        .option("rowTag", "book")
        .load("file:///TestData/books.xml")
    
        df.show()
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-31
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多