【问题标题】:Failed to find data source: com.databricks.spark.xml. Please find packages at http://spark.apache.org/third-party-projects.html找不到数据源:com.databricks.spark.xml。请在 http://spark.apache.org/third-party-projects.html 找到包
【发布时间】:2018-06-07 11:47:22
【问题描述】:

我正在使用未安装 Spark 的 intellij 项目加载 Spark。

 val spark = SparkSession.builder().config(sparkConf).getOrCreate()

我已经使用 com.spark.databricks.xml 添加到 spark

sparkConf.set("spark.driver.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.setExecutorEnv("spark.driver.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.set("spark.executor.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.setExecutorEnv("spark.executor.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.setJars(Array("C:/.../spark-xml_2.11-0.4.1.jar"    ))

spark.sparkContext.addJar("C:/.../spark-xml_2.10-0.2.0.jar")

但在尝试使用 spark.read.format ("com.databricks.spark.xml") 时出现异常“无法找到数据源:com.databricks.spark.xml。请在 http://spark.apache.org/third-party-projects.html 找到包”。

我该如何解决这个问题?我知道建议使用 spark-shell 添加 jars,但我没有 spark-shell,因为我没有安装 spark...

【问题讨论】:

    标签: scala apache-spark databricks


    【解决方案1】:

    如果你有一个使用 maven/sbt 的项目,你可以添加如下所述的 spark-xml 依赖:

        <!-- https://mvnrepository.com/artifact/com.databricks/spark-xml -->
    <dependency>
        <groupId>com.databricks</groupId>
        <artifactId>spark-xml_2.11</artifactId>
        <version>0.4.1</version>
    </dependency>
    

    参考:https://mvnrepository.com/artifact/com.databricks/spark-xml_2.11/0.4.1

    【讨论】:

    • 是的,我的 Maven 中有它。我认为jar需要添加到SparkContext本身,maven/sbt只添加到我的项目中
    猜你喜欢
    • 2020-06-16
    • 2021-12-01
    • 1970-01-01
    • 2015-04-13
    • 2019-08-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多