【问题标题】:Spark 2.4 application throws parquet errorSpark 2.4 应用程序抛出 parquet 错误
【发布时间】:2019-08-08 13:00:06
【问题描述】:

我在使用 spark-submit (2.4.0) 提交的 spark 应用程序中遇到此异常

用户类抛出异常:org.apache.spark.sql.AnalysisException:为 parquet 找到多个来源(org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat、org.apache.spark.sql.execution. datasources.parquet.DefaultSource),请指定完全限定的类名。;

我的申请是:

val sparkSession = SparkSession.builder()
      .appName(APP_NAME)
      .config("spark.sql.warehouse.dir", warehouseLocation)
      .enableHiveSupport()
      .getOrCreate()
sparkSession.sql(query)

我无法弄清楚这个 parquet 的重复来源是从哪里来的:

这是我的 spark-submit:

spark-submit-2.4.0 --master 纱线集群 \ --files="/etc/hive/hive-site.xml" \ --driver-class-path="/etc/hadoop/:/usr/lib/spark-packages/spark2.4.0/jars/:/usr/lib/spark-packages/spark2.4.0/lib/spark -assembly.jar:/usr/lib/hive/lib/"

有什么建议吗?

【问题讨论】:

  • 你好@BiN 尽量不要导入比 Spark 已经拥有的更多的 parquet .jar 文件。您使用 spark-submit 包含的文件夹看起来可能有更多相同的 jar 文件但版本不同。

标签: apache-spark


【解决方案1】:

我使用的 spark-submit (2.4) 版本和默认的 SPARK_HOME 指向旧版本存在混淆,以防万一其他人有同样的问题。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-01-26
    • 2019-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-09-29
    • 2016-11-25
    • 2014-11-17
    相关资源
    最近更新 更多