【发布时间】:2019-08-08 13:00:06
【问题描述】:
我在使用 spark-submit (2.4.0) 提交的 spark 应用程序中遇到此异常
用户类抛出异常:org.apache.spark.sql.AnalysisException:为 parquet 找到多个来源(org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat、org.apache.spark.sql.execution. datasources.parquet.DefaultSource),请指定完全限定的类名。;
我的申请是:
val sparkSession = SparkSession.builder()
.appName(APP_NAME)
.config("spark.sql.warehouse.dir", warehouseLocation)
.enableHiveSupport()
.getOrCreate()
sparkSession.sql(query)
我无法弄清楚这个 parquet 的重复来源是从哪里来的:
这是我的 spark-submit:
spark-submit-2.4.0 --master 纱线集群 \ --files="/etc/hive/hive-site.xml" \ --driver-class-path="/etc/hadoop/:/usr/lib/spark-packages/spark2.4.0/jars/:/usr/lib/spark-packages/spark2.4.0/lib/spark -assembly.jar:/usr/lib/hive/lib/"
有什么建议吗?
【问题讨论】:
-
你好@BiN 尽量不要导入比 Spark 已经拥有的更多的 parquet .jar 文件。您使用 spark-submit 包含的文件夹看起来可能有更多相同的 jar 文件但版本不同。
标签: apache-spark