OrcRelation 不可分配给 HadoopFsRelation答案

【问题标题】：OrcRelation is not assignable to HadoopFsRelationOrcRelation 不可分配给 HadoopFsRelation
【发布时间】：2017-07-05 11:27:31
【问题描述】：

我正在尝试在配置单元表上运行 SparkSql。但我无法理解的问题。这是我的代码：

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.hive.*;
import org.apache.spark.sql.SQLContext;
public class queryhive {
public static void main(String[] args)
{
    //SparkSession sc = new SparkConf().setAppName("SparkSessionZipsExample").setMaster("local");
    SparkConf sparkConf = new SparkConf().setAppName("SparkSessionZipsExample").setMaster("local");
        JavaSparkContext scon = new JavaSparkContext(sparkConf);
            SQLContext sqlContext = new SQLContext(scon);
        String warehouseLocation = "file:${system:user.dir}/spark-warehouse";
            SparkSession sc = SparkSession
               .builder()
               .appName("SparkSessionZipsExample")
               .config("spark.sql.warehouse.dir", warehouseLocation)
               .enableHiveSupport()
               .getOrCreate();
            HiveContext hc = new org.apache.spark.sql.hive.HiveContext(sc);
            hc.sql("select count(*) from SparkHive.health");
            Row[] results = (Row[]) sqlContext.sql("FROM src SELECT key, value").collect();
}
}

我得到的例外是：

17/02/16 16:36:51 INFO SparkSqlParser: Parsing command: select count(*) from SparkHive.health
Exception in thread "main" java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRegister: Provider org.apache.spark.sql.hive.orc.DefaultSource could not be instantiated
    at java.util.ServiceLoader.fail(ServiceLoader.java:232)
    at java.util.ServiceLoader.access$100(ServiceLoader.java:185)
    at java.util.ServiceLoader$LazyIterator.nextService(ServiceLoader.java:384)
    at java.util.ServiceLoader$LazyIterator.next(ServiceLoader.java:404)
    at java.util.ServiceLoader$1.next(ServiceLoader.java:480)
    at scala.collection.convert.Wrappers$JIteratorWrapper.next(Wrappers.scala:43)
    at scala.collection.Iterator$class.foreach(Iterator.scala:893)
    at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)
    at scala.collection.IterableLike$class.foreach(IterableLike.scala:72)
    at scala.collection.AbstractIterable.foreach(Iterable.scala:54)
    at scala.collection.TraversableLike$class.filterImpl(TraversableLike.scala:247)
    at scala.collection.TraversableLike$class.filter(TraversableLike.scala:259)
    at scala.collection.AbstractTraversable.filter(Traversable.scala:104)
    at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:550)
    at org.apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:86)
    at org.apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:86)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:325)
    at org.apache.spark.sql.execution.datasources.ResolveDataSource$$anonfun$apply$1.applyOrElse(rules.scala:58)
    at org.apache.spark.sql.execution.datasources.ResolveDataSource$$anonfun$apply$1.applyOrElse(rules.scala:41)
    at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan$$anonfun$resolveOperators$1.apply(LogicalPlan.scala:61)
    at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan$$anonfun$resolveOperators$1.apply(LogicalPlan.scala:61)
    at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:70)
    at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.resolveOperators(LogicalPlan.scala:60)
    at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan$$anonfun$1.apply(LogicalPlan.scala:58)
    at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan$$anonfun$1.apply(LogicalPlan.scala:58)
    at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$5.apply(TreeNode.scala:331)
    at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:188)
    at org.apache.spark.sql.catalyst.trees.TreeNode.transformChildren(TreeNode.scala:329)
    at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.resolveOperators(LogicalPlan.scala:58)
    at org.apache.spark.sql.execution.datasources.ResolveDataSource.apply(rules.scala:41)
    at org.apache.spark.sql.execution.datasources.ResolveDataSource.apply(rules.scala:40)
    at org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:85)
    at org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:82)
    at scala.collection.LinearSeqOptimized$class.foldLeft(LinearSeqOptimized.scala:124)
    at scala.collection.immutable.List.foldLeft(List.scala:84)
    at org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:82)
    at org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:74)
    at scala.collection.immutable.List.foreach(List.scala:381)
    at org.apache.spark.sql.catalyst.rules.RuleExecutor.execute(RuleExecutor.scala:74)
    at org.apache.spark.sql.execution.QueryExecution.analyzed$lzycompute(QueryExecution.scala:64)
    at org.apache.spark.sql.execution.QueryExecution.analyzed(QueryExecution.scala:62)
    at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:48)
    at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:63)
    at org.apache.spark.sql.SparkSession.sql(SparkSession.scala:592)
    at org.apache.spark.sql.SQLContext.sql(SQLContext.scala:699)
    at SparkHiveSql.sparkhivesql.queryhive.main(queryhive.java:27)
Caused by: java.lang.VerifyError: Bad return type
Exception Details:
  Location:
    org/apache/spark/sql/hive/orc/DefaultSource.createRelation(Lorg/apache/spark/sql/SQLContext;[Ljava/lang/String;Lscala/Option;Lscala/Option;Lscala/collection/immutable/Map;)Lorg/apache/spark/sql/sources/HadoopFsRelation; @35: areturn
  Reason:
    Type 'org/apache/spark/sql/hive/orc/OrcRelation' (current frame, stack[0]) is not assignable to 'org/apache/spark/sql/sources/HadoopFsRelation' (from method signature)
  Current Frame:
    bci: @35
    flags: { }
    locals: { 'org/apache/spark/sql/hive/orc/DefaultSource', 'org/apache/spark/sql/SQLContext', '[Ljava/lang/String;', 'scala/Option', 'scala/Option', 'scala/collection/immutable/Map' }
    stack: { 'org/apache/spark/sql/hive/orc/OrcRelation' }
  Bytecode:
    0x0000000: b200 1c2b c100 1ebb 000e 592a b700 22b6
    0x0000010: 0026 bb00 2859 2c2d b200 2d19 0419 052b
    0x0000020: b700 30b0                              

    at java.lang.Class.getDeclaredConstructors0(Native Method)
    at java.lang.Class.privateGetDeclaredConstructors(Class.java:2671)
    at java.lang.Class.getConstructor0(Class.java:3075)
    at java.lang.Class.newInstance(Class.java:412)
    at java.util.ServiceLoader$LazyIterator.nextService(ServiceLoader.java:380)
    ... 43 more
17/02/16 16:36:55 INFO SparkContext: Invoking stop() from shutdown hook
17/02/16 16:36:55 INFO SparkUI: Stopped Spark web UI at http://10.0.0.3:4040

我不知道为什么会这样。在运行这个程序之前，我的 HIVE 运行良好，但现在它根本无法运行。
是什么原因以及如何使上述代码运行？
我正在使用 Eclispe IDE，我的 Spark 版本是 2.1.0

【问题讨论】：

相关：stackoverflow.com/questions/41516166/…
@G_H 我所拥有的没问题。谢谢你的分享
如果您检查这两个问题的堆栈跟踪，您会发现根本原因是相同的。 ServiceLoader 在类路径上找到 DefaultSource 实现调用构造函数，该构造函数返回的类型与预期的返回类型不对应。在预期 HadoopFsRelation 的地方返回 OrcRelation，但 OrcRelation 没有实现 HadoopFsRelation。这可能是版本冲突，因为我在 2.1.0 中找不到 HadoopFsRelation，而在旧版本（例如 1.6.0）中却存在。您的类路径上是否有多个 Spark 版本，或混合的 Spark/Hive 实现？
@G_H 可能是多重火花。实际上，我在开源 Spark 的程序中使用了一些库。我已经使用 Bitnami 安装程序安装了 hadoop，它附带了一系列 hive 和 spark。将捆绑包用于我的目的。但是使用 java 程序来运行它。
Hadoop 安装是否可能使用 2.0.0 之前的 Hive 和 Spark 版本（如 1.6.3），而您的代码中包含 2.1.0 库？或者反过来：在安装为 2.1.0 时使用 pre-2.0.0 库。您的类路径中有一个带有META-INF/services/org.apache.spark.sql.sources.DataSourceRegister 的jar，其中列出了org.apache.spark.sql.hive.orc.DefaultSource 作为实现。它找到的 DefaultSource 有一个名为 createRelation 的方法，该方法返回一个不是 HadoopFsRelation 子类的 OrcRelation，但调用它的代码需要这样。

标签： java apache-spark hive apache-spark-sql

【解决方案1】：

您的类路径中很可能存在版本冲突。为了理解发生了什么，我将简要解释一下 Java 服务提供者机制。

在 Java 中，服务提供者机制允许 API 指定一些（抽象）类，API 的实现必须继承这些类。然后可以使用ServiceLoader 查找提供程序类的实现。此类类的一个示例是来自 Java API 的 JAXBContext。 JAXB 本身就是 API，您将在应用程序中使用它，但是有多个 JAXB 实现（参考实现和 EclipseLink Moxy）。抽象类（本例中为 JAXBContext）是 API 的入口点。服务提供者机制可以找到实现的一种方法是通过类路径上特殊文件夹中的文件：META-INF/services。您通常会在 jar 文件中找到此类文件夹。 services 文件夹可以包含具有抽象提供程序类名称的文件。可能有多个这样的文件。每个文件可以包含任意数量的特定类名，它们是抽象类的实现。

因此，对于 JAXB，您会在 jar 文件中找到文件名为 javax.xml.bind.JAXBContext 的文件。这是抽象提供者类的名称。然后，这些文件将包含一行或多行列出 JAXBContext 的实现，可以对其进行实例化以向该提供者提供一个条目。

让我们看看您的堆栈跟踪。在某些时候，一个名为DataSource 的类希望找到实现。它发生在堆栈中：

at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:550)
at org.apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:86)
at org.apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:86)
at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:325)

java.util.ServiceLoader 类用于遍历已通过上述机制注册的实现。它遍历实现列表，直到根据调用代码的某些标准找到一些东西。这发生在这里：

at java.util.ServiceLoader$LazyIterator.nextService(ServiceLoader.java:384)
at java.util.ServiceLoader$LazyIterator.next(ServiceLoader.java:404)
at java.util.ServiceLoader$1.next(ServiceLoader.java:480)

这就是问题所在。该问题的详细信息在此部分中找到：

Location:
org/apache/spark/sql/hive/orc/DefaultSource.createRelation(Lorg/apache/spark/sql/SQLContext;[Ljava/lang/String;Lscala/Option;Lscala/Option;Lscala/collection/immutable/Map;)Lorg/apache/spark/sql/sources/HadoopFsRelation; @35: areturn
Reason:
Type 'org/apache/spark/sql/hive/orc/OrcRelation' (current frame, stack[0]) is not assignable to 'org/apache/spark/sql/sources/HadoopFsRelation' (from method signature)
Current Frame:
bci: @35
flags: { }
locals: { 'org/apache/spark/sql/hive/orc/DefaultSource', 'org/apache/spark/sql/SQLContext', '[Ljava/lang/String;', 'scala/Option', 'scala/Option', 'scala/collection/immutable/Map' }
stack: { 'org/apache/spark/sql/hive/orc/OrcRelation' }

这需要一点挖掘，但您可以从中推断出一个类 org.apache.spark.sql.hive.orc.DefaultSource 被发现据称实现了调用正在寻找的内容。创建它的一个实例，然后用它调用方法createRelation。该方法有一个返回类型org.apache.spark.sql.sources.HadoopFsRelation，至少根据抽象类。然而，返回的是一个类org.apache.spark.sql.hive.orc.OrcRelation。如果它是 HadoopFsRelation 的子类，那很好，但显然不是。

最有可能发生这种情况的方式是，如果同一类的不同实现最终出现在类路径中，而您获得的实现具有不同的方法返回类型，或者只是具有不同（不兼容）的类层次结构。

我去寻找类 HadoopFsRelation。它可以在 Spark 中找到，直到版本 1.6.3，在包 org.apache.spark.sql.sources 中。在 2.1.0 版本中它不再存在，所以我怀疑它已从 2.x API 中删除。在 1.6.3 版本中，您还可以找到类 org.apache.spark.sql.hive.orc.OrcRelation，并且在该版本中它确实实现了 HadoopFsRelation。

现在到 Spark 版本 2.1.0。类 HadoopFsRelation 无处可寻。我找到了 OrcRelation，它和以前在同一个包中（在 jar spark-hive_2.11-2.1.0.jar 中，它是 Spark 2.1.0 发行版的一部分）。只是现在该类没有实现 HadoopFsRelation。

所以发生的事情是这样的。您尝试在 Hive 的代码中使用 Spark。您创建的 SQLContext 类可能是从 Spark 1.6.x（或其他早于 2.x 的版本）加载的。它会寻找 DataSourceRegister 实现（被列为服务提供者的类）并找到一个 META-INF/services/org.apache.spark.sql.sources.DataSourceRegister 文件（或多个，更有可能）。它决定它需要的是实现org.apache.spark.sql.hive.orc.DefaultSource。找到并实例化该类。到目前为止，一切都很好。 1.6.x 代码然后调用createRelation 并期望HadoopFsRelation 实现。但是，返回的org.apache.spark.sql.hive.orc.OrcRelation 的类是从版本 2.1.0（或 2 之后的任何版本）加载的，它没有实现 HadoopFsRelation。

如果您安装了 Spark 2.1.0 并使用了它的库，然后添加了一些您下载的库，我敢打赌您已经下载了一些 2.x 之前的版本。这些最终成为执行代码时的入口点，但他们意外地发现了具有不同定义的较新类。您需要检查类路径中的内容并删除不正确的条目。最好删除所有与 Spark、Hive 和 Hadoop 相关的内容，并确保您只使用安装中的内容，或通过 Apache 下载最新版本，检查您的代码是否针对其 API 并仅使用这些 jar。如果您需要任何额外的东西，请确保它来自同一版本，或者它是与您正在使用的版本兼容的某些实用程序。

【讨论】：