Spark Read HBase with java.lang.NoSuchMethodError: org.apache.hadoop.mapreduce.InputSplit.getLocationInfo 错误答案

【问题标题】：Spark Read HBase with java.lang.NoSuchMethodError: org.apache.hadoop.mapreduce.InputSplit.getLocationInfo errorSpark Read HBase with java.lang.NoSuchMethodError: org.apache.hadoop.mapreduce.InputSplit.getLocationInfo 错误
【发布时间】：2023-03-24 22:53:01
【问题描述】：

我想通过 Spark 使用 scala 读取 Hbase，但出现错误：

Exception in thread "dag-scheduler-event-loop" java.lang.NoSuchMethodError: org.apache.hadoop.mapreduce.InputSplit.getLocationInfo()[Lorg/apache/hadoop/mapred/SplitLocationInfo;

但是我已经添加了依赖项，这个问题困扰着我。我的环境如下：

scala：2.11.12
火花：2.3.1
HBase：可能是 2.1.0（我不知道）
Hadoop：2.7.2.4

而我的build.sbt是：

libraryDependencies ++= Seq(
    "org.apache.spark" % "spark-core_2.11" % "2.3.1",
    "org.apache.spark" % "spark-sql_2.11" % "2.3.1",
    "org.apache.spark" % "spark-streaming_2.11" % "2.3.1",
    "org.apache.spark" % "spark-streaming-kafka-0-10_2.11" % "2.3.1",
    "org.apache.spark" % "spark-yarn_2.11" % "2.3.1",
    "org.apache.hadoop" % "hadoop-core" % "2.6.0-mr1-cdh5.15.1",
    "org.apache.hadoop" % "hadoop-common" % "2.7.2",
    "org.apache.hadoop" % "hadoop-client" % "2.7.2",
    "org.apache.hadoop" % "hadoop-mapred" % "0.22.0",
    "org.apache.hadoop" % "hadoop-nfs" % "2.7.2",
    "org.apache.hadoop" % "hadoop-hdfs" % "2.7.2",
    "org.apache.hadoop" % "hadoop-hdfs-nfs" % "2.7.2",
    "org.apache.hadoop" % "hadoop-mapreduce-client-core" % "2.7.2",
    "org.apache.hadoop" % "hadoop-mapreduce" % "2.7.2",
    "org.apache.hadoop" % "hadoop-mapreduce-client" % "2.7.2",
    "org.apache.hadoop" % "hadoop-mapreduce-client-common" % "2.7.2",
    "org.apache.hbase" % "hbase" % "2.1.0",
    "org.apache.hbase" % "hbase-server" % "2.1.0",
    "org.apache.hbase" % "hbase-common" % "2.1.0",
    "org.apache.hbase" % "hbase-client" % "2.1.0",
    "org.apache.hbase" % "hbase-protocol" % "2.1.0",
    "org.apache.hbase" % "hbase-metrics" % "2.1.0",
    "org.apache.hbase" % "hbase-metrics-api" % "2.1.0",
    "org.apache.hbase" % "hbase-mapreduce" % "2.1.0",
    "org.apache.hbase" % "hbase-zookeeper" % "2.1.0",
    "org.apache.hbase" % "hbase-hadoop-compat" % "2.1.0",
    "org.apache.hbase" % "hbase-hadoop2-compat" % "2.1.0",
    "org.apache.hbase" % "hbase-spark" % "2.1.0-cdh6.1.0"
)

我真的不知道我哪里错了，如果我添加了错误的依赖或者我需要添加一些新的依赖，请告诉我在哪里可以下载它，例如：resolvers += "Apache HBase" at "https://repository.apache.org/content/repositories/releases"

请帮助我，谢谢！

【问题讨论】：

标签： scala apache-spark hadoop hbase

【解决方案1】：

您需要修复这些版本以匹配您正在运行的 Hadoop 版本，否则您可能会遇到类路径/方法问题。具体来说，您的错误来自 mapreduce 包

"org.apache.hadoop" % "hadoop-core" % "2.6.0-mr1-cdh5.15.1",
"org.apache.hadoop" % "hadoop-mapred" % "0.22.0",

Spark已经包含大部分 Hadoop 本身，所以不清楚为什么你要自己指定它们，但至少在其中一些上加上 % "provided"

对于hbase-spark，我怀疑您是否需要cdh6 依赖项，因为CDH 6 基于Hadoop 3 库，而不是2.7.2

【讨论】：

【解决方案2】：

我能否获得有关您如何运行 spark 作业的更多详细信息？如果您使用 Cloudera 或 Horton 作品等自定义分发，您可能必须使用他们的库进行编译，并且 spark-submit 将使用分发安装的类路径将作业提交到集群。

要开始使用，请将% provided 添加到 sbt 文件中的库中，以便它使用 spark 安装的类路径中的特定库。

【讨论】：