【问题标题】:Which Spark version should I download to run on top of Hadoop 3.1.2?我应该下载哪个 Spark 版本以在 Hadoop 3.1.2 之上运行?
【发布时间】:2019-12-11 07:38:56
【问题描述】:

在 Spark 下载 page 中,我们可以在版本 3.0.0-preview 和 2.4.4 之间进行选择。

对于 3.0.0-preview 版本,有包类型

  • 为 Apache Hadoop 2.7 预构建
  • 为 Apache Hadoop 3.2 及更高版本预构建
  • 使用用户提供的 Apache Hadoop 预构建
  • 源代码

对于 2.4.4 版,有包类型

  • 为 Apache Hadoop 2.7 预构建
  • 为 Apache Hadoop 2.6 预构建
  • 使用用户提供的 Apache Hadoop 预构建
  • 使用 Scala 2.12 和用户提供的 Apache Hadoop 预构建
  • 源代码

由于没有 Pre-built for Apache Hadoop 3.1.2 选项,我可以下载 Pre-built with user-provided Apache Hadoop 包还是应该我下载源码

【问题讨论】:

  • 好问题。我还没有尝试过,但根据此链接,您可以下载 Pre-built for Apache Hadoop 2.7:techguru.my/programming/…
  • 我认为 2.4.3 也可以……基于 AWS EMR
  • 我尝试了 Pre-built for Apache Hadoop 2.7 并在运行 spark-shell 时收到警告 NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
  • 这是一个警告,不是 Spark 错误,不会阻止任何代码运行
  • 正确吗:如果我运行的是 Hadoop 3.1.2,我应该下载 Spark 3.0.0 Pre-built for Hadoop 2.7?

标签: apache-spark hadoop


【解决方案1】:

如果您喜欢构建源代码,那么这是您的最佳选择。

否则,您已经有一个 Hadoop 集群,因此选择“用户提供”并将您的相关 core-site.xml、hive-site.xml、yarn-site.xml 和 hdfs-site.xml 全部复制到$SPARK_CONF_DIR,希望大部分都能正常工作

注意:DataFrame 在 Spark 3.x 之前无法在 Hadoop 3 上运行 - SPARK-18673

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-04-17
    • 1970-01-01
    • 2010-12-30
    • 2017-07-05
    • 2015-12-31
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多