【问题标题】:Apache spark 3.0 with HDP 2.6 stack带有 HDP 2.6 堆栈的 Apache spark 3.0
【发布时间】:2020-11-13 09:11:06
【问题描述】:

我们计划在现有 HDP 2.6 集群之外设置 Apache Spark 3.0,并在该集群中使用 yarn(v2.7) 提交作业,无需升级或修改。目前用户正在使用 HDP 堆栈中包含的 Spark 2.3。目标是在 HDP 集群外部启用 Apache Spark 3.0 而不会中断当前作业。

最好的方法是什么? 在 HDP 集群外设置 apache 3.0 客户端节点并从新客户端节点提交?

对此有什么建议吗? 避免与当前 HDP 堆栈及其组件发生冲突的事项?

【问题讨论】:

    标签: apache-spark hdp spark3


    【解决方案1】:

    从 spark 源代码 3.0.1 构建 spark 3.0.1,带有特定的 (HDP 2.6) Hadoop,Hive 版本。然后仅将其部署在 HDP 客户端节点中。 Spark 3.0.1 预构建的二进制文件与 Hive 1.2.1 存在兼容性问题,因为它是使用最新的 hive 构建的。

    构建选项:

    ./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive-1.2 -Phive-thriftserver -DskipTests -Dmaven.test.skip=true clean package
    

    【讨论】:

    • 你能解释一下吗?分享完整的过程/命令来重现这对即将到来的用户来说会更有帮助。谢谢
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-07-06
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多