带有 HDP 2.6 堆栈的 Apache spark 3.0

【问题标题】：Apache spark 3.0 with HDP 2.6 stack带有 HDP 2.6 堆栈的 Apache spark 3.0
【发布时间】：2020-11-13 09:11:06
【问题描述】：

我们计划在现有 HDP 2.6 集群之外设置 Apache Spark 3.0，并在该集群中使用 yarn(v2.7) 提交作业，无需升级或修改。目前用户正在使用 HDP 堆栈中包含的 Spark 2.3。目标是在 HDP 集群外部启用 Apache Spark 3.0 而不会中断当前作业。

最好的方法是什么？在 HDP 集群外设置 apache 3.0 客户端节点并从新客户端节点提交？

对此有什么建议吗？避免与当前 HDP 堆栈及其组件发生冲突的事项？

【问题讨论】：

【解决方案1】：

从 spark 源代码 3.0.1 构建 spark 3.0.1，带有特定的 (HDP 2.6) Hadoop，Hive 版本。然后仅将其部署在 HDP 客户端节点中。 Spark 3.0.1 预构建的二进制文件与 Hive 1.2.1 存在兼容性问题，因为它是使用最新的 hive 构建的。

构建选项：

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive-1.2 -Phive-thriftserver -DskipTests -Dmaven.test.skip=true clean package

【讨论】：