Airflow SparkSubmitOperator - 如何在另一台服务器中进行火花提交答案

【问题标题】：Airflow SparkSubmitOperator - How to spark-submit in another serverAirflow SparkSubmitOperator - 如何在另一台服务器中进行火花提交
【发布时间】：2019-05-15 08:49:26
【问题描述】：

我是 Airflow 和 Spark 的新手，我正在努力使用 SparkSubmitOperator。

我们的气流调度程序和我们的 hadoop 集群没有设置在同一台机器上（第一个问题：这是一个好习惯吗？）。

我们有许多需要调用 pyspark 脚本的自动程序。这些 pyspark 脚本存储在 hadoop 集群 (10.70.1.35) 中。气流dags存储在气流机（10.70.1.22）中。

目前，当我们想要使用气流火花提交 pyspark 脚本时，我们使用一个简单的 BashOperator，如下所示：

cmd = "ssh hadoop@10.70.1.35 spark-submit \
   --master yarn \
   --deploy-mode cluster \
   --executor-memory 2g \
   --executor-cores 2 \
   /home/hadoop/pyspark_script/script.py"
t = BashOperator(task_id='Spark_datamodel',bash_command=cmd,dag=dag)

它工作得很好。但是我们想开始使用 SparkSubmitOperator 来触发提交我们的 pyspark 脚本。

我试过了：

from airflow import DAG
from datetime import timedelta, datetime
from airflow.contrib.operators.spark_submit_operator import 
SparkSubmitOperator
from airflow.operators.bash_operator import BashOperator
from airflow.models import Variable

dag = DAG('SPARK_SUBMIT_TEST',start_date=datetime(2018,12,10), 
schedule_interval='@daily')


sleep = BashOperator(task_id='sleep', bash_command='sleep 10',dag=dag)

_config ={'application':'hadoop@10.70.1.35:/home/hadoop/pyspark_script/test_spark_submit.py',
    'master' : 'yarn',
    'deploy-mode' : 'cluster',
    'executor_cores': 1,
    'EXECUTORS_MEM': '2G'
}

spark_submit_operator = SparkSubmitOperator(
    task_id='spark_submit_job',
    dag=dag,
    **_config)

sleep.set_downstream(spark_submit_operator)

语法应该没问题，因为 dag 没有显示为损坏。但是当它运行时它给了我以下错误：

[2018-12-14 03:26:42,600] {logging_mixin.py:95} INFO - [2018-12-14 
03:26:42,600] {base_hook.py:83} INFO - Using connection to: yarn
[2018-12-14 03:26:42,974] {logging_mixin.py:95} INFO - [2018-12-14 
03:26:42,973] {spark_submit_hook.py:283} INFO - Spark-Submit cmd: 
['spark-submit', '--master', 'yarn', '--executor-cores', '1', '--name', 
'airflow-spark', '--queue', 'root.default', 
'hadoop@10.70.1.35:/home/hadoop/pyspark_script/test_spark_submit.py']
[2018-12-14 03:26:42,977] {models.py:1760} ERROR - [Errno 2] No such 
file or directory: 'spark-submit'
Traceback (most recent call last):
      File "/home/dataetl/anaconda3/lib/python3.6/site- 
   packages/airflow/models.py", line 1659, in _run_raw_task    
    result = task_copy.execute(context=context)
      File "/home/dataetl/anaconda3/lib/python3.6/site- 
   packages/airflow/contrib/operators/spark_submit_operator.py", line 
168, 
    in execute
        self._hook.submit(self._application)
      File "/home/dataetl/anaconda3/lib/python3.6/site- 
   packages/airflow/contrib/hooks/spark_submit_hook.py", line 330, in 
submit
        **kwargs)
      File "/home/dataetl/anaconda3/lib/python3.6/subprocess.py", line 
707, 
    in __init__
        restore_signals, start_new_session)
      File "/home/dataetl/anaconda3/lib/python3.6/subprocess.py", line 
    1326, in _execute_child
        raise child_exception_type(errno_num, err_msg)
    FileNotFoundError: [Errno 2] No such file or directory: 'spark-submit'

这是我的问题：

我应该在气流机器上安装 spark hadoop 吗？我问是因为在这个 topic 中我读到我需要复制 hdfs-site.xml 和 hive-site.xml。但是你可以想象，我的气流机器上既没有/etc/hadoop/ 也没有/etc/hive/ 目录。
a) 如果没有，我应该将hdfs-site.xml 和hive-site.xml 复制到我的气流机器上的哪个位置？
b) 如果是，是否意味着我需要将气流机配置为客户端？一种不参与作业但可以用来提交动作的边缘节点？
那么，我可以从我的气流机器上spark-submit 吗？ 如果可以，那么我不需要像在 mysql 数据库中那样在 Airflow 上创建连接例如，对吗？
哦，蛋糕上的樱桃：我能否将我的 pyspark 脚本存储在我的气流机器中，spark-submit 它们来自同一台气流机器。这将是惊人的！

任何评论都会非常有用，即使您无法回答我所有的问题...

无论如何提前谢谢！ :)

【问题讨论】：

“我的气流机器上既没有 /etc/hadoop/ 也没有 /etc/hive/ 目录” >> 当您在没有没有完整的 Hadoop 客户端，您必须在 CLASSPATH 中存在的目录中存在 *-site.xml 配置；使用 spark-submit 时设置 $HADOOP_CONF_DIR 并让脚本自己管理 CLASSPATH 就足够了

标签： apache-spark hadoop airflow

【解决方案1】：

回答您的第一个问题，是的，这是一个很好的做法。

SparkSubmitOperator的使用方法请参考我在https://stackoverflow.com/a/53344713/5691525的回答

是的，您需要气流机器上的 spark-binaries。
-
是
否 -> 你仍然需要一个连接来告诉 Airflow 你在哪里安装了你的 spark 二进制文件。类似于https://stackoverflow.com/a/50541640/5691525
应该可以工作

【讨论】：