【发布时间】:2016-06-17 11:53:12
【问题描述】:
我有一个 ipython 笔记本,其中包含集群上的一些 PySpark 代码。目前我们正在使用 oozie 通过 HUE 在 Hadoop 上运行这些笔记本。设置感觉不太理想,我们想知道是否有替代方案。
我们首先将.ipynb文件转换成.py文件,并移动到hdfs。除了这个文件,我们还创建了一个调用 python 文件的.sh 文件。内容类似:
#!/bin/sh
set -e
[ -r /usr/local/virtualenv/pyspark/bin/activate ] &&
source /usr/local/virtualenv/pyspark/bin/activate
spark-submit --master yarn-client --<setting> <setting_val> <filename>.py
接下来我们让 Oozie 指向这个 .sh 文件。这种流程感觉有点麻烦,而且 Oozie 并没有让我们深入了解发生故障时出现的问题。我们确实喜欢 Oozie 知道如何根据您的配置并行或串行运行任务。
有没有更好、更流畅的方式来安排 pyspark 笔记本?
【问题讨论】:
标签: python hadoop pyspark oozie jupyter-notebook