【问题标题】:How to schedule a pyspark job in jupiter notebook in microsoft azure for a spark cluster?如何在 Microsoft azure 的 jupiter notebook 中为 spark 集群安排 pyspark 作业?
【发布时间】:2017-03-22 11:57:37
【问题描述】:

我是 Spark 的新手。我通过安装在我们的 HDInsight 集群中的 jupyter notebook 交互式 UI 开发了一个 pyspark 脚本。现在我从 jupyter 本身运行代码,但现在我必须自动化脚本。我尝试使用 Azure Datafactory,但找不到从那里运行 pyspark 脚本的方法。也尝试使用 oozie 但不知道如何使用它。我尝试保存笔记本并重新打开它并运行所有单元格,但它就像手动方式。

请帮我在 Microsoft Azure 中安排一个 pyspark 作业。

【问题讨论】:

    标签: azure pyspark cluster-computing jobs azure-hdinsight


    【解决方案1】:

    我在discussion 上搜索了有关使用 Apache Spark for pyspark 运行计划作业(如 crontab)的最佳实践,您可能会查看该实践。

    如果没有oozie,我有一个简单的想法,就是将jupyter notebook 保存到本地并编写一个shell 脚本,通过Livy 将python 脚本提交到HDInsight Spark,并使用linux crontab 作为调度程序。作为参考,您可以参考如下。

    1. IPython Notebook save location
    2. How can I configure pyspark on livy to use anaconda python instead of the default one
    3. Submit Spark jobs remotely to an Apache Spark cluster on HDInsight using Livy

    希望对你有帮助。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-01-26
      • 1970-01-01
      • 2014-10-08
      • 2014-04-02
      • 1970-01-01
      • 2019-05-04
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多