【发布时间】:2020-03-13 17:36:23
【问题描述】:
我目前有一个 PySpark 作业部署在 DataProc 集群上(1 个主节点和 4 个工作节点,具有足够的核心和内存)。该作业在数百万条记录上运行并执行昂贵的计算(多边形中的点)。我能够自己成功地运行这项工作。但是,我想将作业安排在每月 7 日运行。
我正在寻找的是在 DataProc 集群上设置 cron 作业的最有效方法。我试图阅读 Cloud Scheduler,但它并没有准确解释它如何与 DataProc 集群结合使用。在 DataProc 上查看 cron 作业的示例或在 DataProc 上专门与 Scheduler 一起工作的一些文档将非常有帮助。
提前致谢!
【问题讨论】:
标签: google-cloud-platform cron google-cloud-dataproc google-cloud-scheduler