【发布时间】:2019-06-30 21:06:12
【问题描述】:
我正在使用气流来触发数据块上的作业。我有许多运行数据块作业的 DAG,我希望只使用一个集群而不是多个集群,因为据我了解,这将降低这些任务产生的成本。
使用DatabricksSubmitRunOperator有两种方法可以在数据块上运行作业。要么使用正在运行的集群,通过 id 调用它
'existing_cluster_id' : '1234-567890-word123',
或启动一个新集群
'new_cluster': {
'spark_version': '2.1.0-db3-scala2.11',
'num_workers': 2
},
现在我想尽量避免为每个任务启动一个新集群,但是集群在停机期间关闭,因此它不再通过它的 id 可用,我会收到一个错误,所以我的唯一选项view 是一个新的集群。
1) 有没有办法让集群即使在关闭时也可以通过 id 调用?
2) 人们只是让集群保持活力吗?
3) 还是我完全错了,为每个任务启动集群不会产生更多成本?
4) 有什么我完全错过的吗?
【问题讨论】:
-
Step1- 点击集群并在 URL 中找到以下详细信息。第 2 步:从 URL 复制 ClusterName,如下定义。 eastus.azuredatabricks.net? o=WorkSpaceID#/setting/clusters/
/configuration notebook_task_params = { 'existing_cluster_id': " ", 'notebook_task': { 'notebook_path': '/Users/username@domain.com/notebookName', } , } -
我不再为这个问题所困扰,但我仍然想知道你会怎么做。似乎缺少步骤,而且我在 AWS 中工作,如果这有什么不同的话,我不确定。
-
我的情况是,我只是通过了这些步骤并在 azure 中正常工作。未在 AWS 中尝试过,我将在此处检查和更新。
标签: airflow databricks