【发布时间】:2018-12-22 01:44:43
【问题描述】:
我正在编写一个需要在本地以及 Databricks 上运行的 spark 作业。
每个环境(文件路径)中的代码必须略有不同,因此我试图找到一种方法来检测作业是否在 Databricks 中运行。到目前为止,我发现的最好方法是在根目录中查找“dbfs”目录,如果存在则假设它在 Databricks 上运行。这感觉不是正确的解决方案。有人有更好的主意吗?
【问题讨论】:
-
在 Databricks 上运行时设置环境变量?而不是/另一个在本地运行时?类似于开发/生产分离。
-
你能传递参数这样的配置文件吗?在 Databricks 上是集群模式吗?
-
@steven35 你会将它构建为 jar 并通过
spark-submit作业运行它吗?
标签: java apache-spark databricks