【发布时间】:2022-01-17 15:13:50
【问题描述】:
我在 Azure Databricks 中有一个比较大的项目,很快就会投入生产。该代码当前组织在存储库中的几个文件夹中,并且使用 ADF 触发任务,并且作业集群一个接一个地执行笔记本。 笔记本有一些硬编码值,如输入路径、输出路径等。
我认为这不是最好的方法。
我想摆脱硬编码的值并依赖一些环境变量/环境文件/环境类或类似的东西。
我正在考虑创建一些类,这些类将具有具有单独转换和转换之外的保存操作的方法。 你能给我一些建议吗?如何在 Databricks 中从另一个引用一个 scala 脚本?我应该创建一个 JAR 吗?
或者你能把我推荐给一些文档/好的公共存储库,在那里我可以看到应该如何做?
【问题讨论】:
标签: scala apache-spark pyspark databricks azure-databricks