【发布时间】:2022-01-10 17:37:51
【问题描述】:
我们有许多 Python Databricks 作业,它们都使用相同的底层 Wheel 包来安装它们的依赖项。安装这个 Wheel 包,即使有一个节点在池中闲置,仍然需要 90 秒。
其中一些作业运行时间很长,因此我们想使用 Jobs 计算机集群for the lower cost in DBUs.
其中一些作业的运行时间要短得多(
阅读 Databricks 文档表明 Idle instances in the Pool are reserved for us but not costing us DBUs.有没有办法让我们在 Idle 实例上预先安装所需的库,以便在完成作业时我们能够立即开始处理它?
是否有替代方法可以满足类似的用例?
【问题讨论】:
-
请帮助我了解您的用例小模式。 1.为什么你试图在节点级别而不是集群级别安装包? 2. 为什么我们不能使用笔记本级别的包。参考:docs.databricks.com/libraries/notebooks-python-libraries.html
-
感谢您的回复。 1. 在集群级别安装它们也很好。我只想在尝试在节点上运行作业之前安装这些库,所以只要这样做我对任何一种方法都很满意。我不认为在这里应用集群级别,因为这些是来自池的作业的节点。 2. 我认为这不适用于笔记本级别的软件包,因为这些是工作,而不是笔记本。似乎这种安装发生在代码运行时而不是节点初始化时。
标签: python azure cluster-computing databricks pool