【问题标题】:Data bricks cluster installs all the packages every time I start it每次启动 Databricks 集群时都会安装所有软件包
【发布时间】:2019-04-01 12:24:53
【问题描述】:

我一直在使用 Python/R 编写 Databricks 笔记本。工作完成后,我们需要终止集群以节省相关成本。 (因为我们正在使用机器)。

因此,如果我们想在任何笔记本上工作,我们还必须启动集群。我已经看到在集群中再次安装软件包需要很长时间。每次我们启动集群时,有什么方法可以避免安装?

【问题讨论】:

  • 我认为您可以将它们安装在工作区而不是集群上。我可以做更多的研究以确保解决问题
  • 是的,如果可以,请告诉我。

标签: databricks azure-databricks


【解决方案1】:

更新:Databricks 现在允许自定义 docker 容器。

很遗憾没有。

当您终止集群时,它的内存状态会丢失,因此当您再次启动它时,它会带有一个干净的映像。即使您将所需的包添加到初始化脚本中,也必须在每次初始化时安装它们。

您可以要求 Databricks 支持检查是否可以为您创建自定义集群映像。

【讨论】:

    【解决方案2】:

    我正在使用 conda env 来安装软件包。第一次安装后,我将环境保存为 dbfs 中的 yaml 文件,并在所有其他运行中使用相同的 yaml 文件。这样我就不用重新安装包了。

    将环境保存为 conda YAML 规范。

    %conda env export -f /dbfs/filename.yml
    

    使用 conda env update 将文件导入另一个笔记本。

    %conda env update -f /dbfs/filename.yml
    

    列出包 -

    %conda list
    

    【讨论】:

    • 这不会节省时间,您仍然需要安装它们
    猜你喜欢
    • 1970-01-01
    • 2019-02-23
    • 1970-01-01
    • 2021-08-02
    • 2015-07-27
    • 1970-01-01
    • 1970-01-01
    • 2018-07-11
    • 2011-01-21
    相关资源
    最近更新 更多