【问题标题】:Deploy repository to new databricks workspace将存储库部署到新的数据块工作区
【发布时间】:2022-01-06 14:17:18
【问题描述】:

我正在数据块工作区中开发我的代码。通过与 Repos 的集成,我使用 Azure DevOps 对我的代码进行版本控制。

我想使用 Azure Pipelines 将我的代码部署到新的测试/生产环境。要将文件复制到新环境,我使用 databricks 命令行界面。我运行(databricks-cli 配置后)

git checkout main
databricks workspace import_dir . /test

将文件从 VM 复制到新的 databricks 工作区。但是,import_dir 语句仅复制以某些扩展名结尾的文件(例如,不是 .txt 文件,因此我的 requirements.txt 不会被复制)并删除扩展名,将所有内容转换为笔记本。

这很成问题:我对其他 python 文件使用相对导入,但是这些文件被转换为笔记本,因此导入不再起作用。有什么办法可以避免删除扩展?以及如何复制所有文件而不是仅复制具有某些扩展名的文件?

【问题讨论】:

    标签: azure-pipelines databricks azure-databricks databricks-cli databricks-repos


    【解决方案1】:

    如果您使用的是databricks workspace import_dir,那么它会将数据导入仅支持 Scala/Python/R 源代码的 Databricks 工作区。仅 Databricks Repos 支持任意文件,它是 Databricks 中的一个单独实体,与 Databricks 工作区略有不同。

    如果您想将代码更改推广到 UAT/生产,那么您可以继续使用 Repos - 在该环境中创建相应的存储库(例如,使用 databricks repos create),然后使用 databricks repos update 命令推广更改.您可以在 following demo 中找到详细说明,其中显示了如何在 Repos 中的笔记本上执行 CI/CD,以及如何将代码提升到生产环境。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2022-07-25
      • 2014-02-15
      • 2014-05-16
      • 1970-01-01
      • 1970-01-01
      • 2014-11-02
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多